

以上内容由AI大模型生成,仅供参考
2月14日,继发布视频生成模型Seedance2.0、图像创作模型Seedream5.0Lite后,字节跳动发布豆包大模型2.0系列。
据介绍,豆包大模型2.0提供Pro、Lite、Mini三款不同尺寸的通用Agent模型。该系列通用模型的多模态理解能力实现全面升级,并强化了LLM与Agent能力,使模型在真实长链路任务中能够稳定推进,还进一步把能力边界从竞赛级推理扩展到研究级任务。
首次大版本跨代升级,数学推理和多模态理解能力突出
据了解,豆包大模型2.0是字节跳动最新推出的多模态Agent模型,也是豆包大模型自2024年5月正式发布以来首次大版本的跨代升级。
在教育、娱乐、办公等众多场景中,大模型需要理解图表、复杂文档、视频等内容。对此,豆包2.0全面升级多模态理解能力,在多模态感知、高精度文字提取、图表理解、空间理解、运动理解、视觉知识和推理、长视频理解等方面表现出色。
面对动态场景,豆包2.0增强了对时间序列与运动感知的理解能力,还可实现实时视频流分析、环境感知与主动交互,广泛应用于健身指导、穿搭建议、看护陪伴等生活场景。
大模型执行长链路复杂任务,需要丰富的世界知识。豆包2.0加强了长尾领域知识覆盖,在SuperGPQA等多项公开测试集上表现突出,科学领域知识测试成绩与Gemini3 Pro和GPT5.2相当,在跨学科知识应用上也排名前列。
Agent能力是大模型具备行动力的关键。测试成绩显示,豆包2.0 Pro在指令遵循、工具调用和SearchAgent等评测中达到顶级水平,在HLE-Text(人类的最后考试)上更是获得54.2的最高分,大幅领先于其他模型。
此外,豆包大模型2.0具备更强推理能力,支持思考长度可调节,且各思考长度下,Tokens效率都有大幅提升,模型的代码能力有显著提升。
目前,豆包2.0 Pro已在豆包App、电脑客户端和网页版上线,用户选择“专家”模式即可对话体验。火山引擎也已上线豆包2.0系列模型API服务。
南都N视频记者使用豆包专家模式,发送了一张林丹打球图,让豆包分析这个动作,并提出改进空间。豆包直接提出这是羽毛球传奇选手林丹的起跳杀球腾空准备动作,并分析了这个动作的核心优势和可优化进步空间。
南都记者还使用豆包专家模式测试了近日在社交媒体爆火的“洗车店离家50米,应该走路去还是开车去”,豆包给出了三个场景的回复:如果是洗车,优先开车去;如果是车已经送洗完毕、需要取车,优先走路去;如果是仅去洗车店办卡、咨询等非洗车需求,优先走路去。
豆包专家模式下,还补充了“冷车开50米伤车”完全是误区的信息,以及极端天气下、特殊情况下的选择。
据悉,豆包2.0Pro按“输入长度”区间定价,32k以内的每百万tokens输入定价是 3.2元,输出定价为16元/百万tokens,相比Gemini3Pro和GPT5.2有较大的成本优势。豆包2.0Lite更是极具性价比,综合性能超越两个月前发布的上一代主力模型豆包1.8,百万tokens输入价格仅为0.6元。
Seedance2.0外网爆火,有人帮老外充值赚钱
2月12日,豆包视频生成模型Seedance2.0接入旗下AI产品豆包和即梦。目前用户可以在豆包APP、电脑端、网页版以及即梦APP、即梦网页版等产品中体验该模型。
其中,豆包APP、即梦APP支持真人出镜,用户需先通过录音录像完成真人校验,才能生成本人形象的数字人分身,使用该分身生成AI视频。而在豆包电脑端、网页版以及即梦网页版等场景中,平台均明确提示暂不支持上传真人人脸素材。
南都记者在即梦App实测发现,使用Seedance2.0需要消耗相应的积分,生成一段5秒的视频需要20积分,积分的获取可以通过每日签到、购买会员、或者充值获得;而在豆包App上线的Seedance2.0只支持文生视频,还暂不支持图生视频,也不需要积分,但有生成额度限制,每个账号每天只有10个额度,生成一段十秒的视频需要消耗2个额度。
网页端的Seedance2.0能够支持图像、视频、音频、文本四种模态输入,表达方式更丰富,生成也更可控。用户可以用一张图来说明自己想要的画面风格,用一个视频指定角色的动作和镜头的变化,用一段音频表达预期的节奏和氛围,“提示词”开始不再局限于文字,创作过程变得更自然、更高效,也更像真正的“导演”。
此前,Seedance2.0已经在小范围进行内测,在全球范围内引发关注。埃隆·马斯克也不由感慨:“这发生得也太快了。”也有美国导演试用Seedance2.0后感叹,“好莱坞要完蛋了”。海外社交平台上,不少国外用户为了用上Seedance2.0,开始研究如何申请中国手机号,还有网友帮助国外用户充值积分赚钱。
图像创作模型Seedream5.0发布,能理解模糊指令
2月13日发布的豆包图像创作模型Seedream5.0,相比4.0版本,在理解、推理和生成方面全面提升,是一个“更聪明”且“更专业”的视觉创意伙伴。作为通向统一多模态模型的进一步探索,它开始能像人类设计师一样“理解”用户指令背后的意图,“看懂”不同画面中的规律,并将世界知识应用于图像与文本创作中。
据介绍,Seedream5.0采用多模态理解生成统一架构,随着跨模态的理解和推理能力提升,不再需要系统化的精准Prompt指令,它可通过简短、模糊的文本和图像输入主动推测用户意图,同时,模型在主体一致性、图文对齐等生成方面的表现也显著进步。
此外,Seedream5.0内置丰富的世界知识,覆盖科技与人文领域的多个垂类行业知识库。知识体系增强后,其生成结果更符合物理规律,信息可视化能力也大幅提升。
实时检索也让“大脑”突破局限,Seedream模型首次引入实时检索增强能力,它可通过联网检索,获取最新的知识和资讯,更精准地回应具有时效性的创作需求,尤其适合资讯海报生成等场景。
目前,在即梦平台已经可以免费使用Seedream5。南都记者试用发现,使用Seedream模型并不需要积分,生成一张图片只需要几秒钟,也可以理解模糊指令。
采写:南都N视频记者汪陈晨
编辑:甄芹