3月27日,阿里宣布开源Qwen2.5-Omni,这是通义系列模型中首个端到端全模态大模型。
据阿里介绍,Qwen2.5-Omni可同时处理文本、图像、音频和视频等多种模态数据的输入,并实时生成文本与自然语音合成输出。
相较于GPT-4o、Gemini-1.5-Pro 等数千亿参数的闭源大模型,Qwen2.5-Omni仅有70 亿参数。阿里表示,这让全模态大模型在产业上的广泛应用成为可能。即便在手机上,也能部署和应用Qwen2.5-Omni模型。此前,阿里巴巴联合创始人、董事局主席蔡崇信确认了阿里与苹果就AI合作的传闻,国行版苹果手机将采用阿里的AI技术。
除了参数尺寸小的优势外,阿里称Qwen2.5-Omni在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的Qwen2-Audio或Qwen2.5-VL模型,且语音生成测评分数(4.51)达到了与人类持平的能力。
这得益于Qwen2.5-Omni采用的Thinker-Talker双核架构等技术的创新。Thinker负责处理和理解用户输入的内容,Talker则输出相应的语音标记,好比让模型拥有了人类的“大脑”和“发声器”。
阿里方面还公布了大模型开源路线的成果:截至目前,海内外AI开源社区中千问Qwen的衍生模型数量突破10万,是公认的全球第一开源模型。另据全球最大AI开源社区Huggingface在2月10日发布的开源大模型榜单,排名前十的开源大模型,均是基于阿里通义千问开源模型二次训练的衍生模型。
“开源本质上也是在比拼谁的技术更强,有领先力才有意义。”3月27日,阿里云通义大模型业务总经理徐栋在博鳌亚洲论坛期间接受南都记者采访时说,如果大模型公司只是开源一款排名第二甚至更落后的模型,对业界而言便失去意义,这些开源模型会被淹没。
虽然DeepSeek扭转了开源和闭源模型阵营的力量比对,包括百度在内的闭源路线拥护者也发生180度转向,但徐栋认为,这不意味着所有企业一定会追求开源。因为其他公司可能评估其模型的能力达不到开源的实力,开源之后未必能马上得到很多反馈。
3月27日,阿里云通义大模型业务总经理徐栋在博鳌亚洲论坛一场分论坛上参与讨论。图:杨柳
受访时,谈及AI应用层的前景,徐栋表示,众多研究论文的涌现表明,当下模型性能的边界探索尚未完全展开,模型的能力正处于发展初期至中期的阶段。还需要一些时间,才能看到AI应用层的爆发。
AI智能体是AI落地应用的形态之一。近期,Manus带火Computer Use Agent(用于电脑的智能体)概念。此前,手机厂商也在嵌入能自主操作用户指令的AI智能体。但徐栋认为,这类智能体还在相对早期的状态,延时是一个很大的问题,而且精度有待提高。另外,这些智能体目前依赖于云端运行,如果后续能落地到端侧,将会带来更多的商业可能性。
采写:南都记者 杨柳 发自海南博鳌
编辑:李玲
更多报道请看专题:直击博鳌亚洲论坛2025年年会