南都记者关注到,2月10日全球最大AI开源社区Huggingface发布了最新的开源大模型榜单,其中排名前十的开源大模型,都基于阿里通义千问(Qwen)开源模型二次训练的衍生模型。
除此以外,近期阿里通义千问(Qwen)模型屡次崭露头角。南都记者了解获悉,近期爆火的DeepSeek“蒸馏”出的4个开源模型、斯坦福大学著名计算机科学家李飞飞用不到50美元费用“打造”的s1-32B人工智能推理模型,也是以阿里通义千问开源模型为底座。
heHuggingface2月10日官网榜单截图
Huggingface榜单是目前全球最具权威性的开源大模型榜单,其测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等。Huggingface2月10日官网榜单显示,排名前十的开源大模型全部都是基于阿里通义千问(Qwen)开源模型二次训练的衍生模型。
上榜的两款开源模型,MaziyarPanahi/calme-3.2-instruct-78b模型和shuttleai/shuttle-3。
近期,李飞飞团队用不到50美元的费用,以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座,在16块H100 GPU上监督微调26分钟,训练出新模型s1-32B,取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比o1-preview高出 27%。
值得一提的是,模型s1-32B的打造并非是从零开始,而是基于现成的、预训练的模型(阿里通义千问Qwen2.5-32B-Instruct)进行监督微调,因此成本也大幅降低。
此前,DeepSeek官方也曾透露,将DeepSeek-R1的推理能力“蒸馏”出了6个模型开源给社区,模型蒸馏的过程指的是将一个大型、复杂模型的知识转移到一个更小、更简单的模型中,更小的模型具有更小的体积和更高的运行效率,同时模型蒸馏也是资源受限设备(如移动设备或嵌入式系统)中部署机器学习模型的理想选择。
而DeepSeek蒸馏出的6个开源模型中,有4个就是基于阿里云Qwen-32B来蒸馏,据悉这些模型在多项能力上实现了对标OpenAI o1-mini的效果。
从2023年8月起,阿里通义千问相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括大语言模型、多模态模型、数学模型和代码模型等数十款。目前,通义千问Qwen大模型已经成为全球最大的开源模型族群。在海内外开源社区中,Qwen的衍生模型数量已突破9万,超越美国Meta公司旗下的Llama系列开源模型,位居全球第一。在Hugging face2024年的开源模型下载中,Qwen模型系列中的Qwen2.5-1.5B-Instruct的下载量占总下载量的26.6%,是全球下载量最高的开源模型。
采写:南都记者 林文琪
编辑:甄芹