阿里通义衍生模型霸榜全球开源榜前十，李飞飞的模型也用了

南都N视频APP · 政商数据

原创2025-02-11 16:48

南都记者关注到，2月10日全球最大AI开源社区Huggingface发布了最新的开源大模型榜单，其中排名前十的开源大模型，都基于阿里通义千问（Qwen）开源模型二次训练的衍生模型。

除此以外，近期阿里通义千问（Qwen）模型屡次崭露头角。南都记者了解获悉，近期爆火的DeepSeek“蒸馏”出的4个开源模型、斯坦福大学著名计算机科学家李飞飞用不到50美元费用“打造”的s1-32B人工智能推理模型，也是以阿里通义千问开源模型为底座。

heHuggingface2月10日官网榜单截图

Huggingface榜单是目前全球最具权威性的开源大模型榜单，其测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等。Huggingface2月10日官网榜单显示，排名前十的开源大模型全部都是基于阿里通义千问（Qwen）开源模型二次训练的衍生模型。

上榜的两款开源模型，MaziyarPanahi/calme-3.2-instruct-78b模型和shuttleai/shuttle-3。

近期，李飞飞团队用不到50美元的费用，以阿里通义千问Qwen2.5-32B-Instruct开源模型为底座，在16块H100 GPU上监督微调26分钟，训练出新模型s1-32B，取得了与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果，甚至在竞赛数学问题上的表现比o1-preview高出 27%。

值得一提的是，模型s1-32B的打造并非是从零开始，而是基于现成的、预训练的模型（阿里通义千问Qwen2.5-32B-Instruct）进行监督微调，因此成本也大幅降低。

此前，DeepSeek官方也曾透露，将DeepSeek-R1的推理能力“蒸馏”出了6个模型开源给社区，模型蒸馏的过程指的是将一个大型、复杂模型的知识转移到一个更小、更简单的模型中，更小的模型具有更小的体积和更高的运行效率，同时模型蒸馏也是资源受限设备（如移动设备或嵌入式系统）中部署机器学习模型的理想选择。

而DeepSeek蒸馏出的6个开源模型中，有4个就是基于阿里云Qwen-32B来蒸馏，据悉这些模型在多项能力上实现了对标OpenAI o1-mini的效果。

从2023年8月起，阿里通义千问相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型，囊括大语言模型、多模态模型、数学模型和代码模型等数十款。目前，通义千问Qwen大模型已经成为全球最大的开源模型族群。在海内外开源社区中，Qwen的衍生模型数量已突破9万，超越美国Meta公司旗下的Llama系列开源模型，位居全球第一。在Hugging face2024年的开源模型下载中，Qwen模型系列中的Qwen2.5-1.5B-Instruct的下载量占总下载量的26.6%，是全球下载量最高的开源模型。

采写：南都记者林文琪

编辑：甄芹

南都N视频，未经授权不得转载、授权联系方式
banquan@nandu.cc. 020-87006626

本文作者