能画对“夫妻肺片”的文生图大模型来了！与Sora同款架构

南都N视频APP · 政商数据

原创2024-05-15 20:46

能理解并生成“夫妻肺片”“胸有成竹”的中文开源大模型出现了。
5月14日，腾讯宣布，旗下混元文生图大模型全面升级并对外开源，目前已在 Hugging Face 平台及 Github 上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费商用。
据悉，升级后的混元文生图大模型采用了与 sora 一致的DiT架构，不仅可支持文生图，也可作为视频等多模态视觉生成的基础。南都记者实测发现，目前混元文生图大模型已能充分理解中文成语、诗句和快速生成图片，同时支持用户在多轮对话中对图片进行调整。

采用Sora同款架构，中文俚语理解力增强

南都记者了解获悉，升级后的腾讯混元文生图大模型采用了Sora和Stable Diffusion 3的同款架构和关键技术。据悉，随着参数量的提升，基于Transformer架构的扩散模型能展现出更好的扩展性，有助于进一步提升模型的生成质量及效率。

试验发现，腾讯混元文生图大模型能实现多轮对话，其长文本理解能力最多能支持256字符的内容输入。用户可实现在一张初始生成图片的基础上，通过自然语言描述进行调整，来达到更满意的效果。

去年3月，一批最先推出文生图模型的厂商火出圈的不是产品，而是模型给用户开出的各式脑洞。比如，当网友对文心一言等模型输入“车水马龙”“鱼香肉丝”等关键成语时，模型大多按照字面意思输出“一辆车、一滩水、一条龙”和“用肉丝做成的鱼”。

南都记者了解获悉，文生图模型出现这样的开脑洞现象，多是因为核心数据集以英文为主，对中文的语言、美食、文化、习俗都理解不够。腾讯文生图负责人芦清林在沟通会上表示，过去大家通常都是用国外的东西在中文的数据上做一个新调，这种情况下意味着首先要把国外的数据做一层翻译，翻译过程中会造成很多损失和歧异。但混元文生图并没有经过这样的翻译过程，直接用中文原生的数据进行训练，所以它能理解中文。

在此次沟通会上，腾讯方面还透露，新一代腾讯混元文生图大模型视觉生成整体效果相比前代提升超过20%，在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著，能生成古诗词、俚语、传统建筑、中华美食等中国元素。

南都记者试验发现，当输入炎炎夏日中的“映日荷花别样红”时，混元能理解诗句并生成正常的荷花和夏景。输入去年在多个文生图大模型中“翻车”的“鱼香肉丝”和“夫妻肺片”名菜，模型也能生成符合人类理解的菜品。

不过，在随机输入“请画一盘蚂蚁上树”时，混元画出的图片按照字面意思理解，南都记者调整提示词为“请画一道叫蚂蚁上树的菜”时，画出来的才是川菜“蚂蚁上树”。

全面开源，今年将应用到QQ、企业微信等场景

据悉，目前腾讯混元文生图能力，已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。今年初，腾讯广告基于腾讯混元大模型，发布了一站式 AI 广告创意平台腾讯广告妙思，可为广告主提供文生图、图生图、商品背景合成等多场景创意工具，有效提高了广告生产及投放效率。

此次沟通会上腾讯方面还宣布要把最新的文生图模型开源。这意味着开发者及企业无需重头训练，即可直接用于推理，并可基于混元文生图打造专属的AI绘画应用及服务，能够节约大量人力及算力。据悉，腾讯已开源了超 170 个优质项目，均来源于腾讯真实业务场景，覆盖微信、腾讯云、腾讯游戏、腾讯AI、腾讯安全等核心业务板块。

在文生图模型的应用场景上，腾讯文生图负责人芦清林在会后接受群访时表示，去年文生图模型已经深入和广告场景做了一些协作，也已经和腾讯游戏做了深度技术合作、支撑QQ音乐业务场景。今年文生图模型还会跟社交软件包括QQ、企业微信很多业务场景做联动。

芦清林还表示，在这个时间段选择开源，一是因为混元自己已经准备好了具备开源的条件，二是看到大家越来越多地选择在DiT架构上去做开发，也就是说业界也需要开源。“我们原来走的是闭源路线，去年一直都是把模型迭代、再把接口开放给大家用。但我们发现在开源社区能让大家都参与进来，大家共建能让这件事情能走得更快。后面我们也在考虑把其他大模型的开源。”

采写：南都记者林文琪

编辑：田爱丽,甄芹