这是业内首个中文原生的DiT架构文生图开源模型,具备原生中文理解能力和双语编码能力,参数量15亿。模型目前已在专注于自然语言处理的开源机器学习平台Hugging Face及面向软件开发者的代码托管平台Github上发布,包含模型权重、推理代码、模型算法等完整模型,供企业与个人开发者免费商用。
据腾讯文生图负责人芦清林介绍,升级后的混元文生图大模型采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为文生视频等多模态视觉生成的基础。
过去,视觉生成扩散模型主要基于U-Net架构,但随着模型参数量的增加,基于 Transformer 架构的扩散模型(DiT,Diffusion Models with Transformers)展现出更好的扩展性,有助于提升模型的生成质量和效率。
据介绍,混元文生图大模型是业界最早探索并应用大语言模型结合DiT结构的文生图模型之一。2023年7月,腾讯混元文生图团队就明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型全面升级为DiT架构。
评测数据显示,最新的腾讯混元文生图模型效果相比前代提升超过 20%,远超开源的Stable Diffusion模型。
目前,主流的文生图开源生态基本围绕英文建设,Stable Diffusion等主流开源模型虽一定程度支持中文输入,但其核心数据集仍以英文为主。建设中文原生大模型以及相应的开源生态对于国内大模型产业有重要意义。
据悉,混元文生图以中文原生为基础,支持中英文双语输入及理解。其文生图能力已被广泛用于素材创作、商品合成、游戏出图等业务场景。今年初,腾讯广告基于腾讯混元大模型,发布了一站式AI广告创意平台腾讯广告妙思,可为广告主提供文生图、图生图、商品背景合成等多场景创意工具。完美体育 完美官方网站
“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享实践经验和研究成果,加速大模型行业发展。”芦清林表示,目前开源的混元文生图大模型版本,也是腾讯内部正在使用的版本,基于该模型,开发者和企业无需从头训练,即可直接将其用于推理,并可打造专属的AI绘画应用及服务。
此外,目前的文生图开源社区主要还是Stable Diffusion等为主的英文开源社区,开放、前沿的混元文生图基础模型,能丰富以中文为主的文生图开源生态,推动中文文生图技术研发和应用。完美体育 WM365