Bootstrap

腾讯开源首个中文原生文生图模型Hunyuan-DiT,15亿参数、中英双语支持,消费级单卡可推理

前言

近年来,文生图模型的快速发展让人们看到了 AI 技术在艺术创作领域的巨大潜力。然而,现有的主流文生图模型多以英文为训练语言,在中文理解方面存在局限性,导致生成的图像难以准确反映中文语境。为了填补这一空白,腾讯 AI 团队倾力打造了首个中文原生文生图模型——Hunyuan-DiT,并将其开源,旨在推动中文文生图领域的发展。

  • Huggingface模型下载:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

  • AI快站模型免费加速下载:https://aifasthub.com/models/Tencent-Hunyuan

Hunyuan-DiT 的技术亮点

Hunyuan-DiT 拥有以下关键技术特点,使其在中文文生图领域脱颖而出:

  • 中文原生训练,深度理解中文语境

Hunyuan-DiT 采用海量中文数据进行训练,使其对中文语境和文化元素有着更深层的理解,能够生成更符合中文审美和文化意蕴的图像。训练数据涵盖了超过十万个中文类别,包括人物、风景、植物、动物、物品、交通工具、游戏等等,并覆盖了数百种艺术风格,例如动漫、3D、绘画、写实、传统风格等等。

为了确保训练数据的质量,腾讯 AI 团队构建了从数据获取、数据清洗、数据标注到数据应用的完整数据处理流程,并设计了 “数据护航” 机制,不断优化数据质量,提升模型的生成能力。

  • 中英双语支持,打破语言壁垒

除了中文,Hunyuan-DiT 还支持英文提示词,实现中英双语的图像生成,为用户提供更便捷的操作体验。模型采用了一种结合双语 CLIP 和多语言 T5 编码器的策略,提升语言理解能力,同时能够处理更长的文本提示词,最多可达 256 个字符。

  • 15 亿参数规模,兼顾生成质量和推理效率

Hunyuan-DiT 拥有 15 亿参数,在保证生成质量的同时,也实现了高效的推理速度。经过优化,Hunyuan-DiT 可以使用消费级单卡进行推理,降低了用户的使用门槛,让更多用户可以体验文生图技术的魅力。

  • 多细节、多风格,打造细粒度图像生成新标杆

Hunyuan-DiT 支持细粒度的图像生成,能够根据用户描述的具体细节和风格要求,生成更加精准、符合预期的图像。例如,用户可以要求生成一张“身穿红色连衣裙、站在夕阳下的少女”的图像,Hunyuan-DiT 可以准确地识别出这些细节,并生成符合描述的图像。

为了实现细粒度的图像生成,Hunyuan-DiT 在模型结构中引入了 “跳跃连接” 模块,将编码器和解码器中的信息进行融合,提升模型对图像细节的捕捉能力。同时,模型还采用了 “旋转位置编码” 技术,能够同时编码词元的绝对位置和相对位置依赖关系,提升模型对空间信息的理解能力。

  • 多轮对话式创作,开启图像生成新体验

Hunyuan-DiT 支持多轮对话式图像创作,用户可以与模型进行交互,逐步完善图像生成,实现更具创意的创作体验。例如,用户可以先输入 “一只可爱的小猫”,模型生成一张小猫的图像,然后用户可以继续输入 “给小猫戴上一个红色的蝴蝶结”,模型会根据用户的新指令,在原有的图像基础上进行修改,最终生成用户满意的图像。

为了实现多轮对话式创作,Hunyuan-DiT 采用了多模态大型语言模型 (MLLM),并对其进行了专门的训练,使其能够理解用户指令,并生成符合用户意图的文本提示词,用于驱动图像生成。

Hunyuan-DiT 的性能优势

Hunyuan-DiT 在多个方面展现出了优异的性能,在中文文生图领域取得了领先优势:

  • 中文理解能力显著提升

与其他开源模型相比,Hunyuan-DiT 在中文理解能力方面有着显著提升,能够准确理解中文提示词,生成更符合语境的图像。例如,对于“繁华的夜市”这一提示词,Hunyuan-DiT 生成的图像展现了喧闹、热闹的夜市景象,而其他开源模型则可能生成较为抽象或不够贴近生活的图像。

  • 图像质量超越开源模型

根据内部测试,Hunyuan-DiT 在图像一致性、剔除 AI 伪影、主题清晰度和美学评分等方面均取得了领先优势。 在专业评估团队的评价中,Hunyuan-DiT 在文本图像一致性、剔除 AI 伪影、主题清晰度和美学评分等方面均超过其他开源模型。例如,在生成“古代中国诗词”相关的图像时,Hunyuan-DiT 能够生成具有更高图像质量和语义准确度的图像,展现出对中国文化的理解能力。

  • 消费级单卡可推理,降低用户门槛

Hunyuan-DiT 的模型参数规模为 15 亿,在消费级单卡上即可实现高效推理,降低了用户的使用门槛,让更多用户可以体验文生图技术的魅力。

Hunyuan-DiT 的应用潜力

Hunyuan-DiT 在多个领域具有广泛的应用潜力,可以为用户提供更便捷、更具创意的创作体验:

  • 创意设计,用户可以利用 Hunyuan-DiT 生成各种创意图像,例如海报、插画、产品设计图等,帮助设计师快速完成创作,提升工作效率。

  • 内容创作,Hunyuan-DiT 可以帮助用户快速生成各种内容素材,例如游戏场景、电影场景、广告图片等,为内容创作者提供更丰富的创作工具。

  • 教育娱乐,Hunyuan-DiT 可以用于制作教材、游戏、动画等,为教育娱乐领域提供更具创意和吸引力的内容。

总结

Hunyuan-DiT 的开源标志着中文文生图领域迈上了新的台阶,为中文文生图模型的发展提供了重要参考。随着技术的不断进步,相信未来 Hunyuan-DiT 会在更多领域发挥重要的作用,为人们的生活带来更多的便利和乐趣。

模型下载

Huggingface模型下载

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

AI快站模型免费加速下载

https://aifasthub.com/models/Tencent-Hunyuan

;