Bootstrap

DeepSeek又一开源模型Janus-Pro 以文生图模型

一 简介

DeepSeek R1 模型,在文字创作,代码编程、数据推理等多方面都具有不俗的表现,但是R1模型并不支持以文生图的功能,DeepSeek在多模态方面已早有布局,其实去年,他们就曾发过一个多模态模型就是Janus,2025年的1月27日,又发布了Janus的pro版本即 Janus-Pro。

二 Janus-Pro

2.1 以文生图功能

Janus-Pro 为DeepSeek开源的最新的多模态模型,主要为以文生图而设计,在同类模型测试中也表现优异,见下测试对比图。 Pro版本相对Janus有几大改进:

  1. 提供更好的训练策略;

  2. 扩大了训练的数据集;

  3. 提供了1B和7B尺寸模型,1B模型甚至可以在浏览器中运行;

  4. 提高了生成图像的稳定性和一致性,这个可以通过下面的生成图对比看出来;

13484dc5586638e6c2da9b1377f684c0.jpeg通过对比可以看出,Janus-Pro已经跻身最优秀的以文生图的模型之列,同尺寸规模的模型测试中,Janus-Pro-7B的表现最优;右图,在基准测试中,Janus-Pro在GenEval这个模型生成效果测试中得分最高80%,在执行准确度DPG-Bench测试中,也是得到了最高84.2%分;

Janus和Janus-Pro生成图的对比效果如下图,差距还是非常巨大的;976a3557e1bd51289c8cadd4b1644e7a.jpeg

2.2 分析理解图功能

Janus-Pro不光可以以文生图,还可以反过来分析图片中的信息,比如你可以上传图像,让它分析图中的物体,解释图中的文本,分析上下文等。

比如下图的分析效果:7ffc65df12473de38dbc877d2f1ac043.jpeg

我将官网的测试对比图发送给它官网的在线图片分析模型,进行分析,得到如下结果:ff2b3e8f3295dab4bf578bc6abd59a53.jpeg同一句提示词,英文交互给出的分析结果更为详细些:

b267c55d656c6d0829f91bffcebca367.jpeg
英文交互分析结果

2.3 以文生图功能对比

在官网中,以文生图更推荐FLUX而不是Janus-Pro,Janus-Pro和FlUX的对比如下: 以下是将图片中的英文转换成中文后的 Markdown 表格:

特性

Janus Pro

Flux

主要关注点

多模态任务,文本-图像交互

高质量图像生成

性能

擅长指令执行,多模态任务

高质量图像且生成速度快

训练成本

相对较低的预算

未明确说明,可能更高

图像分辨率

输入:384 x 384 像素,输出:最高 768 x 768

可生成高达 1024 x 1024 像素

社区支持

开源,在 Hugging Face 上可用

拥有强大的社区支持和优化

总结,Flux更擅长高质量的图像快速生成,Janus Pro 是一个可以处理文本和图像的多模态模型。它擅长将数学方程式图像转换为 LaTeX 代码以及根据详细的文本提示生成图像等任务。

我测试了下发现网页版本,两个生成图像的速度都比较慢,也许是高峰期比较拥堵的原因。

2.4  本地运行和体验

如果只是简单的体验,可以直接去https://janusai.pro 网址来体验在线以文生图和分析图片内容两个功能,不过可能是因为使用者太多的原因,导致生成图片的速度特别慢,所以也可以考虑下本地部署Janus-Pro-1B和Janus-Pro-7B这两个开源版本的模型;

Janus-Pro-1B

  1. 适用于资源有限的设备,甚至移动设备,适用个人用户(16GB VRAM的显卡)

  2. 生成的图像质量有限,可用于个人测试

Janus-Pro-7B

  1. 24GB VRAM 以及以上的显卡(20GB以上也基本可行),比如RTX4090显卡;

  2. 高质量图像生成,文字和信息识别基本准确,内容理解完整清晰,但是局部细节有所欠缺;

  3. 图像生成速度约15秒/张;

  4. 模型支持中文理解和交互;a312f14628335bcf7dd15cafa4d0f462.jpeg

下载地址

7B模型:https://huggingface.co/deepseek-ai/Janus-Pro-7B
1B模型:https://huggingface.co/deepseek-ai/Janus-Pro-1B

三 总结

Janus-Pro作为DeekSeek开源的多模态模型,不光可以以文生图,还具备强大的图像理解能力,无论对个人AI用户,还是对有需要的企业用户,都提供了一种多模态模型的解决方案,期待DeepSeek后续给我们带来更多优秀的模型;

四 AI名词解释和开源语言模型发布平台

4.1 AI交流中常见的术语

  • AI(人工智能):AI即人工智能(Artificial Intelligence),是让机器(如计算机系统)展现出智能的技术 ,使机器能像人一样学习、思考与决策。

  • LLM(大语言模型):LLM也就是大语言模型(Large Language Model),它属于人工神经网络,是一种凭借强大的通用语言生成及自然语言处理任务(如文本分类)能力而备受瞩目的语言模型。

  • GenAI(生成式人工智能):GenAI即生成式人工智能(Generative Artificial Intelligence),也简称GAI 。它运用生成式模型,能依据提示语生成文本、图像、视频等各类数据。

  • GPT(生成式预训练变换器):GPT即Generative Pre-trained Transformer,作为大语言模型的一种,是广为人知的GenAI技术,在语言处理方面表现卓越。

  • ChatGPT:这是OpenAI基于GPT技术开发的聊天机器人,专为对话场景优化,能与人自然流畅交流,解答问题、提供建议。

  • Autonomous Agent(自主型智能体):自主型智能体可独立开展工作,具有主动性,不仅能主动和人类沟通,还会给出建设性意见,以高效达成工作目标。

  • chat模型:指自带聊天功能的模型,像Qwen/Qwen2.5 - 7B - Instruct、DeepSeek - R1等,能与人进行聊天互动。

  • Embedding模型:该模型将文本、图像等数据转化为低维向量,便于计算机理解分析,向量关系反映数据间相似性。

1d62d92771d9b27e45177b633ba2e1c5.jpeg
关系图

4.2 开源语言模型发布平台

Hugging Face Hub:https://huggingface.co 这是世界最大的开源 AI 模型发布平台,可以看做ML的github;
https://ollama.com:开源的LLM服务包括模型和工具,工具提供与OpenAI兼容的API。
https://www.modelscope.cn/home: 可以理解成中国版本的Hugging Face Hub

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;