前段时间在群里有人发出来豆包作图中,文字无法体现的问题,这里做了个简单测试对比。如下图用文心一格生成的图片,非常另类。
语言模型
提问及回答
问题:画一幅头戴“必胜”头巾,在足球场边加油助威的人
说明:群内朋友发了一幅AI生成图,一位坐办公室头巾上有字的画面,但展示的字根本不是字,所以就做了简单测试。
文心一言
讯飞星火
通义千问
豆包
360智脑
百小应
腾讯元宝
Kimi
C知道
商量
未测
智谱清言
总结
从以上对比来看,腾讯混元的作图比较接近,然后通过语言模型,提问为何无法在AI作图中绘制出文字,回答如下:
问题:请问AI作图中,为何无法绘制出汉字或者英文字体到图画中?
回答:
在AI作图中,无法绘制出汉字或英文字体的问题,主要受到技术发展和模型特性的限制。以下是对这一问题的详细分析:
一、技术层面的挑战
语言处理能力:
AI绘图工具大多基于深度学习和神经网络构建,要求算法具备理解和处理绘图指令中文字的能力。
中文作为一种语境丰富且结构复杂的语言,其字符数量庞大,笔画多样且排列顺序固定,这对AI的视觉处理与生成技术提出了巨大挑战。
相比之下,英文字符数量有限,结构相对简单,因此AI在绘制英文字体时面临的难度较低。
模型训练的数据集:
AI绘图工具的效果很大程度上依赖于训练数据的质量和数量。
如果训练用的数据集中中文内容较少或不够丰富和多样化,AI就难以学习到准确的中文表现形式。
英文则因为其在全球范围内的广泛应用和普及,相关数据集更为丰富和完善,因此AI在绘制英文字体时表现更佳。
编码和字体支持:
正确展示中文字符需要大量字体文件支持多样化的字符编码,这在AI模型中可能并不是始终可行的。
若AI系统未能集成充分的中文字体资源或对Unicode中的中文编码支持不全,绘制中文字符时就可能出错。
英文字符的编码和字体支持则相对完善,因此AI在绘制英文字体时较少出现此类问题。
二、模型特性的限制
算法设计:
AI绘图工具的算法设计主要基于图像处理和生成技术,对于文字的精确绘制和排版能力有限。
尽管近年来AI技术在不断进步,但要在算法层面完全解决文字绘制的问题仍面临较大挑战。
应用场景:
AI绘图工具主要应用于图像生成和编辑领域,对于文字处理的需求相对较少。
因此,在算法设计和模型训练时,可能更侧重于图像特征的提取和生成,而非文字的处理和排版。
三、解决方案与未来展望
丰富训练数据集:
收集更多样化的中文训练数据集,包括不同字体、风格和上下文中的中文字符,以提高AI对中文的理解和生成能力。
优化算法设计:
针对文字绘制的特点和需求,优化AI算法的设计,提高其对文字的精确绘制和排版能力。
加强编码和字体支持:
确保AI系统有足够的字体资源,并正确支持中文字符的编码,以在生成文字时给予正确的表现。
技术创新与突破:
随着技术的不断进步和更多细分领域数据的可用性,可以期待AI在文字生成方面取得显著进展。
例如,阿里达摩院推出的AnyText模型就实现了对中文等多语言文字的精确生成和编辑。
综上所述,AI作图在绘制汉字或英文字体时面临的问题主要受到技术发展和模型特性的限制。通过丰富训练数据集、优化算法设计、加强编码和字体支持以及技术创新与突破等措施,可以逐步解决这些问题并提升AI在文字绘制方面的能力。
我觉得当前的语言模型还是更加往实用上努力,为解决当前人工。而对于作图上的文字,市场期许不高,也就很少一部分喜欢诗词水墨画的人士有这方面的需求。
比如要在一幅水墨画上,作一首李白的诗,当前的AI肯定无法实现。