在的图像生成技术中,文本渲染的才干已逐渐成为权衡其先进性的关键规范。不论是学术界的最新钻研还是市场上的先进产品,都在竞相展现其处置复杂文本的才干,这不只标记着技术的提高,更是成为一种翻新的分水岭。
实践上,字图生成技术在多个畛域内显示出清楚的适用性,例如在设计海报、书籍封面、广告和LOGO等方面,已成为无法或缺的工具。
此外,随着社交媒体和数字营销的兴起,能够极速生成视觉吸引力强的图像变得尤为关键。这些图像往往须要联合富裕创意的文本,以更好地与指标观众沟通,从而在短期间内吸援用户留意力,提高品牌识别度。
图1 现有文生图方法的生成结果。Prompt: a cat holds a paper saying text rendering is important
在图1中,咱们可以直观地看到文生图模型技术的飞速提高。但是,虽然技术日益成熟,局部方法在处置复杂文本时仍显示出一些局限性。
例如,生成的图像有时会遗漏prompt中的关键词,这或者会影响最终图像的可用性。而像Ideogram和Recraft V3这样的产品在文本渲染方面体现杰出。
它们能够更准确地捕捉和出现文本中的细节和语境,从而生成与输入文本高度婚配的图像。
值得一提的是,Recraft V3作为文生图畛域的黑马,曾经在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO评分取得了第一名(图2)。Recraft的新模型展现出的品质超越了Midjourney、OpenAI以及其余一切关键图像生成公司的模型。
图2 在文生图排行榜上,Recraft V3排名第一
最近,Recraft团队在其官网网站上分享了其在文本渲染技术方面的一些成功细节。接上去的局部,我将详细剖析这些技术细节,讨论Recraft如何成功其杰出的文本到图像渲染成果。
图3 早期Recraft 20B模型的文本渲染才干不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws
Recraft团队首先尝试经常使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成图像,结果发现文本渲染成果不佳(图3)。基于此Recraft团队总结剖析了几个关键点:
1. 训练数据的限度:文本到图像的生成模型关键是在蕴含图像及其对应简明形容的数据集上启动优化的。这些形容通常只涵盖图像的大抵内容,而不提供详细细节,尤其是图像中的文字内容。因此,当须要生成蕴含详细文字的图像时,模型由于不足详细的条件或例子而体现不佳。
2. 文本失误的易识别性:人类的大脑关于处置和识别文本十分长于,因此在图像生成中的任何文本失误都很容易被咱们发现。
图4 Recraft团队驳回TextDiffuser-2技术结构两阶段文本渲染框架
论文链接:
在搜集数据的环节中,Recraft团队自创了TextDiffuser-2的方法,驳回了两阶段生成框架:首先生成文本规划,而后基于这些规划生成图像。
虽然文本规划可以经过经常使用OCR技术从现有的字图图像中检测取得,Recraft团队发现现有的开源OCR工具难以生成完美的OCR结果,这关键是由于数据散布的差异。
因此,Recraft团队参考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》论文(图5),开发了一种新的文本检测和识别方法。
图5 Recraft团队驳回此论文提取文本layout
论文链接:
最终,Recraft团队基于大言语模型训练了两个「双向」的模型:一个模型基于OCR结果生成caption,另一个模型则可以依据用户的prompt生成模型构想的OCR caption,从而成功文本规划的生成。这样的方法有效地优化了生成图像的品质和文本的准确性。
图6 Recraft团队经常使用OCR模型提取图像的文本layout,驳回大言语模型获取caption,并训练另外一个大言语模型由prompt获取layout用于图像生成
在构建文本消息的环节中,Recraft团队驳回了TextDiffuser-2的表征形式,每一行文本首先记载了文本的内容,随后经过坐标来指明文本的详细区域。
与TextDiffuser-2不同,Recraft团队经常使用了三个坐标点来示意文本(图7),使得模型能够支持渲染歪斜的文本。
此外,Recraft团队最终选用了相似ControlNet的架构来渲染白底黑字的图像,用作模型生成的辅佐条件。这种方法参与了文本渲染的可控性,准许用户自定义想要渲染的文本区域。这与仅经常使用prompt作为条件的flux和ideogram方法构成了对比,提供了更高的灵敏性和控制度。
图7 Recraft团队驳回TextDiffuser-2的表征形式获取文本layout,并将其渲染为图片作为condition启动图像生成
由于Recraft团队放开了测试接口,我对模型启动了一些测试,成果十分冷艳
图8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz
图9 prompt: a graphic design with monkey music festival poster
图10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world
图11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."
但是Recraft依然存在一些疑问,例如模型虽然能支持中文prompt,但关于中文渲染不是特意好:
图12 prompt: 下雨的夜晚,天地面的闪电构成了“天空”两个字
另外Recraft也很难渲染未明白指定的文本:
图13 prompt: a man stands in front of a huge newspaper。可以发现小字局部的笔画是歪曲的。
图14 prompt: keyboard。键盘上的文本是杂乱的。
图15 prompt: ruler。刻度是杂乱的。
总之,文本渲染在文本生成图像畛域表演了至关关键的角色,它不只相关到图像的视觉出现,还影响到文本消息的准确传播和语义了解。虽然近年来技术有了清楚的提高,但文本渲染依然面临诸多应战,须要进一步的钻研和改良。
参考资料:
Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.
Chen J, Huang Y, Lv T, et al.Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.
Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.