自今年年初 Disco Difussion 出现后,AI 图像工具越来越受到大家的关注,各类具有强大图像处理功能的 AI 工具纷纷暂露头角。特别是在Dall·E 2 发布后的短短两三个月内,Google、微软、Meta(Facebook)三家互联网科技公司也纷纷推出自己在 AI 图像工具方面的研究成果,下面就为大家介绍一下这几款AI图像工具。
1、Google:Imagen
Imagen 官网地址: https://imagen.research.google/
在 Dall·E 2 公布仅 1 个月的时间,Google 就公布其人工智能系统 Imagen。
Imagen 是一款文本-图像的扩散(CLIP)模型,由 Google Research 和 Google Brain 团队研发,打出的标语是“前所未有的写实感×深层次的语言理解”,即可以根据给定的提示词,生成高度契合文本含义及具有照片般真实感的图像。
Dall·E 2 的功能包括根据文本生成具有图像、根据文本提示修改图像内容、根据一张图像延展出风格内容相似的多张图像。相比之下,Imagen 则更加专注于根据文本生成极具真实感的图像。
据 Imagen 官网介绍,为了比较 Imagen 与其他文本-图像模型(如 DALL-E 2)在图像生成方面的性能,Google 设立一个名为 DrawBench 的文本-图像模型评估基准。这是一个具有 200 个提示文本的列表,将这些提示文本分别输入不同的模型中输出图像,再由人类参与测评。Google 表示在此基准下,参与测试的人员普遍认为“在并排比较中,无论是在图像生成的样本质量还是在图像与文本的一致性方面,Imagen 都优于其他模型”。
2、Google:Parti
Parti 官网地址: https://parti.research.google/
Parti 是 Google 在推出 Imagen 不久后推出的另一款文本-图像生成模型。二者都是专注于通过文本生成逼真的图像,区别在于 Imagen 是扩散(CLIP)模型,而 Parti 是路径自回归文本-图像(Pathways Autoregressive Text-to-Image )生成模型,后者可实现高保真、极具真实感的图像生成。
据官网介绍,Parti 通过研究一组图像来训练自身模型来生成另一组新的图像,可供研究的图像数量越多,生成的图像就越逼真。而 Parti 则在训练过程中,将参照图像数量由 3.5 亿个提升至 200 亿个,这也使得生成图像与文本的契合度达到 75.9% 。
而且 Google 发现,在图片参照数量达到 200 亿的情况下,Parti 在生成有关抽象、世界通识知识、特定视角、书写和符号的图像时特别出色。同时也发现 Parti 可以处理长而复杂的提示,特别是这些提示涉及以下方面:
1)准确地反映世界知识
2)有许多参与者和对象,有精细的细节和互动
3)遵守特定的图像格式和风格
Google 还列出多组提示文本和输出图像作为例子,展示 Parti 是如何对参与者、活动、描述、地点和格式的变化做出反应的。
虽然在官网中 Google 展示了 Parti 在图像生成方面的优势,但也坦言这些展示出来的例子都是从很多实验结果中精挑细选出来的。并表示虽然 Parti 能根据宽泛的提示文本产生了高质量的输出,但其模型还是有许多限制,比如对文本数量、特征的错误呈现,以及对表示否定和不存在提示词的错误处理等。
3、Meta:Make-A-Scene
官方介绍: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/
Make-A-Scene 是 Meta 在 7 月 14 日宣布推出的一项新的 AI 技术,其最大特点是可以在用户创作的粗略草图的基础上,结合文本提示生成具体的图像,让生成图像的可控性更高。
“为了充分实现人工智能促进创造性表达的目标,人们必须能够影响和控制这些智能模型产生的内容。用户应该能够以他们喜欢的任何方式来表达自己的想法,包括语音、文本、手势甚至是绘图,并且应该易于使用和直观。”这是 Meta 在 Make-A-Scene 的介绍文章提出的观点,也很好的表现了 Make-A-Scene 的意义所在。
与 Dall·E 2 和 Imagen 这种仅凭提示文本生成图像的模型相比,Make-A-Scene 创作出的图像有了更高的可控性。使用者可以通过草图控制最终图像的具体效果,包含元素数量、大小、形式、排列方式、构图、深度等各个方面。这项新技术使 Make-A-Scene 在与其他模型进行对比测试时,在图像与文本契合度方面的评价明显高于只根据文本生成的图像的模型。当然用户也可以选择不使用草图,直接通过文本生成所需的图像。
在给定的文本提示下,不同的形状草图可以生成不同的图像
在给定的草图下,不同的提示文本可以生成形式相同但风格不同的图像
为了进一步开发这种由草图生成图像的技术,Meta 邀请了几位著名艺术家进行合作,共同探索 Make-A-Scene 如何能更好地将人们的想象力变为现实;同时也让儿童参与到这个研究过程中,让 Make-A-Scene 将小朋友充满想象力的绘画的草图变为现实。
4、Microsoft: NUWA-Infinity
官网: https://nuwa-infinity.microsoft.com/#/
Github: https://github.com/microsoft/NUWA
初看到 NUWA 这个单词你会想到什么?没错,就是我们熟知的中国神话人物“女娲”。
NUWA-Infinity 是微软亚洲研究院联合北京大学、微软 Azure AI 一起推出的一款无限视觉合成的生成模型,能根据给定的文本生成任意大小的高分辨率图像或长时间视频,也是目前唯一一个能从文本生成的图像中生成长视频的 AI 模型。
NUWA-Infinity官网展示的根据《清明上河图》生成的新图像,新图像大小达到了惊人的 38912*2048 px。
之所以说是任意大小的高分辨,是因为前文提到的 Imagen 和 Parti 目前能生成图片大小为 1024*1024px,Meta 在其官方文章中表示 Make-A-Scene 的图像分辨率能达到 2048*2048px,而 NUWA-Infinity 则是真正任意大小的“ Infinity”。
在官网上,NUWA-Infinity 展示了其根据《清明上河图》生成的新图像,新图像的大小达到了惊人的 38912*2048 px。为了更好地适应页面,官方将完整的图像分割为 6 个部分,每个部分的分辨率为有 6485* 2048 px。NUWA-Infinity 还将 Windows 系统经典的草原壁纸延展为超宽的新图像,点开图片静静播放,你能体验到一种坐着绿皮火车穿过草原山川的感觉。
相比 Dall·E 2,这四款 AI 图像工具在技术上都有不同程度的创新,虽然由于模型训练数据中存在社会偏见、害怕害怕产生有害的图像、会被公众滥用等各种原因,这些工具还不能对公众开放,但相信等未来技术更加成熟后,这些 AI 工具会给我们的工作和生活带来颠覆性的改变。
版权声明 | 文章整理自网络,仅供学习参考,版权归属原作所有
如有问题,请及时与我们联系,我们将第一时间做出处理