为了应对这一挑战提出了一种固定的预训练的文本图像模型和一小组描述概念的图像

2022年11月05日 13:27
来源：IT之家阅读量：8603

2岁的人类幼崽能做什么，AI居然会学。

直到现在，这个终于被科学家攻克了！

有网友评价:很爽这可能是我最近几个月看到的最好的项目了

它是如何工作的。

我们先来看几个例子。

当你上传3张不同角度的陶瓷猫照片时，你可能会得到以下4张新图像:两只在船上钓鱼的陶瓷猫，陶瓷猫书包，班克斯的艺术风格猫和陶瓷猫主题饭盒。

同样的例子是艺术品:

装甲:

碗:

AI不仅可以从图像中提取物体，还可以生成具有特定风格的新图像比如如下图，AI提取了输入图像的绘画风格，生成了一系列这种风格的新绘画

更神奇的是，它还可以将两组输入的图像进行组合，提取一组图像中的物体，然后提取另一组的图像风格，将两者组合生成一幅全新的图像。

除此之外，通过这个功能，你还可以启动一些经典的图像，给它们添加一些新元素。

那么，如此神奇的功能背后是什么原理呢。

虽然近两年来，大规模的文本—图像模型，如DALL，CLIP，GLIDE等，已经被证明有很强的自然语言推理能力

但有一点:如果用户提出一些具体的要求，比如生成一张新的包含我最喜欢的童年玩具的照片，或者把孩子的涂鸦变成一件艺术品，这些大规模的模型是很难做到的。

为了应对这一挑战，提出了一种固定的，预训练的文本图像模型和一小组描述概念的图像目标是从这个小集合中找到一个单词来嵌入和重建图像因为这种嵌入是通过优化过程发现的，所以称为文本倒置

具体来说，就是先把用户输入的图像中的物体或样式抽象出来，转换成伪词s此时，这个伪词可以被视为任何其他词

S在沙滩上的照片，挂在墙上的S的油画，画一个S2风格的S1。

值得注意的是，这项研究使用了小规模，有计划的数据集，因此在生成图像时可以有效避免刻板印象。

比如下图，当提示医生时，其他模型倾向于生成白人和男性的图像，而该模型生成的图像中增加了女性和其他种族的数量。

目前这个项目的代码和数据已经开源，有兴趣的伙伴可以关注一下。

参考链接:

[责任编辑：肖鸥]

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。