英伟达推出SPACEx已经有很多带有语音驱动照片的AI问世

2022年11月29日 11:23
来源：IT之家阅读量：8299

输入一句台词让照片演技再次进阶！

这个AI直接把演技提升了一个层次表演有生气的，有开心的，也有可怜的...各种情绪都不在话下

而且，口型，眼神，头部动作也让这个AI hold住了！

甚至可以调节情绪的程度。

这是英伟达最新的AI，命名为SPACEx，全称是语音驱动人像动画，表情可控。

事实上，在英伟达推出SPACEx之前，已经有很多带有语音驱动照片的AI问世与之前的AI相比，SPACEx有什么优势

脸部动作更稳定，更注重细节。

此前，语音驱动照片最常用的人工智能有三种:PC—AVS，MakeItTalk和Wav2Lip。

但这三个AI都或多或少存在缺陷，只能对口型，或者整体面部控制较好，无法兼顾多种功能。

先说PC—AVS它在处理图像和语音的时候，会对输入的图像进行严格的切割，甚至改变姿态另外，生成的人脸动作非常不稳定

而MakeItTalk在对口型方面效果并不好，生成的视频有时会出现空白。

Wav2Lip的功能比较简单主要是配音AI，只改变嘴唇的动作，嘴唇以外的面部表情没有变化

而这些问题在SPACEx上都已经解决了。话不多说，只看他们之间的效果对比！

可以看出，无论是口型的细节，还是眼睛，还是整体的面部动作，SPACEx都会更加自然。

细分到具体功能，SPACEx整合了哪些功能。

下表给出了答案，情绪控制，面部地标标记，头部旋转，动作生成SPACEx可以把所有的事情都打理好，不会像之前的机型一样顾此失彼

值得注意的是，SPACEx生成的视频质量也提升了整整一个台阶以前同类型AI最高分辨率只能达到384，而SPACEx这次已经达到512X512

SPACEx是如何通过如此多的功能生成高质量的视频的。

具体原则

其中很大一部分功劳是由face贡献的——vid 2 vid，这是英伟达两年前发布的一个AI算法。

既能压缩视频的流量，又能保证视频的质量。

而且face—vid2vid还可以让视频中的人物随意扭头。

从SPACEx视频生成的过程来看，可以分为三个阶段。

第一阶段可以概括为Speech2Landmarks，即从输入语音中预测出每个音节对应的标准面部界标。

在预测的过程中，也会插入相应的情感标签。

预测完面部界标后，进入第二步:Landmarks2Latents，输入每张图像的face—vid2vid关键点，控制整个面部表情。

然后，这些关键点被映射到前一步骤中输出的标准面部标志。

最后一步是通过face—vid2vid生成器生成视频。

另一方面，当然SPACEx也不是全能选手当输入具有大的头部旋转时，现有的方法不能很好地执行

但还是值得一试。有兴趣的可以戳下面的链接~

论文地址:

参考链接:

[责任编辑：李陈默]

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。