跳动探索网

微软的新人工智能技术表明我们距离无网络摄像头视频会议已经不远了

导读 微软推出了 VASA,这是一个人工智能驱动的框架,可以从图像和音频生成逼真的说话面孔。VASA-1 以 40 fps 提供 512x512 视频,具有逼...

微软推出了 VASA,这是一个人工智能驱动的框架,可以从图像和音频生成逼真的说话面孔。

VASA-1 以 40 fps 提供 512x512 视频,具有逼真的面部动态和低延迟。

由于滥用问题和真实性问题,微软对发布 VASA 持谨慎态度。

在 Microsoft Teams 中,如果您感到视频疲劳并且不想在参加会议时出现在视频中,则可以使用头像功能。它只是创建您的 3D 化身,根据您的音频提示进行动画处理,无需网络摄像头。然而,微软更进一步,开发了一种新的人工智能技术,可以将无网络摄像头视频会议的概念提升到一个新的水平。

微软研究院推出了一个名为 VASA 的新框架,它可以生成“超现实”的说话面孔,如果给定单个肖像图像和语音音频,则可以生成所有逼真的面部行为。微软还展示了人工智能驱动的技术如何生成具有逼真面部表情的高质量视频,并在需要实时参与的场景中发挥作用,例如 Microsoft Teams 中的视频会议。