谷歌的新AI工具可以为无声视频添加声音

导读我今年见过的最疯狂的人工智能发展是微软的VASA-1技术。该公司开发的人工智能模型可以将带有音频文件的单个人物图像转换为该人说话的动态视...

我今年见过的最疯狂的人工智能发展是微软的VASA-1技术。该公司开发的人工智能模型可以将带有音频文件的单个人物图像转换为该人说话的动态视频。虽然VASA-1尚未作为商业产品提供，但演示令人惊叹。它可能永远不会，因为人们很容易滥用这种人工智能工具。

VASA-1于4月中旬亮相。现在，差不多两个月后，谷歌Deepmind推出了一项类似的人工智能技术。它没有商业名称，谷歌将其描述为视频转音频(V2A)技术。这也意味着它不是一款你可以亲自尝试的商业人工智能产品。

V2A可让您通过单个文本提示生成音频以匹配无声视频片段。Google的演示令人惊叹。

正如谷歌在博客中解释的那样，视频转音频工具“使同步视听生成成为可能”。谷歌提供了大量示例来展示V2A技术。下面列出了其中一些示例，并附上了谷歌用于生成视频音频的提示。

音频提示：电影、惊悚片、恐怖片、音乐、紧张感、氛围、混凝土上的脚步声

谷歌表示：“V2A将视频像素与自然语言文本提示相结合，为屏幕上的操作生成丰富的音景。”并指出V2A可以与Veo配对。这是谷歌在I/O2024上推出的视频生成模型。Veo是OpenAI的Sora和其他类似产品的直接竞争对手。

谷歌表示，V2A技术可以提供“戏剧性的配乐、逼真的音效或与视频角色和基调相匹配的对话”。该技术可用于制作配乐，谷歌提供了一个非常令人兴奋的潜在用途：视频转音频可以为无声电影添加声音，这将是令人难以置信的。

音频提示：音乐会舞台上的鼓手被闪烁的灯光和欢呼的人群包围

然而，正如谷歌在博客中稍后解释的那样，语音生成并不完美。虽然V2A不需要你手动对齐音频和视频，但仍存在局限性，尤其是在语音方面：

我们还在改进涉及语音的视频的唇形同步。V2A尝试根据输入的转录文本生成语音，并将其与角色的唇形动作同步。但配对视频生成模型可能不以转录文本为条件。这会导致不匹配，通常会导致奇怪的唇形同步，因为视频模型不会生成与转录文本相匹配的嘴部动作。

音频提示：音乐、文字记录：“这只火鸡看起来棒极了，我好饿”

谷歌还表示，它正在寻求创意社区对视频转音频技术的反馈，以确保V2A产生积极影响。为了防止滥用，谷歌将其SynthID工具包添加到V2A研究中，以给AI生成的内容添加水印。

目前尚不清楚V2A何时向公众开放，但谷歌表示这项新技术将经过严格测试。若要了解V2A在当前开发阶段的潜力，您可以在此链接中找到更多演示片段。

标签：

免责声明：本文由用户上传，如有侵权请联系删除！