由于这个狂野的稳定扩散更新生成式人工智能可以变得更加活跃
StableDiffusion的开发者StabilityAI正在预览一种新的生成式AI,它可以创建带有文本提示的短片视频。
它被恰当地称为“稳定视频扩散”,由两个AI模型(称为SVD和SVD-XT)组成,能够创建576x1,024像素分辨率的剪辑。用户将能够自定义帧速率速度以在3至30FPS之间运行。视频的长度取决于选择哪一个双胞胎模型。如果您选择SVD,内容将播放14帧,而SVD-XT会将其扩展至25帧。根据HuggingFace上的官方列表,长度并不重要,因为渲染的剪辑在结束前只会播放大约四秒钟。
该公司在其YouTube频道上发布了一段视频,展示了StableVideoDiffusion的功能,并且内容质量出奇的高。它们当然不是你在Meta的Make-A-Video等其他AI上看到的噩梦燃料。在我们看来,最令人印象深刻的是冰龙演示。你可以看到龙鳞的大量细节,再加上后面的山脉看起来就像是画中的东西。正如您可以想象的那样,动画相当有限,因为拍摄对象只能慢慢地摇头。在其他演示中也可以看到同样的情况。这要么是一个僵硬的步行循环,要么是一个缓慢的平移镜头。
据报道,稳定视频扩散无法“实现完美的照片级真实感”,无法生成“清晰的文本”,而且它在处理面部时也遇到困难。StabilityAI网站上的另一个演示确实表明,其模型能够渲染人脸,没有任何奇怪的缺陷,因此可以根据具体情况进行处理。
请记住,该项目仍处于早期阶段。很明显,该模型还没有准备好广泛发布,也没有任何计划这样做。StabilityAI强调,稳定视频扩散目前并不意味着“用于现实世界或商业应用”。事实上,它目前“仅用于研究目的”。我们对开发商对其技术非常谨慎并不感到惊讶。去年发生了一起事件,StabilityDiffusion的模型在网上泄露,导致不良行为者利用它来创建深度伪造图像。
可用性
如果您有兴趣尝试StableVideoDiffusion,您可以通过在公司网站上填写表格来进入候补名单。目前尚不清楚何时允许人们进入,但预览将包括文本转视频界面。与此同时,您可以查看人工智能的并了解该项目背后的所有细节。
在深入研究该文档后,我们发现有趣的一件事是它提到使用“可公开访问的视频数据集”作为一些培训材料。考虑到今年早些时候GettyIges就数据抓取指控StabilityAI,听到这样的说法并不奇怪。看来团队正在努力更加小心,以免再树敌。
目前还没有关于稳定视频扩散何时启动的消息。幸运的是,还有其他选择。请务必查看TechRadar的2023年最佳AI视频制作者列表。
标签: