通过AI革新图像生成将文本转化为图像
在几秒钟内从文本中创建图像——并且使用传统的显卡而不需要超级计算机?尽管听起来很奇怪,但新的稳定扩散AI模型使这成为可能。底层算法由BjörnOmmer教授(慕尼黑大学)领导的机器视觉与学习小组开发。
“即使对于没有艺术天赋、没有特殊计算知识和计算机硬件的外行来说,新模型也是一种有效的工具,使计算机能够根据命令生成图像。因此,该模型消除了普通人表达创造力的障碍”奥默说。但是对于经验丰富的艺术家也有好处,他们可以使用稳定扩散将新想法快速转换为各种图形草稿。研究人员相信,这种基于人工智能的工具将能够扩大使用画笔和Photoshop生成创意图像的可能性,就像基于计算机的文字处理彻底改变了钢笔和打字机的写作一样。
在他们的项目中,LMU科学家得到了初创公司Stability.Ai的支持,人工智能模型在其服务器上进行了训练。“这种额外的计算能力和额外的训练示例将我们的AI模型变成了最强大的图像合成算法之一,”计算机科学家说。
数十亿张训练图像的精髓
该方法的一个特殊方面是,尽管经过训练的模型具有强大的功能,但它仍然非常紧凑,可以在传统显卡上运行,并且不需要像以前用于图像合成的超级计算机那样。为此,人工智能将数十亿张训练图像的精髓提炼成一个只有几千兆字节的人工智能模型。
“一旦这样的人工智能真正理解了汽车的构成或艺术风格的典型特征,它就会准确地理解这些显着特征,并且理想情况下应该能够创造更多的例子,就像老大师工作室的学生可以制作一样以同样的方式工作,”Ommer解释道。为实现LMU科学家让计算机学会如何观看(即理解图像内容)的目标,这是向前迈出的又一大步,进一步推动了机器学习和计算机视觉的基础研究。
训练后的模型最近在“CreativeMLOpenRAIL-M”许可下免费发布,以促进该技术的进一步研究和更广泛的应用。博士研究员RobinRombach说:“我们很高兴看到将使用当前模型构建什么,以及看到开放的协作研究工作将产生哪些进一步的工作。”
标签: