英伟达开发了一种从2D图像生成3D模型的快速流程
作为一名观察者,Hot Hardware的Paul Lilly说,他们从二维到三维的方式是新闻。当路径从3D反转到2D时,这并不奇怪,但“在不提供系统3D数据的情况下创建3D模型更具挑战性。”
Lilly引用了高俊的话,他是致力于渲染方法的研究团队之一。“这实际上是历史上第一次,你可以拍摄几乎任何2D图像,并预测相关的3D属性。”
从二维图像生成三维对象的神奇之处在于“基于插值的可微分渲染器”.英伟达的研究人员在包含鸟类图像的数据集上训练他们的模型。经过训练,DIB-R可以拍摄鸟类图像并传输3D图像,具有正确的3D鸟类形状和纹理。
Nvidia进一步描述了将输入转换为特征图或矢量的方法,用于预测特定信息,例如图像的形状、颜色、纹理和照明。
为什么重要:总结了Gizmodo的标题。"英伟达教人工智能从平面二维图像中即时生成全纹理三维模型."“立即”这个词非常重要。
英伟达的劳伦芬克尔(Lauren Finkle)表示,DIB-R可以在不到100毫秒的时间内从2D图像中生成3D对象。“它是通过改变传统的表示3D形状的模板多边形球来实现的。DIB-R改变它以匹配2D图像中描绘的真实物体形状。”
Gizmodo的Andrew Liszewski强调了100毫秒的时间元素。“令人印象深刻的处理速度使该工具特别有趣,因为它有潜力极大地改善机器人或自动驾驶汽车等机器看待世界和理解其前辈潜力的方式。”
关于自动驾驶汽车,利泽夫斯基说:“从摄像头的实时视频流中提取的静止图像可以立即转换为3D模型,这样自动驾驶汽车就可以准确地确定需要避开的大型卡车的尺寸。”
从2D的图像可以推断,3D物体的模型将能够执行更好的物体跟踪,Lilly转向考虑将其用于机器人。他说:“通过将2D图像处理成3D模型,自主机器人将处于更好的位置,可以更安全有效地与环境互动。”
英伟达指出,要实现这一点,自主机器人“必须能够感知和理解周围环境。DIB-R可能会改善这些深度感知。”
同时,Gizmodo的Liszewski提到了英伟达可以为安全做些什么。“DIB-R甚至可以提高用于识别和跟踪人的安全摄像头的性能,因为即时生成的3D模型将使人们在视野内移动时更容易匹配图像。”
英伟达的研究人员将在本月于温哥华举行的神经信息处理系统年会上展示他们的模型。
那些想了解更多他们研究的人可以参考他们在arXiv上的论文“学习使用基于插值的差分渲染器来预测3D对象”。作者是陈、华凌、爱德华史密斯、雅克莱蒂宁、亚历克雅各布森和萨尼亚菲德勒。
他们提出了“一个完整的基于光栅化的差分渲染器,可以通过分析计算出梯度。”他们说,当缠绕在神经网络上时,他们的框架学会了从单个图像中预测形状、纹理和光,并展示了他们的框架“学习3D纹理形状的生成器”。
在摘要中,作者指出:“许多机器学习模型对图像进行操作,但忽略了图像是三维几何和光相互作用形成的二维投影这一事实。这个过程叫做渲染。让ML模型理解图像形成可能是推广的关键。”
他们提出了DIB-R作为框架,可以分析图像中所有像素的梯度。
他们说他们方法的关键是把前景栅格化看作局部属性的加权插值,把背景栅格化看作基于距离的全局几何聚合。我们的方法允许通过各种照明模型精确优化顶点位置、颜色、法线和照明方向以及坐标纹理。"
郑重声明:本文版权归原作者所有。转载文章只是为了传播更多的信息。如果作者信息标注有误,请第一时间联系我们修改或删除。谢谢你。
标签: