此页面由 Cloud Translation API 翻译。
Switch to English

总览

在过去的几年中,可以将其插入神经网络体系结构中的新型可区分图形层有所增加。从空间转换器到可区分的图形渲染器,这些新层利用了多年计算机视觉和图形研究中获得的知识来构建新型,更高效的网络体系结构。明确将几何先验和约束建模到神经网络中,为可以以自监督的方式进行健壮,有效且更重要的是训练的体系结构打开了一扇门。

在较高的层次上,计算机图形流水线需要表示3D对象及其在场景中的绝对位置,并描述它们的材质,灯光和照相机。然后由渲染器解释该场景描述以生成合成渲染。

相比之下,计算机视觉系统将从图像开始,并尝试推断场景的参数。这样就可以预测场景中存在哪些对象,它们由什么材料制成以及三维位置和方向。

能够解决这些复杂的3D视觉任务的训练机器学习系统通常需要大量数据。由于标记数据是一个昂贵且复杂的过程,因此重要的是要有一种机制来设计机器学习模型,该模型可以理解三维世界,而无需太多的监督就可以对其进行训练。将计算机视觉和计算机图形技术相结合提供了利用大量随时可用的未标记数据的独特机会。如下图所示,例如,这可以通过综合分析来实现,其中视觉系统提取场景参数,图形系统基于这些参数渲染出图像。如果渲染与原始图像匹配,则视觉系统已准确提取了场景参数。在这种设置中,计算机视觉和计算机图形学齐头并进,形成了类似于自动编码器的单个机器学习系统,可以以自我监督的方式对其进行训练。

正在开发Tensorflow Graphics来帮助解决这些类型的挑战,为此,它提供了一组可区分的图形和几何层(例如,相机,反射模型,空间变换,网格卷积)和3D查看器功能(例如3D TensorBoard),可用于训练和调试您选择的机器学习模型。