人工智能系统通过观看视频学习建模织物如何交互

在印前服务器Arxiv.org上发表的一篇论文中，来自CSAIL、NVIDIA、华府大学和麻省理工学院多伦多大学的研究人员描述了一个人工智能系统，该系统通过观看视频来学习织物等材料的物理交互。他们声称，该系统可以推断出以前从未见过的互动，例如涉及多件衬衫和裤子的互动，从而做出长期预测。

因果关系理解是反事实推理的基础，或者是对已经发生的事件的可能替代方案的想象。例如，在包含一对由弹簧相互连接的球的图像中，反事实推理将需要预测弹簧将如何影响球的相互作用。

研究者的系统——视觉因果关系发现网络(V-CDN)——通过以下三个模块猜测交互：一个用于视觉感知，一个用于结构推断，一个用于动态预测。训练感知模型从视频中提取一些关键点(感兴趣区域)，干扰模块识别控制关键点对之间交互的变量。同时，动力学模块使用推理模块创建的图形神经网络来学习和预测关键点的未来运动。

研究人员在模拟环境中研究了V-CDN，其中包含各种形状的织物：不同外观和长度的衬衫、裤子和毛巾。它们对织物的轮廓施加力，使其变形并四处移动，以便创建一个可以处理不同类型和形状的织物的模型。

研究人员表示，结果表明，观察到的视频帧越多，V-CDN的性能就越好，这与直觉有关，即观察结果越多，可以更好地估计控制织物行为的变量。他们写道：“该模型没有假设可以访问基本的事实因果图，也没有描述物理相互作用的动力学。”“相反，它学会了以无监督的方式从图像中发现依赖结构，并对端到端的因果机制进行建模。我们希望这种方法将有助于未来更通用的视觉推理系统的研究。”

研究人员仔细注意到，V-CDN无法解决因果建模的巨大挑战。相反，他们认为他们的工作是朝着更广泛的目标迈出的第一步，即建立基于物理的“视觉智能”，可以模拟动态系统。他们写道：“我们希望在未来不需要特定领域的特征工程的情况下，引起人们对这一巨大挑战的关注，并激发基于视觉输入的物理推理的泛化研究。”

猜你喜欢

最新文章