人工智能学派之间的「联姻」——Yoshua 新作居然用DL「复活」了符号主义
研究团队主要来自于蒙特利尔大学的Mila、DeepMind、Waverly和谷歌Brain。
任何结构化视觉环境(如视频)中的对象或者实体都具有可见和潜在的属性,这些属性决定了他们如何相互作用。为这种相互作用建模的传统方法是使用等变图神经网络(GNNs)。
然而,这种设置并不理想,因为GNN并不能预先处理稀疏交互,也不能以实体条件的方式分解交互的知识。
本文提出的神经生产系统(NeuralProductionSystems,NPS)则解决了这些问题。
论文链接:https://arxiv.org/pdf/2103.01937.pdf
NPS由一组规则模版组成,通过将规则中的占位符变量绑定到特定的实体,这些模版可在丰富的可视环境中分解特定于实体和基于规则的信息。
我们知道,根据物理定律,把盘子从餐桌上推下去会导致盘子掉到地板上,并且很可能会摔碎。
尽管从未学过基本的物理知识,即使是孩子,也可以用命题表达的方式来表达这一知识,比如:「如果一个盘子从桌子上掉下来,它会摔碎。」
然而,这种命题知识的简单表达仍然是深度学习体系结构的一个挑战,原因有两个:
1)命题是离散的,彼此独立
2)命题必须被量化为一阶逻辑的方式。
关于符号知识表示的命题推理,经典的人工智能方法提供了一些有价值的视角。其中,一个简单的例子是20世纪80年代的生产系统,它通过条件-动作规则来表达知识。
现在,研究人员从深度学习的角度重新审视了这种产生系统,并提出了一种神经生产系统,可以自然的将感知处理和随后的视觉推理问题的推理结合起来。
研究人员提出的NPS与传统的生产系统都有四个基本性质:模式、抽象、稀疏和对称。他们规定了知识是如何表示的。
这个生产的体系结构,还支持实体表示的检测和推断,并且能控制他们交互的潜在规则。
图:规则和槽的组合
在上图中,条件操作规则指定实体如何交互,插槽则维持实体的时变状态。每条规则都与一对插槽匹配。通过键值注意力机制,我们可以确定匹配的优度,并选择规则及其对插槽的绑定。
在实验部分,研究人员测试了NPS的有效性。其中一项涉及了学习数字的加、减、乘运算的算数任务;实验还涉及了MNIST转换,以测试扩展到更加丰富的视觉设置的能力;最后,为了模拟简单的物理世界,实验还包括了一个动作约束(Action-Conditioned)的模型。
图:算术任务
上图使了用不同序列长度对应的均方误差损失(MSE),该部分主要将NPS与基线模型进行了比较。
图:MNIST转换
图:Action-Conditioned模型
上图中的(a)使用了H@1指标比较了NPS和GNN(越高越好),(b)表示了在在物理环境中使用单个规则时,NPS中使用的规则应用步骤数量的影响。(c)则对NPS和GNN模型中五款游戏Atari游戏H@1的平均得分进行了比较。
在算术任务中,NPS的MSE明显低于基线。在MNIST转换任务中,NPS成功地学会了使用单独的规则来表示每个转换,而物理环境模拟则验证了NPS从简单(少数对象)环境到更复杂环境的推断能力。
参考资料:
https://arxiv.org/pdf/2103.01937.pdf返回搜狐,查看更多