一条狗,即使是之前从(cóng)未见(jiàn)过的品种、颜色,我们也能一眼认出它(tā)。
对周(zhōu)遭任何变化的感知(zhī)是人类与生(shēng)俱来的能力。
但是人(rén)工(gōng)智能系统就不一样了,即使级别SOTA,能完成无数人类完成不了的任务,但也有很多对人类(lèi)来(lái)说轻而易举的事情(qíng),它却搞不定,比(bǐ)如,让(ràng)金毛(máo)换个角度:正(zhèng)面、侧面、前(qián)面、后面,人工智能可能会识别地很挣扎。
深度学习模型擅长(zhǎng)解释像素和标签之间的统计模式,但却很(hěn)难通过许多(duō)潜在的自然(rán)变化正确识别对象。
那(nà)是扫雪机(jī)在(zài)路(lù)上扫雪吗?还是一辆校车侧翻了?
上图是根(gēn)据M.A. Alcorn等人的 "Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects"绘(huì)制,显示了一个深度神经网络将一辆公(gōng)共汽车错误地分类为扫雪车。
人类可以(yǐ)瞬间知道,但是(shì)颜色、大小和透视(shì)等因素使情况复杂化(huà),增(zēng)加了人工智能模型的预测(cè)难度。
Facebook AI一直(zhí)在(zài)探索如何更好(hǎo)地捕(bǔ)捉自然变化,在这方面,传统解决方案有很大局限性(xìng),即所谓的解纠缠(disentanglement)。我(wǒ)们最近还(hái)提(tí)出了等变化(huà)移位算子(equivariant shift operator)的概念,这是一种替代解的(de)概念(niàn)证明(míng),可(kě)以(yǐ)帮助模型理解(jiě)通(tōng)过(guò)模拟最常见的变换,物体可能会发生怎样的变(biàn)化(huà)。
目前,Facebook AI在这(zhè)方面的(de)工作主要是(shì)理论(lùn)性(xìng)的,但是对于深度学习模型,特别是计算机(jī)视觉潜力巨大: 增加了可(kě)解释性和准确性,即使在小数(shù)据集上(shàng)训(xùn)练也有更好的性(xìng)能,并提高了(le)泛化能力。Facebook AI希望这些贡献能(néng)够使计算机视(shì)觉向前推进一(yī)步(bù),更好地理(lǐ)解视(shì)觉世界的复杂性(xìng)。
现行(háng)方法的局(jú)限(xiàn)
目前(qián)的解纠缠方法(fǎ)试图通过(guò)将模型中的每个因子编码(mǎ)到模型(xíng)内部表示的(de)一个单独的子空间中(zhōng),来(lái)学习(xí)模型中对(duì)象(xiàng)的基本变换。
例(lì)如,解纠缠可能将狗图像的数据(jù)集编码为姿态、颜色(sè)和品种子空间(jiān)。
这种方法在识(shí)别刚(gāng)性数据(jù)集的变化因素方面很有优(yōu)势,比如一个(gè)单(dān)一的 MNIST 数字或者一个单(dān)一的对象,比(bǐ)如一把(bǎ)椅子,但是我们已经发现,在多个分类中,解纠缠的表现(xiàn)很差。
想象一(yī)下多个旋转的(de)形状,比如三角形和正方形(xíng)。解纠缠模型试图(tú)将物体的(de)形状(zhuàng)和方向这两个变化(huà)因素分离(lí)成两个(gè)变化因素。
下(xià)图(tú)说明了传统(tǒng)的解纠缠是无法在多个形状的数据集(jí)中孤立旋(xuán)转的。我们期望(wàng)高亮显示的形状会旋转,但是(shì)由于解纠缠失败,形状仍(réng)然(rán)是固定的(de)。
解纠(jiū)缠还(hái)带来了拓扑缺陷,这(zhè)是一系列众(zhòng)多(duō)变换中的另一个问(wèn)题。拓扑(pū)缺陷违背连续性(xìng)——深(shēn)度(dù)学习模(mó)型(xíng)的本质属性。如果没(méi)有连续性,深度学习模型可能很(hěn)难(nán)有(yǒu)效地学习数据(jù)中(zhōng)的模式。
想象(xiàng)一下(xià)正(zhèng)三角形的旋转。旋转120度(dù)的正三(sān)角形与原来的三角形无法区分,导致在方向空间中(zhōng)有(yǒu)相同的表示。然(rán)而,通(tōng)过在三(sān)角(jiǎo)形的一个角上加一个(gè)无穷小的点,表示变得可辨别,违反了连续(xù)性。附近的(de)图(tú)像映射到相距较远的图像。Facebook AI的研究还表明,拓扑缺陷出现在(zài)非(fēi)对称形(xíng)状和许多(duō)其他常(cháng)见(jiàn)的(de)变换中(zhōng)。
利用等(děng)变化算子揭示变(biàn)化因子
有一个数学分(fèn)支「群论」可以教我们应用等变化算子的(de)很多知识(shí)。它表明,一个直观的方式来理解变化(huà)因素是将他们模拟为(wéi)一组转换。例如,一(yī)个三角形的旋转有一个(gè)组的结构: 90度旋转和30度旋转结(jié)合起(qǐ)来产生120度旋转。
Facebook AI利用这些想(xiǎng)法(fǎ)来识别(bié)传(chuán)统解纠(jiū)缠(chán)的缺点,并确定(dìng)如何(hé)训(xùn)练等变(biàn)化算子来(lái)解纠缠。我们提(tí)出了一个等变化算子,称(chēng)为移位算子。这是一个(gè)矩阵,其块体(tǐ)模仿了常见变换的组结构(gòu)--旋转(zhuǎn)、平移和重缩放。然后在原始(shǐ)图像(xiàng)和它们的转换上训练一(yī)个人(rén)工智能(néng)模型。
这样(yàng)就会(huì)发现,即使(shǐ)在(zài)包含多个类(lèi)的数据集中,移(yí)位算子也(yě)能成功地学习变换--这正是传统(tǒng)解纠缠经常失败的条(tiáo)件。