学界 | 抱歉我们今天想介绍的这篇论文,刚刚中了CVPR 2018最佳论文

选自stanford

作者:Amir R. Zamir等

机器之心编译

参与:Huiyuan Zhuo、刘晓坤


自 CVPR 2018 公布接收论文以来,机器之心为大家介绍了多篇论文,而之后计划发布的这一篇竟然中了 CVPR 2018 的最佳论文(小编眼拙啊),所以提前推荐给了大家。


引言


目标识别、深度估计、边缘检测、姿态估计等都是研究界认为有用的和已解决的常见视觉任务的例子。其中一些任务之间有着明显的相关性:我们知道曲面法线和深度是相关的(其中一个是另外一个的导数),或者空间中的灭点(vanishing point)对于定位是有帮助的。其他任务相关性不太明显:关键点检测和空间中的阴影如何共同执行姿态估计。


计算机视觉领域发展至今,确实没有明确地使用这些相关关系。我们通过开发先进的学习器(如 ConvNets)已经取得了显著的进展,这些学习器能够在给定训练数据即多组满足 x ∈ X,y ∈ Y 的(x,y)时,找到从 X 到 Y 的复杂映射关系。这通常被称为是完全监督学习,并且常常可以独立地解决问题。主题分类任务使得训练新任务或综合感知系统成为一个西绪弗斯式的挑战,每项任务都需要单独从头开始学习。这样做,忽略了任务之间可量化的相关性,导致了对大量标记数据的需求。



图 1:由计算任务分类(Taskonomy)发现的一个示例任务结构。例如,从图中可以发现通过将曲面法线估计器和遮挡边缘检测器学习到的特征结合起来,用少量标记数据就能快速训练用于重描影和点匹配的优质网络。


另外,结合了任务之间相关性的模型只需要较少的监督,使用更少的计算并以更可预测的方式运行。结合这样的一种架构是开发可被证明有效的综合/通用感知模型 [34, 4] 的第一块垫脚石,也就是说,这种模型能够在对监督或计算的需求变得棘手之前解决大量任务。然而,这个任务空间的结构及其影响在很大程度上仍然是未知的。这些相关性是重要的,然而因为我们的学习模型和优化器还不完善,所以找到它们变得十分复杂。


在本文中,研究者试图揭示这个底层结构,并提出一个映射视觉任务空间的框架。这里所说的「结构」指的是一组通过计算发现的相关关系,其指定哪些任务向另一个任务提供有用的信息,以及提供多少信息(见图 1)。


为此,通过将神经网络作为计算函数类,研究者采用了一种完全计算的方法。在一个前馈网络中,每一层相继生成输入的更抽象表征,这些表征包含从输入到输出的映射所需的信息。然而,若假设任务以某种形式相互关联 [83, 19, 58, 46],则这些表征可以传输对解决其他输出(任务)有益的统计量。本文方法的基础:基于一项任务的解决方案是否可以足够轻易地从另一项任务训练的表征中读出,以计算任务之间的亲和矩阵。这样的迁移是完全抽样的,并且通过一个二进制整数规划范式从中提取一个全局有效的迁移策略。结果表明,相比于独立地学习任务,这个模型可以使用更少的数据来解决任务,同时最终得到的结构对常用数据集一样有效(ImageNet [78] 和 Places [104])。


本文提出的完全计算和基于表征的方法避免了在任务空间上施加先验(可能是错的)假设。这是至关重要的,因为有关任务之间相关性的先验通常源于人的直觉或分析性知识,然而神经网络并不需要遵循相同的原理运行 [63, 33, 40, 45, 102, 88]。比如,尽管我们可能预期深度可以更好的迁移到曲面法线(求导是容易的),但发现在一个计算框架中反向迁移更好(即更适合神经网络)。


图 2:任务相关性的计算建模并创建分类。从左到右:I. 训练特定任务的网络。II. 在隐空间内训练(一阶或更高阶)任务之间的迁移函数。III. 使用 AHP(层次分析法)得到归一化的迁移亲和性。IV. 使用 BIP(二进制整数规划)查找全局迁移的分类。


图 3:任务字典。对一项查询(左上)的(26 个任务中的)24 个特定任务网络的输出。在这里查看视频中应用框架的逐帧结果。




图 4:迁移函数。训练一个小型读取函数,将源任务冻结的编码器的表征映射到目标任务的标签上。如果阶数 > 1,则迁移函数接收来自多项源任务的表征。


图 5:将结果从 5 个不同的源任务上迁移到曲面法线(上)和 2.5 维分割(下)。不同源之间可转移性的差异是明显的,在这种情况下,重描影是迁移性最佳的任务之一。特定任务的网络使用 60 倍的数据进行训练。「Scratch」是无迁移学习下的从头开始训练。


图 6:高阶迁移。表征可以包含辅助信息。例如,通过从三维边缘和曲率同时进行迁移,单个楼梯能被提取出来。有关更多的示例,请参阅公开的交互式迁移可视化页面:http://taskonomy.stanford.edu/tasks/。


图 7:经过层次分析法(AHP)归一化操作前(左)、后(右)的一阶任务亲和矩阵。越低意味着迁移表现越好。对于可视化,我们使用了标准亲和距离,dist = e^−β·P(其中 β = 20 并且 e 是逐元素求矩阵对数)。对于高阶迁移的完整矩阵,请参阅补充材料。


表 1:特定任务网络的性能:胜率 vs. 随机(高斯)网络表征的读数与统计上获知的猜测平均值。胜率(%)是测试集中超过基准的图片比例。表 1 提供了特定任务网络与两种基准的胜率。一个随机测试样本的可视化输出如图 3 所示。表 1 中的高胜率和定性结果表明网络训练良好且稳定,可用于建模任务空间。


图 8:给定不同监督预算(x 轴)和允许的最大迁移阶数(y 轴)的情况下,用于解决 22 个任务的计算分类法。其中一个被放大以提高可见性。具有传入边缘的节点是目标任务,其传入边缘的数量是其选择的迁移函数的阶数。当预算为 26(全部预算)时,仍然迁移到某些目标上意味着某些迁移开始比它们完全监督下特定任务的对应变体表现的更好。通过增益和性能指标来查看节点颜色编码的交互式求解器网站:http://taskonomy.stanford.edu/api/。颜色暗淡的节点只是源任务,因此,只有在通过 BIP 优化转化为其中一个来源这项操作被认为是有价值的时候,其才会参与到分类中。


图 9:为解决完整的任务字典而计算的分类评估。随着监督预算的增加(→),使用计算分类法推荐的策略得到每个任务的增益(左)和性能(右)。迁移阶数如下所示为 1 到 4。


图 10:推广到新的任务。每行表示一个新的测试任务,左:使用针对新任务设计的「全合一」的 1-4 阶的迁移策略得到增益和性能。右:在各种自监督方法、ImageNet 特征和从头开始训练下的迁移策略的胜率(%),如图中彩色行所示。请注意分类法的巨大优势。无颜色的行表示相应的损失值。


图 11:架构的重要性。本文的分类法与随机迁移策略(使用允许的最大监督预算的随机可行分类法)的比较。Y 轴表示性能或增益,X 轴是监督预算。绿线和灰线分别代表本文的分类法和随机连接。误差线表示 5% - 95%。


图 12:评估已有架构在其他数据集上的表现:用于目标分类的 ImageNet [78](左)和用于场景分类的 MIT Places [104](右)。Y 轴表示外部基准的准确率,而 X 轴上的条形根据数据集上的分类预测性能进行排序。一个单调递减的图形相当于保持相同的顺序和完美的泛化。


图 13:任务相似性树。基于迁移-输出模式的任务的合并聚类(即使用归一化亲和矩阵的列作为任务特征)。三维、二维、低维几何和语义任务使用一种完全计算的方法聚集在一起。


论文:Taskonomy: Disentangling Task Transfer Learning(任务分类法:解构任务迁移学习)



论文地址:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf


视觉任务之间是否相关?例如,能否使用曲面法线简化估计图像深度的过程?直觉上对这些问题的正面回答暗示着在各种视觉任务之间存在一种结构。了解这种结构具有巨大的价值;它是迁移学习背后的概念,且可为识别任务间的冗余提供了一种有理可依的方法,比如,为了在相关任务间无缝地重复使用监督或在一个系统中解决多个任务而不增加复杂度。


我们提出了一种完全计算的方法来建模视觉任务的空间结构,通过在一个位于隐空间内的 26 个二维、2.5 维、三维和语义任务中寻找(一阶或更高阶)迁移学习依赖关系来实现。其成品是用于任务迁移学习的计算分类图。我们研究了这个结构的成果,比如出现的非平凡相关关系,并利用它们减少对标注数据的需求。比如,我们展示了解决一组 10 个任务所需的标注数据点总数可以减少约 2/3(与独立训练相比),同时保持性能几乎一致。我们提供了一套计算和探测这种分类结构的工具,包括一个求解器,用户可以用它来为其用例设计有效的监督策略。



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com