论文 苹果公布首份人工智能报告: 通过对抗训练从模拟的和无监督的图像中学习

太长不看版:苹果向来在创新研究进程上都是选择做一枚“安静的美男子”。固执保守研究成果的行为和Google、Microsoft、Facebook完全不一样。这一次发表的苹果在智能图像识别领域的研究成果,论文的字里行间透露着苹果希望在高速增长的人工智能领域中成为领导者的渴望。这一次,苹果终于按不住性子了。



北京时间12月26日晚间消息,苹果公司(以下简称“苹果”)近日终于不再遮遮掩掩,发布了自己的首份人工智能研究报告,准确来说,是一份关于人工智能的学术论文。该论文阐述了一项最新的技术——如何通过计算机生成图像、而非真实图像来训练一种算法的图像识别能力。这份论文的第一作者是苹果研究员Ashish Shrivastava,拥有马里兰大学帕克分校计算机视觉博士学位。此外,报告的共同作者还有苹果公司的员工Tomas Pfister、Oncel Tuzel、Wenda Wang、Russ Webb和Josh Susskind。




苹果在论文中指出:“在机器学习研究中,使用合成图像(例如:视频游戏里的图像)来训练神经网络远比使用真实世界图像更加有效。这是因为,合成图像的数据已经被标记和注释,而真实世界的图像数据需要人力消耗大量的精力以及时间去标记计算机看到的一切事物,比如一棵树、一条狗、一辆自行车。但实际上使用合成图像的方法也可能存在一些问题,因为算法学习并不能完美地诠释真实世界的每一个场景。合成图像数据通常不够真实,导致神经网络学习仅仅能了解到合成图像中所呈现的细节,而对真实世界的图像认识不足。”



左图(未加标记的真实图像)右图(模拟图像)


为了解决这个弊端,提高合成图像数据的训练效果,苹果研究人员推出了“模拟+无监督”的学习方法,以提高模拟图像的真实感。论文中使用了“生成对抗网络”(GAN),简单来说是一种经过修改的新型机器学习技术,让两个神经网络彼此对抗,从而生成更逼真的、类似照片级的图像。最终苹果表达了他们最终期望的结果是“探讨精炼的视频”。



SimGAN 概览:我们使用一个refiner神经网络R来最小化局部对抗损失和一个“自正则化”项(selfregularization term)的组合,以改进模拟器的输出。这个对抗损失会欺骗判别器网络D,D用于区分图像是真实图像还是改进后的图像。自正则化项能够将合成图像和改进后的图像之间的差异最小化。该方法同时保留了标注信息(例如,眼睛凝视的方向),是得改进后的图像可以用于训练机器学习模型。refiner网络R和判别器网络D交替更新。


多年来,苹果对其在人工智能领域的研究没有透露过任何消息。这次人工智能研究报告的公开,意味着苹果迈出的重要一步,也将影响其在人工智能领域人才的招募工作。


论文链接:https://arxiv.org/abs/1612.07828 


关注订阅号“AI研究所”直接回复“苹果论文”

获取原文资源

云盘密码:v9kq