京东大数据研发紧贴场景深耕技术 --3篇论文被国际顶级人工智能协会AAAI收录


针对线上和线下,更好的做到知人、知货、知场,是无界零售对京东技术提出的一个具有挑战性的目标。在2017年,京东大数据研发部专注数据、深度学习、感知识别等技术领域,紧贴业务需求,秉承算法技术平台化、可扩展化的目标,扎实推进研发工作。团队研发的门店科技产品相继与京东便利店、京东之家、京东到家,中石化等客户合作并成功落地,其科研的技术获取多项专利保护,论文多次在顶级学术会议、期刊发表。


、美国西北大学、美国加州大学伯克利分校等相关机构合作,深度参与技术研究,在即将举行的第三十二届美国人工智能顶级国际会议AAAI-2018中,京东大数据研发部共有3篇论文被接收,这也是单个部门首次同时3篇论文入选。AAAI-2018美国人工智能协会(AAAI)是人工智能行业领域顶级协会,该协会主办的年会是人工智能领域最具影响力的学术会议。此次会议的论文接收率为24.6%。京东集团副总裁、大数据研发部负责人翁志表示,京东大数据团队专注于数据挖掘处理能力的提升和机器学习、模式识别、人机交互等人工智能技术的研究,通过持续不断的技术创新,助力京东大数据业务的蓬勃发展,并在国际人工智能领域屡创佳绩。


本次入选的三篇论文分别属于计算机视觉、数据挖掘和深度学习优化方法领域。以下是本次3篇论文的详细内容,供行业内的专家学者交流学习。



1、  Cross-domain Human Parsing via Adversarial Feature and Label Adaptation.

作者:Si Liu , yao sun, defa zhu, guanghui ren, jizhong han, jiashi feng, Yu chen


人体解析技术能够有效支撑智能监控、智能美妆、服装搭配等具体应用,同时其也可与其他技术紧密结合,如行人重识别,人体关键点检测等以人中心的图像、视频理解技术。人体解析技术近年来取得了深入发展,但主流的解析技术都是应用在大量高质量带像素级标签的数据上,如何将人体解析技术扩展到大量无标注数据的真实场景中一直是一个开放的问题。


本文提出了一种跨域自适应的人体解析模型,该人体解析模型主要包含了三个模块:特征补偿网络,特征对抗网络和结构化标签对抗网络。特征对抗网络用来指导特征补偿网络的学习过程,从而减少两个不同域数据在特征分布上的差异;结构化标签对抗网络用于指导目标数据域上的人体解析,并保证结果满足两个不同域中标签的对应关系。实验时,将公开的标注数据集LIP dataset (Gong et al. 2017)作为源域数据,将收集的另外4个数据集包括监控视频、电影、走秀视频等作为目标域数据集,结果发现该方法取得了很好的效果。本文中该方法的提出,结合了机器学习领域里的最新研究进展,将对抗网络的概念与监督学习结合,向半监督学习、迁移学习迈进,可在利用小量人工标注的数据的基础上很好地利用京东的大量图像数据,发挥出大数据真正的价值。




2、  Latent Discriminant Subspace Representations for Multi-view Outlier Detection

作者:Kai Li , Sheng Li, Zhengming Ding, Weidong Zhang, Yun Fu


本文考虑处理多源数据的离群点检测问题,离群点检测(异常检测)是数据挖掘中的研究热点,一般的方法只能解决两来源数据上的离群点检测问题,该文提出的方法可以任意多个来源数据的离群点检测。本文创造性地将离群点分为三类,即类别离群点、属性离群点和类别-属性离群点,所提出的方法可以同时检测这三种离群点,且是第一个提出解决第三类离群点检测问题的。本文通过学习全部来源下数据的全局低秩表示,将问题转化为一个限制优化问题。此外,为了判断某个数据点属于离群点的可能性,该文还定义了一个离群点的度量分数,该度量方法可以轻松地度量多个来源数据属于离群点的可能性;同时该式中不带有标签数据,属于完全无监督式度量方法。通过在5个UCI数据集上与其他4种方法进行了测试,所采用的方法获得了明显的优势。



本文提出的多源数据中异常数据检测方法,突破了一般检测方法只能检测两种来源数据的局限,能同时检测三种不同类型的离群点,并给出属于离群点的分数。通过本文所提的方法能有效地找出异常数据,用于异常数据分析,同时可与难例挖掘技术(hard example mining)结合,用于提高深度学习和机器学习算法的性能。     



3、Orthogonal Weight Normalization: Solution to Optimization over Multiple Dependent Stiefel Manifolds in Deep Neural Networks

作者:Lei Huang, Xianglong Liu, Bo Lang, Adams Wei Yu, Yongliang Wang, Bo Li


正交矩阵由于其能量保持属性,近两年被用于循环神经网络中, 其能够明显地加速神经网络的训练。然而由于正交矩阵是方阵,故而其只能够限制于在循环神经网络的隐藏层到隐藏层的变换中使用。本文研究了在更一般的前向神经网络中学习矩形正交矩阵, 并且将此学习问题建模为多个依赖的Stiefel流优化问题。本文发现传统的黎曼优化方法在求解该问题时出现了严重的不稳定问题。 为了寻求更稳定的解,本文提出了一种新颖的正交权重标准化方法用来学习正交权重矩阵 。具体地,本文显示地构造了正交变换,该变换将代理参数矩阵映变换到正交的标准权重矩阵,然后确保在反向传播时,梯度能够通过该正交变换。为了确保稳定性,在所有的正交变换中,选择使得代理参数和权重矩阵距离最近的正交变换。



本文分析了正交权重标准化具有能够稳定每层的激活值分布以及能够规整化网络的特性。 基于提出的正交权重标准化方法,从实用的角度设计了正交线性模块用来学习正交的过滤器组。通过简单地将正交线性模块用来替换原始网络中的线性(卷积模块),且不改变任何其他的参数设置, 所采用的方法在CIFAR-和ImageNet 数据集上提高了各种目前使用广泛的Inception和残差网络的训练效果以及泛化能力。


本文提出的方法偏深度学习的基础研究,其应用范围更加地广泛,几乎可用于任何深度神经网络的训练过程中,可大大助力以深度学习技术为主流方法的自然语言理解、计算机视觉、语音识别及合成等领域。


结合丰富的应用场景和数据,京东集团围绕计算机视觉、机器学习、深度学习、机器人和自然语言处理等方向的人工智能技术研究已经走在全球的前列。随着数据的完善和算法的迭代,人工智能技术会广泛应用于第四次零售革命中。未来京东将继续加大技术投入和创新突破,以大数据为基础,以人工智能技术为核心,利用人工智能的技术手段深度挖掘大数据蕴含的价值,加速京东的技术驱动转型之路。