喜讯 | 中山大学-商汤科技联合发表AAAI论文详解:基于强化学习循环查找受关注区域的多标签图像识别-百语文学网

文章转自商汤科技商汤Sense Time

朝乾资本参投项目【商汤科技】，中山大学-商汤科技联合发表AAAI论文详解：基于强化学习循环查找受关注区域的多标签图像识别。感谢您对朝乾事业的信任与支持！

近日，中山大学-商汤科技联合发表AAAI2018论文 “Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition” 提出了一个新的框架RARL，即基于强化学习循环发现关注区域，用于解决多标签图像的识别任务。相比于目前存在的其他方法，该方法在识别精度和效率上都取得极大的提升。本文将详细介绍论文中提出的方法。

多标签图像识别

多标签图像识别是计算机视觉领域一个非常重要且比较难的任务。近年来，有些工作通过结合物体候选框提取的方法，将深度学习应用于多标签图片识别任务，并取得一定的进展。这类方法首先利用现有的物体定位方法（如Selected search 或者Edge boxes等）提取一定数量的图片局部区域，然后利用深度网络提取每个局部区域的特征，最后聚合所有的特征以得到最后的预测结果。然而，这类方法引入额外的计算开销，另外，不同局部区域之间的关联也被简化甚至忽略了。不同于这类方法，本文提出一个新的Recurrent Attentional Reinforcement Learning（RARL）框架，该框架引入视觉注意机制，自动地挖掘语义关联的局部区域，并聚合这些区域的特征取得最后的识别结果。相比于目前多标签图片识别的方法，本文提出的方法具有以下两个优点：

1）本文引入视觉注意机制自动的搜索语义关联的局部区域，不需要依赖于物体候选框提取技术，在多标签识别精度和效率上都有极大的提升。

2）本文利用记忆网络直接对不同局部区域的关联进行建模，这可以有效的利用标签共存的情况，进一步提升多标签图像的识别性能。

RARL框架

RARL的框架如下图所示。首先，RARL框架利用一个全卷积网络（如VGG16的卷积部分）提取图片特征，并将特征输入一个LSTM网络，迭代的搜索语义关联的局部区域，并预测该区域的标签分布。具体而言，在每一次迭代 t，RARL框架接收到上一次迭代计算得到的位置 l_t，计算以该位置为中心的 k 个不同尺度，不同长宽比区域（参考Faster RCNN anchor 机制），并提取这些区域的特征。LSTM根据前一次迭代的隐层状态特征 h_t-1以及当前迭代提取的区域特征，预测这些区域的标签分布以及搜索用于下一次迭代的最优位置。最后，RARL聚合所有区域的预测的标签分布，得到最后的分类结果。

Figure 1:Overview of our proposed framework for multi-label image recognition. The inputimage is first fed to the VGG16 ConvNet and mapped to the feature maps f_I. At each iteration t, k regions are yielded at the center location l_t estimated from the previous iteration and corresponding fixed-size features are also extracted. An LSTM unit takes these features as well as the hidden state of the previous iteration as input to predict the scores for each region and searches the location for the next iteration. All the predicted scores are fused using the category-wise max-pooling to obtain the final label distribution. The framework is end-to-end trained using merely image-level labels using reinforcement learning techniques.

在训练的过程中，我们把局部区域的迭代搜索形式化为一个序列决策的问题，并引入强化学习技术训练模型。通过这种方法，我们可以仅利用图片类别标签端到端的训练RARL模型，不依赖于物体的类别信息。具体的，其状态，动作和奖励机制如下：

状态：当前迭代定位到区域的信息以及LSTM上一个时刻的隐层信息。

动作：搜索下一个局部区域的位置以及对当前受关注区域进行分类。

奖励：当没有达到最大迭代次数时候，奖励为0，当达到最大迭代次数时，奖励是当前分别准确情况，即样本物体类别召回率，即若当前样本存N种物体，而预测结果找到了n（0≤n≤N）种，则该样本的奖励为n/N。

实验结果

本文在Pascal Voc 2017和Microsoft COCO两个比较大的数据集上验证了RARL框架的有效性。

Pascal Voc 2017是多标签识别任务最常用的数据集，在该数据集上，我们的方法在mAP评测指标上比现有最优的方法（表1的HCP）提高了1.1%。

Table 1: Comparison results of AP and mAP in % of our model and the previous state of the art methods on the VOC07 dataset. The best results and second best results are highlighted in red and blue,respectively. Best viewed in color.

Microsoft COCO是一个更大更难的数据集，目前也被广泛用于多标签识别任务的评测，在该上数据上，我们的方法在C-F1和O-F1评价指标上比目前最好的方法（表3的RLSD和CNN-RNN）提升了4.4%和3.3%。

Table 2: Comparison results of our model and the previous state of the art methods on the MS-COCO dataset. The best and second best results are highlighted in red and blue, respectively. Best viewed in color.

在运行效率上，我们的方法在NVIDIA GeForce GTX TITAN-X GPU进行评测。我们的方法预测一张图片的结果需要约350ms。现有的基于物体候选框的方法，比如HCP，在类似的GPU环境下，一张图片需要大概10s，比我们的方法满了近30倍。

相关文献

[1] Tianshui Chen, Zhouxia Wang, Guanbin Li, and Liang Lin, Recurrent Attentional Reinforcement Learning for Multi-label Image Recognition, in AAAI, 2018.

[2] Yunchao Wei, Wei Xia, Min Lin, Junshi Huang, Bingbing Ni, Jian Dong, and Yao Zhao, Hcp:A flexible cnn framework for multi-label image classification, TPAMI, 2016.

[3] HaoYang, Joey Tianyi Zhou, Yu Zhang, Bin-Bin Gao, Jianxin Wu, and Jianfei Cai, Exploit bounding box annotations for multi-label object recognition, in CVPR, 2016.

欢迎您关注“朝乾”

朝乾资本总部设在中国的金融中心上海，公司是一家专注于私募股权投资、企业并购重组的专业投资机构，拥有丰富的投资管理经验、项目储备和资本市场资源；公司与鼎晖投资、达泰资本、德同资本、傲英资本、汉能投资集团等建立广泛密切的合作关系并参与了部分政府引导基金。

朝乾策略具备鲜明的特点，即以“投资+商业模式管理咨询+研究”为主线，致力于“市场化价值创造”与“资本资源平台嫁接”，在着力挖掘中国私募股权领域优质投资标的的同时，利用自身的资源优势和专业能力，扮演好产业与资本对接的角色，促进拟上市企业及上市企业通过兼并收购实现做优做强、提升企业价值管理的能力。此外，朝乾着力投资于优质PE二级市场份额（2ndFOF）转让专向投资、转让组合投资，以及市场化主动管理型母基金投资。朝乾拥有广泛的PE市场信息渠道，拥有最充分、真实的PE基金投资数据，故此能妥善运用资源杠杆分散均衡风险，制造多元化的投资机会，进而在PE二级市场获得稳健的收益。

通过这样的策略与模式，朝乾收获了丰硕的回报。截至2017年底，我们已成功投资巴安水务（300262）、开尔新材（300234）、润欣科技（300493）、绿地集团（600606）、吉祥航空（603885）、庞源租赁（600984）、坚瑞消防（300116）、步长制药（603858）、数据港（603881）、中信建投(751066）、复宏汉霖、商汤科技等优质项目。朝乾的团队卓然创新、秉持正气，朝乾人意诚、明德、朝乾夕惕，在持续的不断进取中，追求股权投资领域的下一个巅峰。

喜讯 | 中山大学-商汤科技联合发表AAAI论文详解:基于强化学习循环查找受关注区域的多标签图像识别

多标签图像识别

RARL框架

实验结果

本文在Pascal Voc 2017和Microsoft COCO两个比较大的数据集上验证了RARL框架的有效性。

喜讯 | 中山大学-商汤科技联合发表AAAI论文详解:基于强化学习循环查找受关注区域的多标签图像识别

【美人志】美人志|走近理学院SCI论文发表者曾宇、陈佳佳

学术||PNAS发表云南大学医学院刘文静博士合作论文

学位论文编写规则GB/T 7713.1-2006

就业率高的20个高考专业

校友动态我校机电专业91级同学组织毕业二十周年班级聚会

友情链接