EMNLP最佳论文公布,“让发明自己语言的AI说人话”上榜

李林 编译整理
量子位 报道 | 公众号 QbitAI

自然语言处理领域的学术会议EMNLP今天评出了四篇最佳论文:最佳长论文两篇、最佳短论文和最佳资源论文。

EMNLP的全称是Conference on Empirical Methods in Natural Language Processing,自然语言处理中的经验方法会议,由国际语言学会(ACL)的SIGDAT小组主办,今年9月7-11日将在丹麦哥本哈根举行。

下面是本届EMNLP评出的几篇最佳XX论文。量子位决定先说最佳短论文,因为它比较好玩:

最佳短论文

Natural Language Does Not Emerge ‘Naturally’ in Multi-Agent Dialog

PDF:https://arxiv.org/pdf/1706.08502.pdf

作者:Satwik Kottur, José M.F. Moura, Stefan Lee, Dhruv Batra
(来自卡耐基梅隆大学、弗吉尼亚理工学院、乔治亚理工和Facebook AI研究院)

你可能注意到了这篇论文的最后一位作者:Facebook研究员Dhruv Batra。

前段时间被炒得沸沸扬扬的“AI发明了自己的语言”事件,最初起源于Facebook一项训练人工智能agent谈判的研究,Batra正是参与者之一,也是后来忍无可忍出来怼媒体“骗流量、不负责任”的那位。

本论文的几位作者虽然来自不同机构,但之前就在这个领域有合作,共同参与了一篇题为Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning的论文,这篇论文表明,两个AI可以通过讨论和分配颜色和形状值来发明自己的通信方式。

今天获奖的这篇,再次阐述了AI自己发明语言是非常正常的事情,但是,AI自己发明的通信方式通常都“不是人话”,论文还探索了能如何限制AI的通信规则,哄骗它们“说人话”。

几位作者在论文中以Task & Talk推理游戏为测试平台,来让两个agent沟通。

Task & Talk游戏是这样的:有一个虚拟的世界,其中的物体有4种可能的形状、4种可能的颜色、以及4种可能的样式。负责回答问题的A-BOT拿到一个物体,然后Q-BOT的任务是通过向A-BOT提问来搞清楚物体的一对属性。

实验产生了一系列“负面”的结果之后,最终得到了一个“正面”结果。这表明,大多数agent发明的语言(对它们自己来说)都是有效的,能达到获取任务奖励等目的,但它们显然不能被人所理解。他们在论文中写道,“实际上,我们发现自然语言并不会‘自然地’出现。”

在这篇论文中,作者也讨论了如何通过在两个agent的沟通方式上增加限制条件,来“哄骗”它们,让他们发明的语言越来越接近人类,能被人所理解。

最佳长论文

1

Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints

PDF:https://arxiv.org/pdf/1707.09457.pdf

作者:Jieyu Zhao、Tianlu Wang、Mark Yatskar、Vicente Ordonez、Kai-Wei Chang
(来自弗吉尼亚大学和华盛顿大学)

这篇论文提出了一种方法,要通过语料库级的限制来减轻性别偏见在机器学习模型训练过程中的扩大。

在多标签物体识别、视觉语义角色标注等图像识别任务,都涉及到自然语言。在研究这类问题时,研究者们通常会使用结构化的预测模型和从网上搜集图片数据,这些数据也带来了一些社会偏见。

研究发现,这些任务的数据集就显示出了巨大的性别偏见,而用这些数据集训练出来的模型,会将已有的偏见放大。

比如说做饭这件事。虽然标题叫men also like shopping,但文章中最主要的例子是“cooking”。

在训练集中,做饭这个行为涉及女性的概率比男性要高33%,而用这样的数据集训练出来的模型,会放大这种偏见,在测试时,男女之间的差异被扩大到了68%。

于是,论文作者提出了用语料库级的限制来校准预测模型,并为集合推理(collective inference)设计了一种基于拉格朗日松弛的算法。使用这种方法之后,模型的识别性能几乎没有损失,但在多标签分类任务和视觉语义角色标注任务中表现出的偏见分别降低了47.5%和40.5%。

量子位想提议另一种途径,从根本上解决这个问题:男同学们多做饭,多拍照,发到网上?

2

Depression and Self-Harm Risk Assessment in Online Forums

论文尚未公开

作者:Andrew Yates、Arman Cohan、Nazli Goharian
(来自马克思普朗克信息研究所和乔治城大学)

我们目前还没有看到全文,从标题来看,这篇论文是要通过线上论坛中的内容,来评估用户的抑郁和自残风险。

最佳资源论文

Crowdsourcing a Benchmark of Concept Maps

PDF:https://arxiv.org/pdf/1704.04452

作者:Tobias Falke、Iryna Gurevych
(来自德国达姆施塔特工业大学)

概念地图可以用来简洁地展示重要信息,将大型文本集合结构化。作者研究了多文档摘要的一种变体,能以概念地图的形式生成简介,但发现找不到用来评估任务效果的数据集。

于是,他们就创建了一个。

作者用众包方法创建了一个新的概念地图语料库,总结了网上教育主题的异构文件集合,同时还发布了一组基准系统,还提出了一套测试方案,用来进一步研究摘要的这种变体。

加入社群

量子位AI社群7群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot2入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot2,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态