造假者们颤抖吧!论文“照妖镜”——图片查重软件来啦

‍‍‍‍


搞科研最重要的是什么?聪明才智?勤奋刻苦?巨额经费?都对,但小氘认为做科研最要的是诚信。知识分子本应最讲诚信,但事实上科研界的抄袭、造假问题屡禁不止。要想杜绝科研造假,除了合理的制度设计和严厉的处罚制度外,技术的进步也必不可少。


在科研界摸爬滚打过的人都知道,抄袭的成本其实不高。虽然抄袭证据一经查实,抄袭者的名誉会受到打击,甚至职业生涯也可能断送。但论文抄袭被发现的概率并不高。文字抄袭相对来说更容易发现,可以通过各个论文数据库进行比对查重。但论文中的重复图片可是很难发现的。


当年震动世界科研界的小保方晴子造假事件,最开始浮出水面的正是图片造假。她的Nature 文章出版不久,便被匿名人士发现电泳图涉嫌造假,[1]  后续证据不断出现,并由此引爆了整个学术不端案。[2] 

小保方晴子。图片来源:BLOOMBERG


事件之后再想想,如果不是学术明星、顶尖期刊、热门方向、重大突破,图片重复和造假还能被人轻易发现吗?显然不能。那如何全面识别论文中的问题图片呢?


最近,美国雪城大学(Syracuse University)的机器学习研究员Daniel Acuna博士带领研究小组在bioRxiv预印本服务器上发表了一篇论文,报道了他们开发的一个图片比对算法,在数十万条生物医学论文中自动搜寻重复图片。[3]  在这款“照妖镜”面前,,无论PS法力有多高——旋转、裁剪、放大及缩小、调整亮度和对比度、模糊等等,统统会被打回原形。

照妖镜。图片来源:电影《大话西游》


通过算法识别重复图片,其实这也不算太过出人意料。X-MOL曾经报道过,基于深度机器学习算法的人工智能(AI),通过分析病理图片,可以准确地诊断皮肤癌(点击阅读详细)和乳腺癌(点击阅读详细),可靠度与行医多年的专家医生不相上下。


Acuna博士表示这项工作证明可以用计算机技术实现图片查重的任务。不过为了避免不必要的麻烦,研究者暂时没打算把算法公开,而是选择和专业人士合作。他们已经和美国西北大学研究诚信办公室主任Lauran Qualkenbush讨论了该算法,后者同时还是美国研究诚信官员协会副主席。她称赞道,“这个算法对研究诚信办公室非常有帮助,我非常希望我的机构能在今年学习测试Daniel的新发明。” [4] 

Daniel Acuna博士。图片来源:Syracuse University


具体到Acuna博士等人这项工作,他们使用算法从PubMed生物医学文献数据库中可开放获取的76万篇文章中提取了260多万张图片,包括细胞和组织的显微照片和凝胶印迹图片。该算法放大了每张图片最具特征的区域(颜色和灰度差异最大的区域),来提取每张图片的数字“指纹”。


在去掉了箭头、流程图等与判断重复无关的信息后,该团队最终获得了约200万张图片。为了节约时间(你可以想象每张图片都和其余图片一一对比的运算量),研究者只比较相同作者(第一作者和通讯作者)名下的图片,这对于验证算法性能已经足够了。这个算法相当强大,相同的图片即使经过旋转、放大缩小、改变颜色或对比度等PS操作,它也能揪出潜在的重复项。

在新算法面前,改变亮度和对比度、放大缩小、模糊、旋转、切割等PS操作统统不好使[3] 


电脑的工作结束后,,以检验它们是否存在问题。根据实验结果,他们推测该数据库中1.5%的论文包含可疑图片,0.6%的论文包含重复图片[3-4] 这个比例不高?考虑到数据库论文总量达到76万,含有重复图片的学术不端论文超过4500篇。他们还发现,有43%的图片重复使用发生在不同论文之间,28%发生在同一篇论文中,甚至还有29%就在同一个图中[3] 


这个算法一旦真正成为期刊编辑们的工具,将极大提高他们的工作效率,同时极大压缩造假者的生存空间。不过,目前几乎还没有科学期刊使用自动化的工具来审论文图片。


当前的论文图片审查方式大概分两派:一派以Nature为代表,编辑们会对提交草稿中的图片进行随机抽查,并要求作者提交未经编辑的凝胶图像原图以供参考。这种方式肯定会有漏网之鱼。另一派则以Journal of Cell Biology、The EMBO Journal 为代表,那里的编辑们会手动筛查大部分图片。但这个过程非常耗时,急需新技术支援。


荷兰出版巨头Elsevier的研究诚信负责人IJsbrand Jan Aalbersberg说,“为了发现所有文献中重复的图片,出版商需要创建一个共享的数据库,用于比较已发表和待发表的图片。” [4] 


尽管仍然存在各种现实问题,不过大趋势已经非常明显。技术的不断进步,让学术造假的空间越来越小。


我国论文数量已然是世界第一,但正如前不久施一公院士所直言的那样,其中“垃圾文章”太多[5] 而这些垃圾文章里,不乏在职称评定和研究生毕业等各种压力下诞生的造假文章。先进的技术已经有了,如果学术不端的调查和惩戒体系、合理的学术评价体系等等这些制度建设也能跟得上,小氘坚信中国的科研实力必然还会迎来质的飞跃。


参考资料:

1.https://pubpeer.com/publications/24476887

2.http://www.sciencemag.org/news/2014/03/retraction-request-made-more-questions-swirl-around-simple-stem-cell-method

3.Bioscience-scale automated detection of figure element reuse. bioRxiv, DOI: 10.1101/269415

https://www.biorxiv.org/content/early/2018/02/23/269415

4.https://www.nature.com/articles/d41586-018-02421-3

5.http://www.bjnews.com.cn/opinion/2018/03/08/478233.html


(本文由氘氘斋供稿)



本文版权属于X-MOL(x-mol.com),未经许可谢绝转载!欢迎读者朋友们分享到朋友圈or微博!


长按下图识别图中二维码,轻松关注我们!


点击“阅读原文”,查看 化学 • 材料 领域所有收录期刊