造假者们颤抖吧!论文“照妖镜”——图片查重软件来啦-百语文学网

‍‍‍‍

搞科研最重要的是什么？聪明才智？勤奋刻苦？巨额经费？都对，但小氘认为做科研最要的是诚信。知识分子本应最讲诚信，但事实上科研界的抄袭、造假问题屡禁不止。要想杜绝科研造假，除了合理的制度设计和严厉的处罚制度外，技术的进步也必不可少。

在科研界摸爬滚打过的人都知道，抄袭的成本其实不高。虽然抄袭证据一经查实，抄袭者的名誉会受到打击，甚至职业生涯也可能断送。但论文抄袭被发现的概率并不高。文字抄袭相对来说更容易发现，可以通过各个论文数据库进行比对查重。但论文中的重复图片可是很难发现的。

当年震动世界科研界的小保方晴子造假事件，最开始浮出水面的正是图片造假。她的Nature 文章出版不久，便被匿名人士发现电泳图涉嫌造假，^[1] 后续证据不断出现，并由此引爆了整个学术不端案。^[2]

小保方晴子。图片来源：BLOOMBERG

事件之后再想想，如果不是学术明星、顶尖期刊、热门方向、重大突破，图片重复和造假还能被人轻易发现吗？显然不能。那如何全面识别论文中的问题图片呢？

最近，美国雪城大学（Syracuse University）的机器学习研究员Daniel Acuna博士带领研究小组在bioRxiv预印本服务器上发表了一篇论文，报道了他们开发的一个图片比对算法，在数十万条生物医学论文中自动搜寻重复图片。^[3] 在这款“照妖镜”面前，，无论PS法力有多高——旋转、裁剪、放大及缩小、调整亮度和对比度、模糊等等，统统会被打回原形。

照妖镜。图片来源：电影《大话西游》

通过算法识别重复图片，其实这也不算太过出人意料。X-MOL曾经报道过，基于深度机器学习算法的人工智能（AI），通过分析病理图片，可以准确地诊断皮肤癌（点击阅读详细）和乳腺癌（点击阅读详细），可靠度与行医多年的专家医生不相上下。

Acuna博士表示这项工作证明可以用计算机技术实现图片查重的任务。不过为了避免不必要的麻烦，研究者暂时没打算把算法公开，而是选择和专业人士合作。他们已经和美国西北大学研究诚信办公室主任Lauran Qualkenbush讨论了该算法，后者同时还是美国研究诚信官员协会副主席。她称赞道，“这个算法对研究诚信办公室非常有帮助，我非常希望我的机构能在今年学习测试Daniel的新发明。” ^[4]

Daniel Acuna博士。图片来源：Syracuse University

具体到Acuna博士等人这项工作，他们使用算法从PubMed生物医学文献数据库中可开放获取的76万篇文章中提取了260多万张图片，包括细胞和组织的显微照片和凝胶印迹图片。该算法放大了每张图片最具特征的区域（颜色和灰度差异最大的区域），来提取每张图片的数字“指纹”。

在去掉了箭头、流程图等与判断重复无关的信息后，该团队最终获得了约200万张图片。为了节约时间（你可以想象每张图片都和其余图片一一对比的运算量），研究者只比较相同作者（第一作者和通讯作者）名下的图片，这对于验证算法性能已经足够了。这个算法相当强大，相同的图片即使经过旋转、放大缩小、改变颜色或对比度等PS操作，它也能揪出潜在的重复项。

在新算法面前，改变亮度和对比度、放大缩小、模糊、旋转、切割等PS操作统统不好使。^[3]

电脑的工作结束后，，以检验它们是否存在问题。根据实验结果，他们推测该数据库中1.5%的论文包含可疑图片，0.6%的论文包含重复图片。^[3-4]这个比例不高？考虑到数据库论文总量达到76万，含有重复图片的学术不端论文超过4500篇。他们还发现，有43%的图片重复使用发生在不同论文之间，28%发生在同一篇论文中，甚至还有29%就在同一个图中。^[3]

这个算法一旦真正成为期刊编辑们的工具，将极大提高他们的工作效率，同时极大压缩造假者的生存空间。不过，目前几乎还没有科学期刊使用自动化的工具来审查论文图片。

当前的论文图片审查方式大概分两派：一派以Nature为代表，编辑们会对提交草稿中的图片进行随机抽查，并要求作者提交未经编辑的凝胶图像原图以供参考。这种方式肯定会有漏网之鱼。另一派则以Journal of Cell Biology、The EMBO Journal 为代表，那里的编辑们会手动筛查大部分图片。但这个过程非常耗时，急需新技术支援。

荷兰出版巨头Elsevier的研究诚信负责人IJsbrand Jan Aalbersberg说，“为了发现所有文献中重复的图片，出版商需要创建一个共享的数据库，用于比较已发表和待发表的图片。” ^[4]

尽管仍然存在各种现实问题，不过大趋势已经非常明显。技术的不断进步，让学术造假的空间越来越小。

我国论文数量已然是世界第一，但正如前不久施一公院士所直言的那样，其中“垃圾文章”太多。^[5]而这些垃圾文章里，不乏在职称评定和研究生毕业等各种压力下诞生的造假文章。先进的技术已经有了，如果学术不端的调查和惩戒体系、合理的学术评价体系等等这些制度建设也能跟得上，小氘坚信中国的科研实力必然还会迎来质的飞跃。

参考资料：

1.https://pubpeer.com/publications/24476887

2.http://www.sciencemag.org/news/2014/03/retraction-request-made-more-questions-swirl-around-simple-stem-cell-method

3.Bioscience-scale automated detection of figure element reuse. bioRxiv, DOI: 10.1101/269415

https://www.biorxiv.org/content/early/2018/02/23/269415

4.https://www.nature.com/articles/d41586-018-02421-3

5.http://www.bjnews.com.cn/opinion/2018/03/08/478233.html

（本文由氘氘斋供稿）

本文版权属于X-MOL（x-mol.com），未经许可谢绝转载！欢迎读者朋友们分享到朋友圈or微博！

长按下图识别图中二维码，轻松关注我们！

点击“阅读原文”，查看 化学 • 材料 领域所有收录期刊