论文图片查重费时费力,机器学习能否扭转乾坤?

文/ Declan Butler

译/ Nature自然科研

来源/ 原文以Researchers have finally created a tool to spot duplicated images across thousands of papers为标题,发布在2018年2月23日的《自然》新闻上


出版商需要联合起来,应用图片查重软件检验各种文献。

光学显微镜可以捕捉细胞与组织的显微照片,而这类照片在科学文献中可能重复出现。

来源:Mikhail Tereshchenko/TASS/Getty

三名科学家表示,现在计算机软件可以快速检查大量研究文献,发现其中的重复图片。


Daniel Acuna是美国纽约雪城大学的一名机器学习研究人员,他所领导的一支团队于2月22日在预印本服务器bioRxiv上提交了一篇论文原稿,介绍使用一种算法检查几十万篇生物医学论文,搜索其中存在的重复图片。如果期刊编辑也采用类似的方法,那么就有望更轻松地在论文出版之前筛查图片——目前这项工作需要大量投入,而且只有少数出版物采取了这一措施。


Acuna说他们的研究表明,利用技术手段进行图片查重是有可能的。他没有公开算法,但是已经和芝加哥西北大学研究诚信办公室主任、美国研究诚信官员联合会副主席Lauran Qualkenbush进行了讨论。“这对研究诚信办公室非常有用,”她说,“我非常希望今年我的办公室可以成为Daniel这项工具的试点单位。”


2015年初,Acuna与两名同事以当时PubMed生物医学文献数据库开放获取子库中的76万篇论文为对象,运用一种算法提取了其中的260多万张图片,包括细胞与组织及凝胶印迹显微照片。当时,该算法将重点放在特征最丰富的区域——颜色和灰度差异最大的区域——提取每一张图片最显著的数字“指纹”。


团队剔除箭头或流程图要素等图形后,最终得到了约200万张图片。他们只比对第一作者及通讯作者一样的论文里面的图片,避免每张图片都要和所有其它所有图片进行比对而导致计算负载过大。即使图片被翻转、调整大小,对比度或颜色被更改,该算法也能发现其中潜在的重复图片。


之后,三人手动检查了约3750张被算法标记出来的图片样本,以确定这些重复图片是否可疑或是伪造的。根据检查结果,他们估计数据库中约1.5%的论文包含可疑图片,0.6%的论文包含伪造图片。


美国达特茅斯学院的计算机科学家Hany Farid指出,研究人员尚未能基准测试该算法的准确性,因为目前没有包含已知为重复或非重复科研图片的数据库可以让他们进行对比测试。但是,对于Acuna三人应用现有技术检查现实图片并试图将该工具交到期刊编辑手中的做法,他深表赞赏。

费时费力

目前,许多期刊都会对一些图片进行检查,但是极少数拥有自动化检查流程。举例来说,《自然》对收到的稿件执行随机抽样检查,而且要求作者提交未经编辑的凝胶图片用作参考。目前,《自然》正在审查其图片检查流程。(《自然》新闻团队与其期刊团队在编辑上相互独立。)


Journal of Cell BiologyThe EMBO Journal为代表的一些期刊正带头对投稿中的大部分图片进行手动筛查,但是The EMBO Journal主编Bernd Pulverer说,这个过程非常耗时,迟迟未能见到一个常规性的自动化流程。


爱思唯尔的研究诚信主管IJsbrand Jan Aalbersberg认为,若要检查文献中的图片复用情况,出版商需要建立一个共享数据库,里面收录所有已发表出来的图片,然后以之为基准比对将要发表的论文里的图片。


之前,已有这类合作的先例。2010年,学术出版商为打击剽窃,展开了全行业范围内的服务合作。非营利合作组织Crossref(包括约10,000家商业出版商和学术团体出版商)推出CrossCheck服务——利用加州Turnitin公司制作的剽窃检测软件iThenticate核对成员出版商出版的论文全文。这项服务之后更名为“Similarity Check”,帮助使剽窃检测成为出版行业的一项常规做法。


Crossref的执行总监Ed Pentz表示,目前公司并没有推行适用于全出版商的图片检测系统的计划,一部分原因是相关技术尚未成熟。但是,他说Crossref会密切关注业内的相关进展。


爱思唯尔则表示支持开展类似Similarity Check的图片检测计划。两年前,爱思唯尔与柏林洪堡大学达成为期3三年、总价100万欧元的合作项目,旨在进行研究论文挖掘,鉴定研究不端行为。1月25日,该项目宣布计划根据被撤稿出版物中的图片创建一个数据库。这个数据库可被用作一个测试图片库,帮助研究人员开发自动化工具来筛查出版物中的图片。

  注:全文刊登在自然官网 https://www.nature.com/articles/d41586-018-02421-3 ,请多关注。

— 完 —


喜欢这篇文章?别忘了分享到朋友圈哦!

快点扫我~


长按上面二维码,关注优达学城(Udacity)订阅号,回复关键字【学习资料】,获取【前端开发技能清单】【大数据求职指南】、【机器学习求职指南】等学习资料。

冲着这肉蟹煲,记得转发支持我们哦。


跟随 Google 无人车之父系统掌握深度学习,21周打造属于你的深度学习前沿应用。生成电视剧剧本、图像识别、生成人脸……点击阅读原文,体验硅谷仿真课堂!