赶紧修炼!!论文查重我们该知道的那些事儿

作者介绍:
孟放,2005年毕业于北京大学信号与信息处理专业,工学博士。目前就职于中国传媒大学理工学部网络工程系,副教授,硕士生指导老师。喜欢高校生活,喜欢与学生交流谈心,对学生在自己指点下的点滴进步十分欣慰。
前言

为提高研究生学位论文质量,我校今年首次要求全体申请答辩的研究生必须首先通过学位论文的查重考核,才能获得答辩资格。因此,“论文查重”是近日在校研究生,特别是应届毕业生非常关注的热点词汇。受研究生管理部门委托,本人对学术不端文献检索系统(简称“查重系统”)、学校查重文件、网上多种如何规避查重的“技巧”热帖等内容进行了分析,整理一份文稿以方便大家了解“查重系统”以及在论文写作和提交中的注意事项,供交流参考。
正文

首先需要强调一点
网上流传的各种规避技巧,个人认为没啥太大用处。如果你的论文只有两三页纸,这些技巧还可一解燃眉之急;但学位论文动辄几万字,网上那些修修补补的小技巧,其实没啥用处。
为什么这么说呢,我们先来了解这个鼎鼎大名的“学术不端文献检索系统”,也就是各位研究生同学即将面临的“查重系统”。
系统概括
该系统通过将待测论文与后台资源库内所有论文进行全文比对,将其中相同/相似语句标出,计算“文字复制比”,并提供相似论文以供对照。为判断一篇论文是否剽窃以及可能的剽窃内容提供证据支撑。
我们从查重系统的比对资源库、比对方法、比对内容、检测结果及重要指标几项内容来更进一步了解它。
比对资源库:
该系统用于比对的资源库涵盖了《中国知识资源总库》的全部内容,并包括外文文献资源、互联网资源、小语种文献资源、港澳台资源及图书资源等。其中的《中国知识资源总库》包括我校图书馆能下载查看的多项资源,如,学术期刊、研究生学位论文、重要报纸全文、重要会议论文全文和中国专利全文等多项数据资源。此外,检索机构可以根据自己的需求自行添加资源库。
比对方法:
(1)全文比对,判断相同或相似语句;
(2)多级比对。以句子(句号作为一个句子的标志)作为最小的比对单位,进行“句子-段落-全篇”多级比对。如果一个句子中超过指定数目的字与他人论文相同或相似,则视为“文字复制”。这里的指定数目没有明确说明,但从网上各贴讨论来看,应该是十多个字;
(3)特别注意“相似”这个说法。如果句子只有部分单词不同、或语序不同,仍然是属于“相似”这个范畴。像网上流传的,修改几个字、改改顺序等,估计也是难逃检测啊!
比对内容:
论文主体内容是进行比对的主要部分。论文目录、原创声明、参考文献、脚注等不在检测范围之内。但论文的附录、简历及研究成果、致谢并没有排除。所以,在提交论文至查重系统前,要特别注意这一点。
检测结果:
重点关注的指标是“文字复制比”。该指标反映了论文“抄袭”的文字数量比例,是衡量文献检测结果的最重要指标。一般说来,文字复制比越高,存在抄袭行为的可能性越大。具体包括:完整检测结果复制比、去除引用文献复制比、去除本人已发表文献复制比、单篇最大文字复制比等。
检测指标:
除了上述提到的文字复制比外,系统会给出被检测论文或特定段落与所有相似文献比对后,出现重合/类似的总字符数。
请大家特别注意几点:
(1)检索系统包含数据庞大的中文资源库;
(2)全文检索;
(3)以句子为最小比对单位;
(4)评测的是“相似”而不只是“相同”。
根据中国传媒大学研究生院下发的通知:我校从今年起,采用学术不端文献检测系统对申请学位答辩的研究生学位论文通过全文比对进行查重。并对查重检测总文字复制比超过指定比例的论文进行复查,两次检测仍不合格者,将取消本次学位申请资格。博士研究生和硕士研究生的“总文字复制比例上限”不一样,请参考学校文件要求。
为了能够给大家提供些有参考意义的信息,本人仔细查阅了查重系统说明文档,对查重系统进行了试用,并对比了网上流传的规避技巧。可以概括之:网上那些技巧只能在较小分为内解决局部小问题,依靠那些小技巧来确保一篇没什么内容的论文通过查重,也只是想象。归根结底,学位论文要具有独立、实在的研究内容,才是王道。所以,这里只是介绍一些辅助性的注意事项,真正的研究内容还需要各位同学去认真准备。
提示:
在网上购买查重服务需谨慎!从前面的介绍我们可以看出,大家要面临的查重系统所具有的一些特征不是轻松可以做到的:庞大的文献资源库、基于自然语言处理的多级全文比对系统。
那么,在论文写作和提交查重时,有哪些是我们可以注意的呢?
1.  提交查重论文时,确保除了“目录、原创声明、参考文献、脚注尾注”这些内容外,其他内容的文字不存在重复性。比如,致谢、已发表论文、附录、索引等均必须完全原创。在个人成果中所写的已发表论文中的会议名称、期刊名称也算是重复文字,虽然这种重复是正常的。
2.  目前的查重系统侧重“中文”“文字”。当然,我们提交的论文中,除了英文摘要部分,其他地方均应用中文描述。对于英文文献图表的引用,也注意要翻译成中文。
3.  查重是以句子为单位的。句子是以“句号”作为结尾的。大家平时不注意标点符号的使用,常常一逗到底,这个是很危险的。
4.  判断文字具有“复制”性,不是以完全相同作为依据。这个前面已经提到了,是以“相似”作为判断。所以,不要尝试着把别人的语句抄过来,自己改几个单词、改改语序、改个同义词之类的,这些都改不掉这个句子本身的结构特性。因此,一定要用自己的话来表述一段意思。
5.  关于引用,论文提及已有工作时一定要加上引用,而且要特别注意引用的位置。引用标识之前的内容,系统认为是对他人论文的引用,不参与比对;但引用标志之后的,会参与正常比对。另外,要注意不能为了避免查重而增加大量引用。对于过度引用,系统也会在反馈结果中标出。
6.  对上面提到的“相似”语句即被“标注”,大家可能会比较担心,因为在背景介绍、已有工作描述、专业术语介绍、甚至包括一些必须介绍的常识性内容,很难保证已发表论文没有提及。学校规定了20%的复制比上限(硕士研究生)已经可以完全包含这部分内容,所以,在背景介绍和涉及到已有算法介绍时,也不必刻意回避。
其实,论文查重系统的使用,强调了一点:你所写的论文,只要没有引用标志,那么就默认是作者(也就是你本人)提出来的。这一点也是科研论文一直强调的一点:把自己的工作和别人区分开,并明确自己所研究工作的必要性和核心内容。
学术界所要求的“所写论文必须是自己独立研究内容”一直是学术论文写作的最基本要求,但一直没有受到足够重视。查重系统在研究生学位论文的应用是一个很好的开端,对于之后毕业的研究生们,应该引起足够的重视。这种重视,不是到了写毕业论文的时候如何想方设法逃避查重,而是把“我所说/我所写都是我的思想”这样的理念贯穿到平时的科研活动中。
研一研二的同学们,在平时的研究生活中: 
(1)要注意积累和整理研究成果,形成文稿,避免写毕业论文时东拼西凑;
(2)无论是研讨、成果总结、还是汇报分析,要分清哪些是别人的工作,哪些是自己的工作。
最后,祝愿各位同学学业顺利!
题外话:说给明年以后毕业的研究生们

编辑:程宇芬

审核:李文华