国家自然科学基金地区科学基金项目《基于共词分析的科学计量信效度研究》(项目编号:71563042)前期研究成果专题

    专题:基于共词分析的科学计量信效度研究

原文均刊载于《高校图书馆工作》2018年02期“基于共词分析的科学计量信效度研究”专题栏目。


主持人语


作为解决科学学相关问题最重要的方法之一,共词分析已在科学计量等领域得到广泛应用。而自然语言处理技术的兴起与成熟,更使共词分析被寄予了更高期望。与科学计量领域其他分析方法(如引文、共引等)和工具一样,共词分析不仅能够帮助科学学、图书馆情报学及相关领域的研究者直观而快捷地获取诸如研究热点、领域、前沿等方面的概貌,而且共词分析更具有其他分析方法所不具有的诸多优势。例如,共词分析直接面向文本展开分析,与引文、共引等具有明显时间滞后性的分析指标相比,无疑具有更高的时效性;再如,共词分析直接针对拟分析的文本主题而展开分析,更便于聚焦计量分析领域的研究内容(而不是引用行为)。

既然共词分析有如此多的优势,但为何在科学计量领域并没有形成“一枝独大”的局面?而且,近年来引文分析的方法与工具在科学计量领域迅猛的发展势头表明,科学计量的“刚需”旺盛,但这种刚需为何没有带来共词分析的蓬勃发展?对这些问题的疑惑构成了我对基于共词分析的科学计量研究进行深入考察的原始动机。我对基于共词分析的科学计量研究科学性的关注,始于我的博士研究项目刚刚开始的时候。那个时候,我亟待对一个自己并不熟悉的研究领域的概貌进行一个相对全面的考察和综述。为了提高研究效率,我尝试用各种科学计量的方法与工具进行了研究领域、热点、前沿的探索。有些探索得到了专家的认可,获得了积极的回应且发表于相关学术期刊;而有些探索却不仅无法得到同行专家的认可,甚至连我自己也难以信服。我反复检查计量工具和分析样本,却并没有发现明显的疏漏和错误。于是,我对应用共词分析进行计量分析在多大程度上具有有效性的疑惑更重了。2014年,我计划针对这个疑惑展开系统的研究,于是申请了当年的国家自然科学基金项目,虽然惜乎未中,但得到了评审专家高屋建瓴的建议和意见。次年,我再次申请国家自然科学基金,荣幸得中。就此,在国家自然科学基金的支持下,我的团队开始了对共词分析科学性比较全面、深入、系统的考察。

呈现给读者的这三篇论文,正是我的团队在共词分析科学性方面进行初步探索的一部分成果。承蒙《高校图书馆工作》刘平老师之邀,这些稿件以组稿形式得以发表。根据测量理论,效度是进行计量结果科学性考察最核心的指标之一。本组稿件围绕重要的效度指标——表面效度,应用自然语言处理的方法,分别考察了共词分析在研究热点识别、研究领域聚合和研究前沿预测三方面的有效性和科学性。这组稿件既是整个课题中相对独立的一部分,也是关于共词分析科学性前序和后续研究的有机组成部分。为此,与其他科学计量领域研究者一样,我衷心祈盼来自读者的关注、评点、指正与启发,以期能为共词分析真正走向科学化略尽绵薄之力。




共词分析识别研究热点的表面效度研究:基于自然语言处理

周文杰  高冲

(西北师范大学商学院,兰州,730070)


    共词分析是科学计量领域用以识别研究热点的重要方法,但对其有效性的检验相对薄弱。通过应用自然语言处理的方法,以最近三十年来动物学领域发表于中文期刊上的科技论文为分析对象,将基于题名、摘要和全文分词结果而提取的高频词连同基于关键词而提取的高频词一起,纳入了共词分析的范畴,通过识别的研究热点与共识性研究热点之间的相关分析,对基于共词分析而识别的研究热点的表面效度进行了检验。

    本研究通过自然语言处理,将全文、摘要和题名纳入了共词分析的视野,并结合传统的关键词分析法,对各种分析单元下,应用不同算法、指标进行研究热点识别的表面效度进行了深入分析,研究发现:

1)以分析单元而识别的研究热点表面效度最高,而以关键词为分析单元识别的研究热点表面效度最低。

2)各种研究热点识别的指标与算法具有不同的表面效度,相比而言,权重中心度及page_rank等复合型指标(算法)的表面效度更高,而点度中心度等单一型指标(算法)的表面效度则相对较低。

本研究的发现对于完善和推动文献计量的科学化与基于科学计量而实现科技政策的最优化具有一定参考价值。特别需要注意的是,本研究所获的研究结论在一定程度上动摇了科学计量领域的某些“共识”。例如,关键词对于研究论文所涉及的研究问题的代表程度最高,以及点度中心度对于网络节点重要性的表达能力最强等。当然,虽然上述研究发现经过了来自PajekSci2两个工具9种指标(算法)的确认,但仍存在着大量研究问题需要后续研究的跟进。诸如,关键词表面效度的低下是何种原因造成的?复合型的中心度指标的表面效度整体上高于单一型指标,其原因何在?






共词分析聚合研究领域的表面效度研究:基于自然语言处理


周文杰 张彤彤 高冲

(西北师范大学商学院,甘肃,兰州,730070)


    利用科技文献对学科结构和研究领域进行分析一直是科学计量等领域研究者关注的一个重点。对于科学学及相关领域理论的发展及信息服务等领域实践工作而言,有效识别研究领域是进行进一步计量分析的基础性工作,其重要性具体表现在:首先,研究领域的识别可以有效帮助研究者快速掌握所在领域的全貌,以使研究工作有的放矢地展开。其次,学科之间的交叉、融合与创新已成为当前科学研究发展的基本趋向,而清晰界定研究领域可以为研究者提供跨领域进行创新的有效参照。第三,研究领域识别是对新兴知识增长点和新领域进行识别的前提,也是判断学科发展趋向的重要手段。 



    为考察共词分析在研究领域聚合中的有效性,本研究以1988年~2017年三十年间发表且收录于WoS (Web of Science)数据库的计算机科学、地理学、数学、应用化学和应用物理学等五个学科的标题、摘要和关键词为分析对象,对不同分析单元下所聚合的研究领域的表面效度进行了检验。研究发现,关键词在研究领域聚合中具有相对最高的表面效度,摘要和题名的效度则相对较低。然而,本研究也发现,科学计量领域现有聚类指标和工具所聚合的研究领域缺乏区分能力且各种指标均存在着一定的效度风险。本研究的发现对于丰富科学计量领域关于研究领域聚合有效性的认识具有重要理论意义。




共词分析预测研究前沿的表面效度研究:基于自然语言处理

周文杰 高冲 张彤彤

(西北师范大学商学院,甘肃,兰州,730070)



研究前沿探测是科学计量研究的重要内容,也是体现图书馆情报学学科价值的关键途径。但是,应用科学计量的方法与工具所探测到的研究前沿获得“公信力”的前提,是其具有较高的效度。本研究所展示的研究发现,对于科学计量理论的完善与方法的进步具有一定的参照意义,具体表现在:

首先,科学计量领域关于研究前沿的探测应该高度关注分析单元的选择问题。如前文所述,基于题名、关键词等分析单元预测的研究前沿基本都不具备表面效度。目前,在科学计量研究中,关键词是被大量选择作为基础语料的一个分析单元。显然,如果从本研究的角度看,这种预测的科学性存在着很大的疑问。基于摘要而预测的研究前沿在选择不同的专家判断标准的情况下,也存在着表面效度的不稳定性,这表明,对摘要是否具备前沿探测能力的研究还需要进一步深入。基于全文而识别的研究前沿具有相对较高且稳定的表面效度,这对科学计量领域关于研究前沿相关研究的推进具有极大的理论与实践意义。仅就本研究所获得的证据而言,科学计量领域关于研究前沿探测的理论发展与工具设计应该聚焦于对全文分析。

其次,科学计量领域关于研究前沿的探测应该高度关注算法与指标选择问题。由前文所呈现的数据分析结果可以看出,选用Sci2进行研究前沿探测时,在不同单元上探测到的爆发词存在着严重的不一致性。这表明,关注研究前沿预测问题的科学计量研究者需要不断分析各种算法和指标所具有的不同特性。由此而产生的启示是,科学计量领域需要关注并发展一种综合性的指标体系,这一指标体系应该兼顾不同指标在科学前沿探测中的权重与这些指标具体算法的针对性。只有具有了系统化的指标,每项指标的算法又都合理,基于共词分析所识别的研究前沿的效度才能得到保障。

本研究使用自然语言处理方法,以动物学领域取近三十年发表于中文学术期刊并收入CNKI数据库的57438篇学术文献为分析对象,基于共词分析对研究前沿预测的表面效度进行检验。研究发现,基于全文而探测到的研究前沿表面效度最高,而基于题名和关键词而探测到的研究前沿则表面效度很低。此外,基于摘要而探测到的研究前沿的表面效度具有不稳定性,因此摘要在研究前沿探测中的价值存疑。本研究初步回答了基于共词分析的科学计量工具与指标在研究前沿探测方面是否具有及在多大程度上具有有效性的问题。


本研究的发现对于科学计量领域基于共词分析而探测研究前沿的理论发展与实践应用具有一定价值,但也有若干问题需要后续研究的持续跟进。例如,本文虽识别了不同分析单元在前沿探测上表面效度的差异,但对于这种差异产生的具体原因并未展开分析。此外,如何评价前沿探测中不同算法的效度,也在本研究中尚未得到回答。














  

 ◀◀◀ 长按二维码关注我们吧!

微信号:gxtsggz