大数据,科研论文发表分析

大数据,科研论文发表分析


这篇文章准备从论文发表的角度分析,“大数据”为主题的论文有什么样的特征,这些内容对于特别是希望在这个领域发表论文的人会有帮助。

<1> 不同于前面两篇文章,这次我将会主要以统计信息客观的反应“大数据”在搜索引擎中被索引的热度,还有已发表的论文统计结果能够展现出怎样的特性。


      首先,在goole trend中同时添加"big data"和"cloud computing"这两个词,google服务器会为我们计算出这两个词的关注度随时间变化趋势图,这张图反应了从2004年到目前这个时间段内关键词的评分变化。该评分变化反应的是这个关键词相对的关注度变化,google通过自己的统计方式和标准化过程,将关注度记为0-100分。详细计分方法

Figure 1.来自google trend的结果


      图中的英文字母代表了与关键词相关的新闻头条。蓝色表示的是关于“cloud computing”的关注度,从2008年开始年关注度震荡上升,2011年达到顶峰到今天回落到50,2年的时间下跌了将近50%;再看看红色曲线代表的“big data”,从2012年起,开始高强度的进入公众的视野,用了1年的时间几乎复制云计算的神话。最高达到将近40的关注度。这个结果完全符合Gartner曲线,也印证了笔者之前两篇文章的分析。[1]   [2]


      对于红色反应的“big data”,尽管Sam Shead的一篇名为Bigging up big data: Why the hype is about to stop的文章中。引用了Gartner一位分析师的话,最终把该技术发展势头不足的原因归结于采用的实现技术Hadoop早已经存在,并且快要过时了无法满足“大数据”的要求,这样的结论是没有根据的,hadoop只是一个开源的对数据进行分布式处理的软件框架,它的过时并不能代表大数据行不通,或许已经存在或者即将产生更多的商用且比MapReduce方法更强大有效地实现技术,所以hadoop的走势并不能代表大数据的走势。

         反观上面那条蓝色的曲线,同样在2009年初和2010年7月,“cloud computing”曾经出现过2次明显的关注度下滑,但是随后有了迅猛的回升,我认为原因是在某些方面产生了突破,比如在前沿的科研范围内有了新的理论或者新的工程技术诞生,或者是过往的科学成果实现了商业化而且有了比较乐观的成效。

         google trend的搜索结果里还可以看到“区域关注度”和“相关字词”的统计,他们分别是反应该词在世界不同国家和城市的关注度,和该次有相关关系词的关注度。感兴趣的人可以尝试使用免费的Google trend服务。


<2> 既然上文提到了新的理论或者新的工程技术诞生可以促进某领域的活跃度,那么我们不妨最直接的观察发表论文的情况(检索的数据库:SCI,SSCI,A&HCI,CPCI-SSH,CCR,IC)。

Figure 2.主题词为“big data”的引文报告


                                (Credit: Thomson Reuters)



Figure 3.主题词为“cloud computing”的引文报告

  (Credit: Thomson Reuters)


图二的报告反映出2012年发表的论文数比较2011有了爆发式的增长(就在笔者写这篇报告的时候,2012年的总论文数又增加了5篇,目前为56,总论文数为90,不知道哪个运气好的家伙文章被accept了)

图三的报告反映出经过了2011年科研的热潮后,从2012年开始,出版的相关论文数量已经开始下降,预测2013出版的文献数也会大幅少于2012。


       其中一项体现研究活跃度的“健康指数”= 去除自引的被引频次总计 / 被引频次.比例越高,表示该领域的研究活跃度很高,比较容易找到全新的研究方向发表论文。 

       根据图二图三的数据得到“big data”的健康指数是96%,“cloud computing”的健康指数是71.4%。由此可以得出结论:“big data”从科研角度上说还比较空白,相对容易产生突破,但是较少的参考文献数量也会给我们带来不少挑战。


<3>接下来我将会提供更多的数据来解释,请大家做好准备。 以下六张图是来自付费服务Web of Science的分析结果,样本为主题词TI = “big data”的论文。样本容量为90。通过六个方面的分析,可以看出这仅有的90篇发表文献反应了该领域可以反映出方方面面的研究现状。它们分别是Web of Science类别,研究方向,机构扩展,出版年,来源出版物,国家/地区。


      

     Figure 4.Web of Science结果分析   (Credit: Thomson Reuters) 

                                                           

       

         Figure 5. 研究方向的结果分析  (Credit: Thomson Reuters)

                                                                                                                         

       以上这两张图看似相近,但左边通过Web of Science服务的分类,可以进一步详细解释 Figure 5.中 第一条 Computer Science的具体研究方向,可见“big data”对计算机科学的影响,上到信息系统(Computer Science Information System),下到计算机硬件结构(Computer Science Hardware Architecture),都有可能从“大数据”的新思潮中得到启发。


                     Figure 6.机构扩展结果分析                                                                                                                   Figure 7.出版年结果分析

                            (Credit: Thomson Reuters)                                                                                                                                                 (Credit: Thomson Reuters)


从图六和图七可以看出,在发表论文的研究机构中,,说明我科在计算机科学领域的科研嗅觉十分灵敏。这两篇分别是:

Distributed Storage System Big Data Mining Based on HPC Application-A Solar Photovoltaic Forecasting System Practice出版于:INFORMATION-AN INTERNATIONAL INTERDISCIPLINARY JOURNAL  卷: 15   期: 9。


 A distributed big data storage and data mining framework for solar-generated electricity quantity forecasting 出版于来源出版物: PHOTONICS AND OPTOLECTRONICS MEETINGS (POEM) 2011: OPTOELECTRONIC DEVICES AND INTEGRATION  丛书: Proceedings of SPIE   卷:8333(会议在武汉光电国家实验室召开WNLO)


                                            Figure 8. 来源出版物结果分析                                                Figure 9. 国家/地区结果分析 (Credit: Thomson Reuters)   


       对于想要搭乘这一次科技浪潮的读者可以各取所需,想发论文的可以考虑在哪个科研方向,哪个国际会议和学术期刊,去哪个国家,哪所学校,这几个因素;热爱科学技术的Geek和产品经理可以畅想下“大数据”将会对自己有什么影响,该怎么折腾你们手下的程序猿。这都由你们来选择。

       另外,如果使用 google trend 搜索过 big data 的人一定会发现一个有趣的现象,关于这个词的热度,印度非常高(100),但是在中国却很低(9),但是从发表论文的统计来看,印度却榜上无名,中国以5篇排名第二,读者可以试着分析原因。


       那么除了上述人群以外的人呢?“云”和“大数据”就和你们无关了吗?看看图4和图5,有超过50%的论文发表来自于计算机科学之外的方向,包括经济,管理,社会科学,环境,医学,材料,生物,金融等各个领域,可以说未来,计算机科学的进步将与我们每一个人息息相关,伴随我们整个生命跨度。它会方便我们生活的方方面面,所以比较明智的是搞清楚自己在被一项什么样的技术服务,了解他们的语言和逻辑,因为总有一天,计算机会拥有更强大的智能。