本书对数据科学领域应用广泛的R软件包在科学计量数据分析中的实践进行了系统性介绍。按照问题、方法、案例的模式,对R中可进行科学计量数据分析和可视化的工具包进行了介绍和演示。本书是对CiteSpace、VOSviewer以及BibExcel等科学计量和知识图谱系列图书的补充。
本书可作为图书馆和情报学专业、医学和生物信息专业、公共管理专业、管理科学与工程(科技管理、信息管理)专业、教育信息以及数据或信息可视化研究方向本科生和研究生的实践教材,也可作为相关领域科研人员日常科学研究甚至科技管理和政策分析的工具书。
前言
当前,我们处于科学文献大数据时代。面对海量的文献我们如何快速地了解一个研究领域、研究方向或者主题的整体格局以及未来的趋势?在此背景下,与该问题直接相关科学计量理论、方法和技术适时发展,成为解决上述科研问题的一种有效的途径。掌握科学计量相关的技术和方法也成为科研工作者在新时代进行科学研究活动的基本技能。在过去十余年里,科学计量数据可视化的理论与方法已经大量地渗透到其他学科的研究实践中。在国内这种以科学文本数据为研究对象,通过可视化技术来揭示学科结构、演进和互动的研究领域被统称为“科学知识图谱”。
科学计量数据可视化背后涉及了大量的科学计量学(还包含文献计量学、网络计量学以及信息计量学)方面的基础理论,比如论文的作者生产率分布、论文的共被引、耦合、主题共现以及作者合作等。还包含了统计学和网络科学等方面的技术和方法,比如多维尺度分析、聚类分析、复杂网络分析、自然语言处理和文本挖掘等分析方法。上面的理论和方法构成了进行科学计量数据可视化分析的知识基础,是进行知识图谱分析的前提。在理论和方法的支持下,当前国内外的相关学者已经开发了数十种进行科技文本挖掘方面的软件或者工具包,这些知名的工具包含了HistCite、BibExcel、CiteSpace、SCI2以及VOSviewer等。这些工具为有意借助领域文献分析以获取学科研究格局和动态的学者提供了可能。
笔者在过去5年从事科学计量和知识图谱的实践研究中,相继撰写了关于CiteSpace、VOSviewer以及BibExcel等方面的书籍,主要目的在于帮助非科学计量学领域的学者快速应用该方法辅助科学研究。从2016年开始已经相继组织了4次与科学计量和知识图谱相关的活动,与来自国内的数百名知识图谱爱好者有过交流。在交流中,最为常见和令我反思的一个问题是:“我得到的图谱结果应该怎样解释呢?”我认为科学计量及知识图谱的方法仅仅给我们提供了一种认识知识世界的新方式,但这种认识方式更需要知识图谱实践者结合自身的专业背景和知识图谱的理论与方法去思考。在进行科学计量和知识图谱分析的时候,读者一定要明确自己要解决的问题是什么?以及为什么知识图谱能够解决提出的问题,它与其他方法相比优势在哪里?等等。即科学计量和知识图谱分析之前,一定要确定自己所要研究的问题,然后来选择要使用何种知识图谱呈现方式来解决问题。
本书是《CiteSpace:科技文本挖掘及可视化》、《科学计量与知识网络分析——基于BibExcel等软件的实践》、《科学知识图谱原理及应用——VOSviewer与CiteNetExplorer初学者指南》的姊妹篇。与前面这些应用程序不同的是,该书详细介绍了意大利那不勒斯菲里德里克第二大学(University of Naples Federico II)经济与统计系Massimo Aria和Corrado Cuccurullo基于R语言开发的BIBLIOMETRIX工具包(Version 1.6和1.7)[1]。该R工具包基本上涵盖了进行科学计量和知识可视化的功能(图0. 1),可以满足爱好R软件,并试图使用R进行科学计量和知识图谱分析的读者。在此基础上,对于科学计量与知识图谱相关的一些R工具包,rAltmetric、wordcloud2、gender以及tidytext等工具包进行了介绍。本书对使用R进行英文全文本挖掘进行了很少的介绍,对中文本全文本挖掘还尚未涉及。在今后的更新中将对使用R进行全文本挖掘进行适当的完善。
图0. 1 bibliometrix功能概览
为了便于读者熟悉bibliometrix工具包,大多数的案例运行采用了工具包自带的数据,一些案例专门下载了Web of Science和Scopus数据集进行分析。呈现可所分析的结果,但并未就结果进行描述性或者带有特定研究目的的解读。通过对这些结果的学习,读者可以自己去思考可以做些什么?或者至少可以通过这种方法了解一下自己所关注的领域哪些情况?
本书在撰写中有如下约定:
>后为代码
#为代码的说明
## 为代码运行的结果
感谢Massimo Aria和Corrado Cuccurullo在本书写作过程中给予的大力帮助,并为本书所撰写英文序言。感谢首都经济贸易大学出版社杨玲社长在科学计量与知识图谱系列丛书出版中的极大支持,感谢中国科学院李彬彬博士在提取子矩阵问题上的帮助,感谢滑铁卢大学博士后于淼对文稿提出的修改建议,感谢本书的责任编辑薛晓红以及研究生李平对本书详细校对。
回首自己在科学计量和知识图谱研究与实践上的经历,感受五味杂陈。衷心地期望本书及其相关系列丛书能进一步促进科学计量与知识图谱实践研究在国内的发展和普及,并使每一位读者受益。
李杰
2017年7月于
李杰,男,管理学博士。上海海事大学海洋科学与工程学院安全科学与工程系讲师、安全科技趋势研究中心常务副主任、科技情报研究所高级研究员,北京理工大学博士后(在站),Frontiers in Research Metrics and Analytics编委。
曾在首都经济贸易大学、斯泰恩拜斯大学(德国)、台湾省中华大学、代尔夫特理工大学(荷兰)学习或研究。研究方向主要集中在安全科学管理、科学计量学以及应用科学知识图谱等领域。已发表论文50余篇,出版著作5部,包括《CiteSpace科技文本挖掘及可视化》《科学计量与知识网络分析》《安全科学技术信息检索基础》等。