工具 | bibliometrix:R语言文献网络分析package

Python010

工具 | bibliometrix:R语言文献网络分析package,第1张

《Journal of Informetrics》在2017年11月刊载了一篇文章《bibliometrix: An R-tool for comprehensive science mapping analysis》,该文章介绍了一款用于文献网络分析的R包bibliometrix,相比其他文献计量的R包(如CITAN、hindexcalculator、scholar scientoText)功能方面要齐全很多,而且能够与R中其他的包相互配合使用。下文主要结合作者发表的该篇论文以及bibliometrix的帮助文档 [1] ,对该包的所有函数进行了分类整理 ,目的是与近期学过的vosviewer和citespace进行大致对比,方便以后的学习。

Bibliometrix的函数种类包含了科学知识图谱绘制的主要流程,即数据导入、格式转化、数据清洗与整理、描述性统计、共现矩阵建立、数据标准化、图谱绘制等。

一、数据导入类函数

二、数据格式转换函数

三、数据整理与清洗

四、描述性统计

五、生成矩阵

六、矩阵标准化

七、生成图谱

bibliometrix在前期数据格式转换、数据整理与清洗、矩阵建立与标准化、描述性统计等方面灵活性很大,只要将分析文献集转换为数据框格式,就可以很方便将文献数据过渡到一般性的数据,从而广泛地利用其他R包,但在图谱的展示上存在很大的不足。

【参考】

[1] https://cran.r-project.org/web/packages/bibliometrix/bibliometrix.pdf

Python比较好点,Python用的人比较多。

ython和R这2个都拥有庞大的用户支持。2017年的调查显示,近45%的数据科学家使用Python作为主要的编程语言,另一方面,11.2%的数据科学家使用R语言。

python与r语言区别如下:

Python的优势:

1. Python 包含比R更丰富的数据结构来实现数据更精准的访问和内存控制,大多数深度学习研究都是用python来完成的。

2. Python与R相比速度要快。Python可以直接处理上G的数据R不行,R分析数据时需要先通过数据库把大数据转化为小数据(通过groupby)才能交给R做分析,因此R不可能直接分析行为详单,只能分析统计结果。

3. Python优于R的另一个优势是将模型部署到软件的其他部分。Python是一种通用性语言,用python编写应用程序,包含基于Python的模型的过程是无缝的。

4. Python是一套比较平衡的语言,各方面都可以,无论是对其他语言的调用,和数据源的连接、读取,对系统的操作,还是正则表达和文字处理,Python都有着明显优势,尤其在计算机编程、网络爬虫上更有优势。

R语言的优势:

1. R在统计分析上是一种更高效的独立数据分析工具。在R中进行大量的统计建模研究,有更广泛的模型类可供选择,如果你对建模有疑问,R是最合适的。

2. R的另外一个技巧就是使用Shiny轻松地创建仪表盘,Python也有Dash作为替代,但是不够成熟。

3. R的函数是为统计学家开发的,因此它具有特定领域优势,比如数据可视化的强大特性,由R Studio的首席科学家Hadley Wickham创建的ggplot2 如今是R历史上最受欢迎的数据可视化软件包之一。

ggplot2允许用户在更高的抽象级别自定义绘图组件。我个人非常喜欢ggplot2的各种功能和自定义。ggplot2提供的50多种图像适用于各种行业。

建模需要数据分析如下。

1、Excel:隶属于office三件套之一,其内置函数很多,它可以很简单的进行数据分析,绘制出一些基本图表,像一般散点图、数据预处理都是通过Excel来完成的。

2、R语言:R语言进行数据分析需要有一定的数学基础还有会R语言编程,门槛比Excel高。R语言是个开源项目,具有强大的统计计算及制图能力,是大数据分析必备的工具,R语言正在被大多数数据分析师作为数据分析主要工具。

3、Eviews:这是一个计量经济学常用软件,数学建模还是有不少题目和经济有关的。用它快速计算描述统计量:相关系数、协方差、自相关系数、互相关系数和直方图。进行T检验、方差分析、协整检验、Granger因果检验。

4、origin:这是一款超强的数学图形分析工具,软件为用户提供了专业的数学数据分析功能,支持几十种二维和三维绘图模板,,同时还有高端统计分析功能、三维曲面拟合、图像处理和信号处理功能。

5、SPSS:SPSS是全球领先的一款统计分析与数据挖掘软件,也是数学建模经常使用的数据分析软件,软件操作难度不大。被广泛用于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业。