工具 | bibliometrix:R语言文献网络分析package

Python010

工具 | bibliometrix:R语言文献网络分析package,第1张

《Journal of Informetrics》在2017年11月刊载了一篇文章《bibliometrix: An R-tool for comprehensive science mapping analysis》,该文章介绍了一款用于文献网络分析的R包bibliometrix,相比其他文献计量的R包(如CITAN、hindexcalculator、scholar scientoText)功能方面要齐全很多,而且能够与R中其他的包相互配合使用。下文主要结合作者发表的该篇论文以及bibliometrix的帮助文档 [1] ,对该包的所有函数进行了分类整理 ,目的是与近期学过的vosviewer和citespace进行大致对比,方便以后的学习。

Bibliometrix的函数种类包含了科学知识图谱绘制的主要流程,即数据导入、格式转化、数据清洗与整理、描述性统计、共现矩阵建立、数据标准化、图谱绘制等。

一、数据导入类函数

二、数据格式转换函数

三、数据整理与清洗

四、描述性统计

五、生成矩阵

六、矩阵标准化

七、生成图谱

bibliometrix在前期数据格式转换、数据整理与清洗、矩阵建立与标准化、描述性统计等方面灵活性很大,只要将分析文献集转换为数据框格式,就可以很方便将文献数据过渡到一般性的数据,从而广泛地利用其他R包,但在图谱的展示上存在很大的不足。

【参考】

[1] https://cran.r-project.org/web/packages/bibliometrix/bibliometrix.pdf

描述逻辑(description logic)是一簇知识表示的语言,其以结构化、形式化的方法来表示特定应用领域的知识.作为一类用于知识表示的形式化工具,描述逻辑在信息系统、软件工程以及自然语言处理等领域得到了广泛的应用[1].特别是在第三代Web——语义网(semantic Web)中,描述逻辑更是扮演着关键角色,并成为W3C推荐Web本体语言OWL的逻辑基础 。

现代知识图谱通常是以三元组为基础进行简单的知识表示,弱化了对强逻辑表示的要求。

基于向量的知识表示在现代知识图谱中越来越收到重视,因为基于向量的知识图谱表示可以使这些数据更易于和深度学习模型集成。

基于向量的知识表示: 知识表示学习的定义知识表示学习是将知识库中的知识表示为低维稠密的实体向量,即Embedding。知识图谱是由实体和关系组成,通常采用三元组的形式表示,【head(头实体),relation(实体的关系),tail(尾实体)】,简写为(h,r,t)。知识表示学习任务就是学习h,r,t的分布式表示(也被叫做知识图谱的嵌入表示(embedding))。

一阶谓词逻辑 :用变量和谓词来表示知识。

霍恩子句 :带有最多一个肯定文字的子句。有且只有一个肯定文字的霍恩子句叫做 明确子句 ,没有任何肯定文字的霍恩子句叫做 目标子句

霍恩逻辑

语义网络 :三元组(节点1,联想弧,节点2)

框架 :基本单元为类(槽,侧面)。基本单元表示一类事物吗?

描述逻辑 :一阶逻辑的一个可判定子集,即每个描述逻辑中的命题都可以在有限时间内完成证明或证否,只有极少数的描述逻辑类型被认为是不可判定的。利用一阶逻辑对语义网络和框架进行形式化后的产物?描述逻辑方法多数被用到涉及知识分类的应用领域,如数字图书馆和面向万维网的信息处理。描述逻辑是当前 语义网 发展中 本体 的理论基础。例如, OWL 因特网 本体 语言就是一种描述逻辑 SHIOQ (D) 的语法形式。

一个描述逻辑系统中的名字可分为概念(concept),属性(role)和个体(individual)。例如,一个用描述逻辑描述的知识库如下:

男人人 (男人 是 人)

丈夫 男人  婚配于人 (丈夫是 婚配于 至少一个 人 的 男人)

男人(张三) (张三是一个男人)

其中,“男人”、“人”、“丈夫”是概念,“婚配于”是属性,“张三”是个体

描述逻辑和一阶谓词逻辑的区别?

RDF/RDFS :DBpedia,Yago,Freebase

统一资源标识符 (英语: U niform  R esource  I dentifier,缩写: URI )在 电脑 术语中是一个用于 标识 某一 互联网 资源 名称的 字符串 。

该种标识允许用户对网络中(一般指 万维网 )的资源通过特定的 协议 进行交互操作。URI的最常见的形式是 统一资源定位符 (URL),经常指定为非正式的网址。更罕见的用法是 统一资源名称 (URN),其目的是通过提供一种途径。用于在特定的 名字空间 资源的标识,以补充网址。

OWL/OWL2 : 我认为就是在RDF的基础上再加一些约束。

OWL2QL为查询设计的;OWL2EL提供多项式推理,专为概念属于描述,本体的分类推理而设计,广泛应用于生物医疗领域,如临床医疗术语本体SNOMED CTOWL2ET的分类复杂度是Ptime,用于推理(后两个区别?)

查询语言SPARQL

语义Markup表示语言 : 在网页中嵌入语义Markup的方法和表示语言。主要包括JSON-LD、RDFa和HTML5 MicroData。

Freebase:对象-object、事实-Facts、类型-Types和属性-Properties.

Wikidata:页面-Page、实体-Entities、条目-Items、属性-Properties、陈述-Statements、修饰-Qualifiers、引用-Reference等。

ConceptNet5:概念-Concepts、词-Words、短语-Phrases、断言-Assertions、关系-Relations、边-Edges。包含21种预定义的、多语言通用的关系。

词的向量表示方法:独热编码、词袋模型、词向量

词向量的产生方法中经典的额开源工具word2vec中包含两个模型cBoW和Skip-gram。

cBoW和Skip-gram都是用来训练word embeding的。

cBow和Bow的区别:Bow用于一段文本,是一种思想;cBow是把Bow的思想通过滑动窗口用于此向量的实现。

TransE是一个算法,用于graph enbeding.

word enbeding是将文本变成向量;graph emdeding是将实体和关系变成向量。

思考如何从word embeding变成graph embeding?

代表性知识图谱介绍:

1. SNOMED CT

SNOMED CT ( S ystematized  No menclature of  Med icine --  C linical  T erms, 医学系统命名法-临床术语 , 医学术语系统命名法-临床术语 ),是一部经过系统组织编排的,便于 计算机 处理的 医学 术语集 ,涵盖大多数方面的 临床信息 ,如 疾病 、所见、操作、 微生物 、 药物 等。采用该术语集,可以协调一致地在不同的 学科 、 专业 和照护地点之间实现对于临床数据的标引、存储、检索和聚合。同时,它还有助于组织 病历 内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。(From wiki)

SNOMED CT目前包括大约321 900条概念(Concept)、超过80万条临床概念相关的描述(Descriptions),和超过700万条进一步描述概念的关系(Relationships)。

SNOMED CT的主要内容包括概念表、描述表、关系表、历史表、ICD映射表和LONIC映射表。其中核心构成是: 概念表(按层级结构组织的具有临床含义的概念表)、描述表(用于表达概念的人类自然语言表)和关系表(用来说明的两个临床概念之间的关系) 。