R语言XML文件

2023-02-17 12:54:01Python0144

R语言XML文件,第1张

R语言XML文件

XML是万维网上使用标准ASCII文本，内部网和其他地方共享文件格式和数据的文件格式。它代表可扩展标记语言(XML)。与HTML类似，它包含标记标签。但与标记标签描述页面结构的HTML不同，标记标签描述了文件中包含的数据的含义。

可以使用“XML”包读取R中的xml文件，使用以下命令安装此软件包。

install.packages("XML")

准备XML文件数据

通过将以下数据复制到文本编辑器(如记事本)中来创建XMl文件。使用.xml扩展名保存文件，并将文件类型选为所有文件(*.*)。创建一个XML文件：input.xml，内容如下 -

</EMPLOYEE>

<DEPT>Operations</DEPT>

</EMPLOYEE>

<NAME>Michelle</NAME>

</EMPLOYEE>

</EMPLOYEE>

<DEPT>Finance</DEPT>

</EMPLOYEE>

</EMPLOYEE>

<NAME>Simon</NAME>

<DEPT>Operations</DEPT>

</EMPLOYEE>

<DEPT>Finance</DEPT>

</EMPLOYEE>

</RECORDS>

XML

读取XML文件

R使用xmlParse()函数来读取xml文件，它作为列表存储在R中。

# Load the package required to read XML files.

library("XML")

# Also load the other required package.

library("methods")

# Give the input file name to the function.

result <- xmlParse(file = "input.xml")

# Print the result.

print(result)

当我们执行上述代码时，会产生以下结果 -

<?xml version="1.0"?>

</EMPLOYEE>

<DEPT>Operations</DEPT>

</EMPLOYEE>

<NAME>Michelle</NAME>

</EMPLOYEE>

</EMPLOYEE>

<DEPT>Finance</DEPT>

</EMPLOYEE>

</EMPLOYEE>

<NAME>Simon</NAME>

<DEPT>Operations</DEPT>

</EMPLOYEE>

<DEPT>Finance</DEPT>

</EMPLOYEE>

</RECORDS>

Shell

获取XML文件中存在的节点数

# Load the packages required to read XML files.

library("XML")

library("methods")

# Give the input file name to the function.

result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.

rootnode <- xmlRoot(result)

# Find number of nodes in the root.

rootsize <- xmlSize(rootnode)

# Print the result.

print(rootsize)

当我们执行上述代码时，会产生以下结果 -

output

[1] 8

第一个节点的详细信息

下面来看看如何解析文件的第一条记录，它将给出对顶级节点中存在的各种元素的详细信息。

# Load the packages required to read XML files.

library("XML")

library("methods")

# Give the input file name to the function.

result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.

rootnode <- xmlRoot(result)

# Print the result.

print(rootnode[1])

当我们执行上述代码时，会产生以下结果 -

$EMPLOYEE

</EMPLOYEE>

attr(,"class")

[1] "XMLInternalNodeList" "XMLNodeList"

Shell

获取节点的其它元素

# Load the packages required to read XML files.

library("XML")

library("methods")

# Give the input file name to the function.

result <- xmlParse(file = "input.xml")

# Exract the root node form the xml file.

rootnode <- xmlRoot(result)

# Get the first element of the first node.

print(rootnode[[1]][[1]])

# Get the fifth element of the first node.

print(rootnode[[1]][[5]])

# Get the second element of the third node.

print(rootnode[[3]][[2]])

当我们执行上述代码时，会产生以下结果 -

<NAME>Michelle</NAME>

Shell

XML转到数据帧

为了在大文件中有效处理数据，我们以xml文件的形式读取数据作为数据帧。然后处理数据帧进行数据分析。

# Load the packages required to read XML files.

library("XML")

library("methods")

# Convert the input xml file to a data frame.

xmldataframe <- xmlToDataFrame("input.xml")

print(xmldataframe)

当我们执行上述代码时，会产生以下结果 -

ID NAME SALARY STARTDATE DEPT

1 1 Rick 623.3 1/1/2012 IT

2 2 Dan 515.2 9/23/2013 Operations

3 3 Michelle611 11/15/2014 IT

4 4 Ryan729 5/11/2014 HR

5 5 Gary 843.25 3/27/2015Finance

6 6 Nina578 5/21/2013 IT

7 7Simon 632.8 7/30/2013 Operations

8 8 Guru 722.5 6/17/2014Finance

Shell

由于数据现在已经转为数据帧，所以我们可以使用数据帧相关函数来读取和操作文件。

在使用R的时候，我们肯定需要导入数据，现在总结一下如何导入不同类型的数据：

1.使用键盘输入数据

在导入数据比较少的时候，我们使用这种方法。R中的函数 edit() 会自动调用一个允许手动输入数据的文本编辑器。具体步骤如下：

(1) 创建一个空数据框（或矩阵），其中变量名和变量的模式需与理想中的最终数据集一致；

(2) 针对这个数据对象调用文本编辑器，输入你的数据，并将结果保存回此数据对象中。在下例中，你将创建一个名为 mydata 的数据框，它含有三个变量： age （数值型）、 height（字符型）和 weight （数值型）。然后通过edit()函数调用文本编辑器，键入数据，最后保存结果。编辑器界面如下，我们在这个界面可以输入变量值，也可以改变变量类型。

[plain] view plain copy

mydata<-data.frame(age=numeric(0),height=numeric(0),weight=numeric(0))

edit(mydata)

需要注意的是函数 edit() 事实上是在对象的一个副本上进行操作的。如果你没有将它其赋值到一个对象，你的所有修改将会全部丢失！

2.导入带分隔符的文本文件数据/CSV文件

read.table() 可以从带分隔符的文本文件中导入数据。此函数可读入一个表格格式的文件并将其保存为一个数据框。其语法如下：

read.table(file,header=value,sep="delimter",row.names="name")

file表示文件名，header表示表的首行是否包含变量值的逻辑值，sep 用来指定分隔数据的分隔符， row.names 用以指定一个或多个表示行标识符的变量，是个一可选参数，他还有许多参数，可以通过帮助文档进行查看。

3.导入Excel数据

虽然Excel可能是世界上最流行的数据分析工具，但R如果直接读取Excel数据还是比较困难的。

但我们可以在Excel中将数据将其导出为一个逗号分隔文件（csv），并使用前文描述的方式将其导入R中。在Windows系统中，你也可以使用 RODBC 包来访问Excel文件。但它好像只能在32位的R软件上面使用。虽然也有一些包可以这些问题，比如gdata,XLConnect,xlsReadWrite等，但它的有许多前提要求，比如Java环境，Per,或者32-bit R。因此一般情况将数据转换为csv文件或者将数据导入到数据库在导入在R。

4.导入XML数据

强大的R中有若干用于处理XML文件的包。 XML 包允许用户读取、写入和操作XML文件。因为我还没有遇到这种数据，因此还不太清楚xml包大体如何使用，感兴趣的朋友可以下载xml包，通过帮助文档进行学习。

5.从网页抓取数据

不仅Python可以爬取网页数据，R也可以在Web数据抓取。在这个的过程中，用户可以从互联网上提取嵌入在网页中的信息，并将其保存为R中的数据结构以做进一步的分析。完成这个任务的一种途径是使用函数 readLines()下载网页，然后使用如 grep() 和 gsub() 一类的函数处理它。对于结构复杂的网页，可以使用RCurl 包和 XML 包来提取其中想要的信息。

6.导入SPSS数据

我们可以调用通过 foreign 包中的函数 read.spss() 将SPSS数据集可以导入到R中，也可以使用 Hmisc 包中的 spss.get() 函数。函数 spss.get() 是对 read. spss() 的一个封装，它可以为你自动设置后者的许多参数，让整个转换过程更加简单一致，最后得到数据分析人员所期望的结果。使用的时候我们只需要安装Hmisc 包，在较新的R中foreign 包已被默认安装。

[plain] view plain copy

mydata<-spss.get("data.sav",use.value.labels=TRUE)

这段代码中，data.sav 是要导入的SPSS数据文件， use.value.labels=TRUE 表示让函数将带有值标签的变量导入为R中水平对应相同的因子， mydataframe 是导入后的R数据框。

数据文件函数结果当我们

# 上一篇：抽象类和接口的区别

# 下一篇：R语言中两个数组（或向量）的外积如何计算