如何用R语言爬取网页表格数据节省一天工作时间

Python013

如何用R语言爬取网页表格数据节省一天工作时间,第1张

如果以后抓取网页碰到动态加载的数据,可以考虑使用 phantomjs 如果想更暴力直接开出一个有界面的浏览器做各式各样的操作,达到ajax无阻碍的,可以用Selenium + Beautifulsoup

代码如下:

>install.packages(“XML”)#安装XML包

>library(XML) #载入XML包

>u<-"XXX" #写入表格所在的网址

>tbls<-readHTMLTable(u) #分析网页中的表格,如果网页包含多个表格,需要确定读取哪个表。可通过识别表的行数来确定,具体见R语言网页数据抓取的一个实例_戊甲_新浪博客

>pop<-readHTMLTable(u,which=1) #读取网页中的第一张表

>write.csv(pop,file="d:/pop.csv") #存储pop为CSV文档至D盘中

这样,就快速实现了网页中的数据爬取。

read.table(file, header = FALSE, sep = "")

#file是文件或者链接的名称,应当是字符串 ,它是你电脑上一个特定文件的路径。

#header表明第一行是否是表头(如果第一行是列名导入的时候填TRUE,默认为FALSE)。

#sep,表示分隔符 ,常见空白分隔符有:空格,制表符,换行符

#                                sep=” ”;sep = “\t”;sep = “\n”

准备工作

>setwd("E:/Ethan") #设置路径

>getwd()           #读取路径

[1] "E:/Ethan"

读取txt文件

>data1 <- read.table('ClinicalData.R.txt',sep = '\t',header = TRUE)

>data1

我们都要加油~