r语言怎么抓取网页数据

Python014

r语言怎么抓取网页数据,第1张

如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。

用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数gsub, strsplit, grep等,可以看帮助文件。

R可以在网页上抓取数据,一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理,对于结构复杂的网页,可以使用RCurl和XML包来提取其中想要的信息。

更多信息和示例,参考在Programming with R上找到的“Webscraping Using ReadLines and Rcurl”一文;

首先打开r语言的命令行编辑窗口

先以简单数据为例,在r命令行窗口输入如下代码

data_test<-data.frame(c1<-c(7,8,9,10,11,12),c2<-c(23,36,87,54,15,98),c3<-c(400,325,567,212,698,555));

attach(data_test);

pdf("c:/four.pdf",family="gb1");

plot(c1,c2);

dev.off();

detach(data_test);

完成上述代码后,会在对应的输入路径(这里是c:/)下生产此pdf格式文件(这里命名为one.pdf)。使用pdf阅读器打开此文件查看。

完成上述代码后,会在对应的输入路径(这里是c:/)下生产此pdf格式文件(这里命名为two.pdf)。使用pdf阅读器打开此文件查看。