用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数gsub, strsplit, grep等,可以看帮助文件。
R可以在网页上抓取数据,一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理,对于结构复杂的网页,可以使用RCurl和XML包来提取其中想要的信息。
更多信息和示例,参考在Programming with R上找到的“Webscraping Using ReadLines and Rcurl”一文;
首先打开r语言的命令行编辑窗口先以简单数据为例,在r命令行窗口输入如下代码:
data_test<-data.frame(c1<-c(7,8,9,10,11,12),c2<-c(23,36,87,54,15,98),c3<-c(400,325,567,212,698,555));
attach(data_test);
pdf("c:/four.pdf",family="gb1");
plot(c1,c2);
dev.off();
detach(data_test);
完成上述代码后,会在对应的输入路径(这里是c:/)下生产此pdf格式文件(这里命名为one.pdf)。使用pdf阅读器打开此文件查看。
完成上述代码后,会在对应的输入路径(这里是c:/)下生产此pdf格式文件(这里命名为two.pdf)。使用pdf阅读器打开此文件查看。