R语言中,RCurl优势在哪儿,做爬虫的话用Python还是RCurl效率高

Python013

R语言中,RCurl优势在哪儿,做爬虫的话用Python还是RCurl效率高,第1张

Python 用requests + BeautifulSoup 很方便。

【Step1】获取html:

import requests

r = requests.get(‘’)

html = r.text#这样3行代码就把网页的html取出来了

【Step2】解析:

html用你喜欢的方式解析就可以了,牛逼的话可以直接正则。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html) #这样2行就可以很方便的操作soup解析了

或者专业点的用scrapy爬虫框架,默认用xpath解析。

如果用Python或者C#可能更容易。但是R本身也有很强的处理功能。

用regular expression. 将html的source打开,比如可以将其按照txt的格式打开。里面的编码都是有规律的,接下来用regular experssion打开。比较常用的函数gsub, strsplit, grep等,可以看帮助文件。

R可以在网页上抓取数据,一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理,对于结构复杂的网页,可以使用RCurl和XML包来提取其中想要的信息。

更多信息和示例,参考在Programming with R上找到的“Webscraping Using ReadLines and Rcurl”一文;