怎么用RUBY获取网页上的数据

Python015

怎么用RUBY获取网页上的数据,第1张

Net::HTTP.new方法,返回resp码和实际的data:

require 'net/http'  

h = Net::HTTP.new("www.baidu.com",80)  

resp,data = h.get("/")   

puts resp  

puts data

ruby操作excel文件使用ruby来操作excel文件首先需要在脚本里包含以下语句require'win32ole'把win32ole包含进来后,就可以通过和windows下的excelapi进行交互来对excel文件进行读写了.打开excel文件,对其中的sheet进行访问:excel=WIN32OLE::new('excel.Application')workbook=excel.Workbooks.Open('c:\examples\spreadsheet.xls')worksheet=workbook.Worksheets(1)#定位到第一个sheetworksheet.Select读取数据:worksheet.Range('a12')['Value']#读取a12中的数据data=worksheet.Range('a1:c12')['Value']#将数据读入到一个二维表找到第一处a列的值为空值line=1whileworksheet.Range("a#{line}")['Value']line=line+1end#line的值为第一处空白行的行数将第一列的值读入到一个数组中line='1'data=[]whileworksheet.Range("a#{line}")['Value']dataworkbook=>worksheet=>range(cell)我理解的是excel为类名,workbook为一个具体的(excel文件)实例,创建好实例后,worksheet是实例(workbook,工作簿)中的一个工作表,然后可以对工作表中的每个单元格(range(cell))进行具体的读写------------------按照这样操作肯定没有错,不过下面的这些语句又让我有些疑惑excel.workbooks("Mappe1").worksheets("Tabelle1").range("a1").value#读取名为Mappe1的excel文件中工作表名为Tabelle1的a1单元格中的值excel.worksheets("Tabelle1").range("a1").value#作用同第一条语句excel.activeworkbook.activesheet.range("a1").value#作用同第一条语句excel.activesheet.range("a1").value#作用同第一条语句excel.range("a1").value#作用同第一条语句excel可以直接操作所有的属性,默认为当前活跃的工作簿/工作表对单元格的操作:某个单元格:sheet.range("a1")a1到c3的值:sheet.range("a1","c3")或sheet.range("a1:c3")第一列:sheet.range("a:a")第三行:sheet.range("3:3")获得单元格的值:range.text#读取值,返回为字符串格式,如果单元格内为数字,有可能会被截断小数点后的位数sheet.range("a1").textrange.value#读取值,数字不会截断sheet.range("a1").value对单元格设置值sheet.range("a1").value=1.2345或sheet.range("a1").value='1.2345'迭代访问:sheet.range("a1:a10").each{|cell|putscell.value}如果范围是一个矩形,则会按行循环迭代访问sheet.range("a1:b5").each{|cell|putscell.value}block迭代,并打印出每行的第一个值

Ruby中爬虫的实现

Ruby中实现网页抓取,一般用的是mechanize,使用非常简单。 安装

sudo gem install mechanize

抓取网页

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

模拟点击事件

page = agent.page.link_with(:text =>'News').click

模拟表单提交

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

分析页面,mechanize用的是nokogiri解析网页的,所以可以参照nokogiri的文档

table = page.search('a')

text = table.inner_text

puts text

有几点注意的地方: 如果需要先登录的网页,那么可以在网站先登录,登录后记录JSESSIONID,然后赋值给agent

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

如果需要保存网页,使用.save_as,(或许save也可以,我没试过)例如

agent.get("google.com").save_as