页面通过js加载怎么爬虫 ruby实现

2023-02-26 11:22:01Python013

页面通过js加载怎么爬虫 ruby实现,第1张

Ruby中爬虫的实现

Ruby中实现网页抓取，一般用的是mechanize，使用非常简单。安装

sudo gem install mechanize

抓取网页

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

模拟点击事件

page = agent.page.link_with(:text =>'News').click

模拟表单提交

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

分析页面，mechanize用的是nokogiri解析网页的，所以可以参照nokogiri的文档

table = page.search('a')

text = table.inner_text

puts text

有几点注意的地方：如果需要先登录的网页，那么可以在网站先登录，登录后记录JSESSIONID，然后赋值给agent

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

如果需要保存网页，使用.save_as，(或许save也可以，我没试过)例如

agent.get("google.com").save_as

这个是将一串字符串转化成数组的方法

(1) 在默认无参传入的时候，是以空格为间隔，获得数组

pry(main)> " now's the time".split

=> ["now's", "the", "time"]

(2) 如果接受一个字符参数，那么会按照这个字符参数进行分割变成数组

pry(main)> "mellow yellow".split("ello")

=> ["m", "w y", "w"]

(3)如果接受的是两个参数，后面的参数是用来确定分割数组里面元素的个数，如果在按规则分割的时候剩下多余的就变成一个元素

pry(main)> "mellow,yellow".split(//,4)

=> ["m", "e", "l", "low,yellow"]

(4)当然split 参数也接受正则表达式，如下

pry(main)> "hi mom".split(%r{\s*})

=> ["h", "i", "m", "o", "m"]

的是数组参数如果网页

# 上一篇：golang-指针类型

# 下一篇：如何用C语言实现RSA算法？

给您推荐相同类型的内容：

用C语言编写一个通讯录管理系统
C语言编写一个通讯录管理系统的源代码如下：#include&ltstdio.h&gt#include&ltstring.h&gt#include&ltstdlib.h&gt*定义保存
在python中表示什么意思？
结果为7.5。在Python""表示整数除法。Python的表达式写法与CC++类似。只是在某些写法有所差别。主要的算术运算符与CC++类似。+, -, *, , , **, ~, %分别表示加法或
python 批量处理（通过ip地址获取机器名）
import sys, sockettry:ipLines = open('ip.txt').readlines()results = []for ip in ipLines:result = socket.g
python代码没错但运行不出来
python代码没错但运行不出来是什么原因呢？不知道的小伙伴来看看今天的分享吧！ 1、python代码没错但运行不出来的原因：某项目中使用python脚本方式将日志文件中的数据持续的转换格式输出到另一文件中以
Python中，怎么在字符串里嵌入双引号或者单引号
1、新建python文件，teststr.py；2、在双引号前面加个转义符，即反斜杠。如"Hello "W "orld"，会输出 Hello "W"orld；3、用单
2021-05-12 GO 与C#代码行对比
最近在做一个内网穿透工具，是用C# Dotnet Core写的。总担心性能不行，想参考下别人写的。结果搜到很多GO语言的例子。看了下Go语言的介绍，觉得确实是比较简单的语言。并且在并发上比较方便。于是，就开始学习Go语言，并用Go把内
什么叫做深度学习框架，其作用是什么
深度学习框架是一种为了深度学习开发而生的工具，库和预训练模型等资源的总和。有了这种框架，看似复杂神秘的深度学习模型开发被大大简化，成为AI开发者的必用利器。目前，TensorFlow和PyTorch明显领先，其他框架势微。如下图所示，基于
如何快速入门学习Java？
如何快速入门学习Java？其实很多时候都是万事开头难，我们一旦接触Java学习可能并不是很难，当然需要我们制定Java学习路线图对于我们的学习非常有帮助，那么Java入门怎么学习呢？1、Java免费视频教程学习首要去找一个Java的根底教
go语言函数如何传递数组变量
按值传递函数参数，是拷贝参数的实际值到函数的形式参数的方法调用。在这种情况下，参数在函数内变化对参数不会有影响。默认情况下，Go编程语言使用调用通过值的方法来传递参数。在一般情况下，这意味着，在函数内码不能改变用来调用所述函数的参数。考虑函
R语言中，已知一个m行n列的数据框，每列的列名为字符串，如s1,s2,s3,s4...，如何根据列名求该列的索引？
% 使用 reshape(X ,m,n)函数% 先了解一下reshape的基本用法% 简而言之就是将矩阵X—&gtm*n的新矩阵% 例如：将 3*4的A矩阵—&gt2*6的B矩阵A =[1 4 7 10
C语言中ASCII码是什么意思
美国信息交换标准代码。ASCII(AmericanStandardCodeforInformationInterchange)：美国信息交换标准代码是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标
怎么自学java工程师
小伙伴想自学java开发技术，想必小伙伴的自学能力和自控能力比较强的，那小伙伴如何系统的自学java开发技术呢？自学java开发技术首先是要选择适合自己的java视频，由于是自学java，小伙伴在找java视频的时候最好是能找到讲的比较详细
python安装步骤
步骤一下载安装包我们从python官方网站：http:www.python.org下载python的安装包。这里我选择的是：python-3.3.2.msi。点击即可下载获取得到：python-3.3.2.msi安装包。该安装包
合肥java培训要多少钱
因为不同城市、不同机构之间师资、课程和学习环境各方面都有所不同，所以培训费用也会存在一定的差别。所以具体多少钱还是要根据所处城市，所学机构实际咨询了解的价格为准。千锋教育有线上免费Java线上公开课。但是要注意的是Java培训机构的教学水平
R语言 R软件问题
《R语言4.0.4软件》百度网盘资源免费下载:链接: https:pan.baidu.coms160twe4ScMvIbGm2TI_sjHw?pwd=3ts7 提取码: 3ts7R语言4.0.4是一款专业的统计建模软件，与其它建
如何用C语言实现RSA算法？
上学期交的作业，已通过老师在运行时间上的测试#include &ltstdio.h&gt#include &ltstdlib.h&gtunsigned long prime1,prime2,eeunsigne
广州培训java哪家好？
可以了解下广州千锋教育，主要是做口碑的培训机构！我在这里毕业的，学的java目前工作收入还不错我们班多数是0基础开始学的，老师很用心，教学也很严格！߅现在通过该网络上的评价和宣传广告大家去找机构的也很多，但这里建议大家还是要去实地进行考察
python中读取csv文件
python中读取csv方法有3种：第一种，普通方法读取（open函数打开，然后使用for循环读取内容）；第二种，使用用CSV标准库读取；第三种，用pandas模块读取。Python读取CSV文件方法如下：如下是一个CVS文件使用Pytho
国内最好的Java培训机构有哪些？
国内现在的java培训机构有千锋教育、IT培训网、中软国际教育集团、课工场、开课吧等等，这些都是知名的品牌。千锋教育就有线上免费Java线上公开课。随着IT行业特别是Java行业的迅速发展，企业对于技术人才Java程序员的需求量与日俱增。但
华北理工大学R语言容易过吗
不容易。对编程稍微有一点了解的人都知道c语言，那么什么是r语言呢？r语言和c语言类似，是s语言的分支之一，它主要应用于统计计算和统计制图，但由于在我国更多的使用了sas和spss，所以关于r语言的普及程度并不是那么高。但其实它的功能还是会很
go语言能做什么？
很多朋友可能知道Go语言的优势在哪，却不知道Go语言适合用于哪些地方。 1、 Go语言作为服务器编程语言，很适合处理日志、数据打包、虚拟机处理、文件系统、分布式系统、数据库代理等；网络编程方面。Go语言广泛应用于Web应用、API应
pycharm勾选addpath报错
最近在使用Pycharm，在运行或者安装的过程中出现了各种各样的报错，前面已经介绍过安装pygame出现报错的解决方法。文章总结了大部分可能会出现的报错，包含原因以及解决方法。（一）Pycharm报错：No R interpreter de
零基础java培训班哪个好
零基础java培训班【达内教育】好，该机构制定行业培训标准，为达内学员提供高端技术、所学课程受国际厂商认可，让达内学员更具国际化就业竞争力。零基础选择靠谱的Java培训机构要注意一下几点：1、选择大牌Java培训机构，时间成立比较早，口碑还
基于R语言绘制Network几种方式
开始一个新的R语言数据分析新项目，管理脚本、图片、文件的推荐方式：打开Rstudio，新建Rproject，新建脚本（脚本存放在生成的Rproject文件夹中）。若要逆着优先顺序操作，将返回NA x %in%y是判断x中的每一个
临漳有电锅炉出租吗
有河北德威采暖设备有限公司临漳分公司扁平化管理氛围好环境舒适带薪年假前景不错公司信息公司简介河北德威采暖设备有限公司临漳分公司创建于2020-03-23 。公司地点在邯郸市临漳县北张村人字路口路西经营领域为销售燃气采暖壁挂锅炉、燃气
怎么选择java培训班
选择java培训班有以下4个方面：1、品牌实力，良好的口碑是市场对其的认可，代表着企业的实力。2、看师资团队，优秀的教学老师合适的教学方法才能带出的学生。3、看教学内容，其次要注重教学内容，看该培训机构的课程是否实时更新，是否符合企业的新要
python计算两个时间戳相差多少秒
在Python编程中，使用datetime模块计算两个时间的差：&gt&gt&gt import datetime&gt&gt&gt d1=datetime.datetime(2015,7,
怎么理解c语言链表的这两个语句，r->next=p;r=p;
r-&gtnext=p——让指针r指向的结点的下一个结点的指针等于指针p。r=p——将p赋给r。虽然看不到上下文，但大致意思是执行这两后，就将p指向的链表接在了r指向的结点后，并r的指向向后移动了一个结点……供参考。这个就是指针自加
《Go程序设计语言中文版》pdf下载在线阅读全文，求百度网盘云资源
《Go程序设计语言中文版》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms1K2XHYlNbRyQMiBkckaPr7A?pwd=0cii 提取码：0cii简介：本书由《C程序设计语言》的作者Kernig
Python读取Excel表格数据并以字典dict格式存储
有时我们需要将一个 Excel表格文件中的全部或一部分数据导入到Python中，并将其通过字典格式来存储；那么如何实现上述操作呢？我们以如下所示的一个表格（ .xlsx 格式）作为简单的示例。其中，表格共有两列，第

推荐阅读

热门文章

最新发布

标签列表

页面通过js加载怎么爬虫 ruby实现

给您推荐相同类型的内容：