页面通过js加载怎么爬虫 ruby实现

2023-02-25 13:16:02Python011

页面通过js加载怎么爬虫 ruby实现,第1张

Ruby中爬虫的实现

Ruby中实现网页抓取，一般用的是mechanize，使用非常简单。安装

sudo gem install mechanize

抓取网页

require 'rubygems'

require 'mechanize'

agent = Mechanize.new

page = agent.get('http://google.com/')

模拟点击事件

page = agent.page.link_with(:text =>'News').click

模拟表单提交

google_form = page.form('f')

google_form["q"] = 'ruby mechanize'

page = agent.submit(google_form, google_form.buttons.first)

pp page

分析页面，mechanize用的是nokogiri解析网页的，所以可以参照nokogiri的文档

table = page.search('a')

text = table.inner_text

puts text

有几点注意的地方：如果需要先登录的网页，那么可以在网站先登录，登录后记录JSESSIONID，然后赋值给agent

cookie = Mechanize::Cookie.new("JSESSIONID", "BA58528B76124698AD033EE6DF12B986:-1")

cookie.domain = "datamirror.csdb.cn"

cookie.path = "/"

agent.cookie_jar.add!(cookie)

如果需要保存网页，使用.save_as，(或许save也可以，我没试过)例如

agent.get("google.com").save_as

一种方法是直接在Ruby里跑命令行node app.js arg1 arg2，但略挫了点，而且Nodejs的代码里是有数据库/redis连接的，每次重新连接，是不是会造成额外的开销？

另一种方法是通过Unix Domain Socket

不行的，app/assets/javascript文件夹里面放的应该是.js文件

你要想这么做，你可以把那个rails的变量放在页面中的一个隐藏域中

例如:

在js中就能取到这个@user.name的值

jquery 代码如下

var user_name = $("#user_name").val()

开发应该有一个思想，js代码归js代码，html归html，ruby代码归ruby代码

这样看起来很舒服

代码网页的是爬虫页面

# 上一篇：python写的程序，转成了exe文件，怎么进行反编译为python源码

# 下一篇：C语言的字符数组和字符串的区别

给您推荐相同类型的内容：

开源数据统计平台 -- GoAnalytics
本项目用于移动端的数据统计，项目地址： https:github.comlt90sgoanalytics 。开源的数据统计countly做的很好，但是基础免费版的功能实在不够看，因此我就决定用go语言来写了这个项目，一来可以在实践中
麦子学院python培训怎么样
可以从以下几个方面考虑：1、有职场课，全面学习更有竞争力2、课程体系实时更新，实用科学，可以满足工作基本需求3、讲师经验丰富，认真负责，有项目经理全程辅导，有人监督学习进程4、毕业生作品非常吸引你5、教学基础设施完善最后建议实地考察，参
java课程分享自动化测试常用工具有哪些
自动化测试的问题我们已经探讨了很多次了，所以今天我们就给大家简单分享了在自动化测试过程中常用的一些测试工具和方法，下面java课程http:www.kmbdqn.com就一起来了解一下吧。希望通过对本文的阅读，能够提高大家对自动化测试
555上ruby什么意思
你问的应该是ruby什么意思？是传说宝石。ruby的意思：n，红宝石，深红色，adj，红宝石的。传说红宝石是上帝在创造万物时所创造的十二种宝石中最为贵重的，按上帝的旨意这一宝石中的贵族被置于亚伦的颈上。ABIGALE 原为古希伯来名，意思是
如何用C语言编写一个简单的程序！
上了大学有很多同学都在学习C语言，C++就是C语言的一种，那么怎么用c语言写一个简单的程序hello world呢，下边来给大家演示一下工具材料电脑，c语言软件 01鼠标左键双击c语言软件，打开，打开后界面如图，点击关闭
java的工作职责是什么？
Java开发程序员工作职责1、完成软件系统代码的实现，编写代码注释和开发文档2、辅助进行系统的功能定义,程序设计3、根据设计文档或需求说明完成代码编写，调试，测试和维护4、分析并解决软件开发过程中的问题5、协助测试工程师制定测试计划，定位发
C语言汉诺塔程序
将以下内容全部复制到新建的源文件中：（本人自己写的，因为你那课本上的代码，没解释，书写不规范，很难理解清楚，所以我直接新写了一个完整的代码，附带详细说明）#include &ltstdio.h&gt汉诺塔x层塔从A塔整体
Rails内存优化
我们知道Rails应用的内存占用通常都是比较高的，尤其是比较重型的全栈应用内存使用更接近1G（当然同时也包括想sidekiq这样加载整个Rails应用的ruby进程），所以我们通常对应这种情况都采取一种比较tricky的方式，使用像 pu
诱敌深入反义词
诱敌深入的意思【诱敌深入的拼音】: yòu dí shēn rù【诱敌深入的近义词】: 严阵以待【诱敌深入的反义词】: 依然如故乘胜追击【诱敌深入的意思】: 诱：引诱。引诱敌人深深地进入我方利于围歼的地区。【诱敌深入的意思】：诱:引诱。指
java中金字塔编程
import java.util.Scannerpublic class T { public static void main(String[] args) { System.out.println("请输入一个大写字母
java培训靠谱吗？
java培训靠谱。【点击测试我适不适合学设计】Java是目前世界上最流行的计算机编程语言，是一种可以编写跨平台应用软件的面向对象的程序设计语言。这可以概括JAVA有着自己独特的优势：语言简单、是一个面向对象、分布式应用并且安全、体系结构
R语言如何对图进行更改
&gtopar&lt-par(no.readonly=T)#生成修改当前参数设置的列表&gtpar(mfrow=c(2,1)) #两幅图排成2行1列&gtplot(mpg,type="b&q
【R语言】--- ggplot2绘制折线图
折线图一般用于描述一维变量随着某一连续变量(通常为时间)变化的情况。即折线图最适合描述时间序列数据的变化情况。也可随着有序离散变量变化。本文介绍ggplot2包的geom_line()函数绘制折线图。绘制方法是首先调用ggplot()函数选
C语言中16进制的表示方法？
16进制以0x开头，后面跟数字0~9或字母A~F（小写也可以），如：0x2D（16进制数2D）1、十六进制（英文名称：Hexadecimal），是计算机中数据的一种表示方法。同我们日常生活中的表示法不一样。它由0-9，A-F组成，字母不区分
python函数传对象对性能的影响
python函数传对象对性能有影响。在Python中，一切皆对象，Python参数传递采用的都是“传对象引用”的方式。实际上，这种方式相当于传值和传引用的一种综合。如果函数收到的是一个可变对象（比如字典或者列表）的引用，就能修改对象的原始值
如何提高 Ruby On Rails 的性能
在不应该将 Ruby and Rails 作为首选的地方使用 Ruby and Rails。（用 Ruby and Rails 做了不擅长做的工作）过度的消耗内存导致需要利用大量的时间进行垃圾回收。Rails 是个令人愉快的框架，而且 Ru
Go语言文件操作
本文主要介绍了Go语言中文件读写的相关操作。文件是什么？计算机中的文件是存储在外部介质（通常是磁盘）上的数据集合，文件分为文本文件和二进制文件。os.Open() 函数能够打开一个文件，返回一个 *File 和一个 er
Go CSP并发模型
Go的CSP并发模型 Go实现了两种并发形式。第一种是大家普遍认知的：多线程共享内存。其实就是Java或者C++等语言中的多线程开发。另外一种是Go语言特有的，也是Go语言推荐的：CSP（communicating sequen
C程序设计谭浩强版本的第四版和第三版有什么区别
一、指代不同1、C程序设计谭浩强版本的第四版：是2010年清华大学出版社出版的图书，作者是谭浩强。2、C程序设计谭浩强版本的第三版：被普遍认为是学习C语言的好教材，并被全国大多数高校选用。二、特点不同1、C程序设计谭浩强版本的第四版
谁有java从入门到精通第四版的pdf文件
在编程的世界里，Java一直是企业级别开发最喜欢选择的编程语言，从java目前的就业形势来看还是相当不错的，由于手机安卓开发的需要，许多人也开始转战Java的学习，极客营觉得虽然java开发人员的需求量变得越来越大，但这并不代表做java开
r语言lm函数可以做非线性回归吗
模型拟合对于人口模型可以采用Logistic增长函数形式，它考虑了初期的指数增长以及总资源的限制。其函数形式如下。首先载入car包以便读取数据，然后使用nls函数进行建模，其中theta1、theta2、theta3表示三个待估计参数，st
python执行sql返回结果有r
在shell脚本执行python脚本时，需要通过python脚本的返回值来判断后面程序要执行的命令例:有两个py程序 hello.py复制代码代码如下:def main(): print "Hello" if _
Python教程：For循环基本用法
Python中的for循环可以遍历一个数组，下面我就给大家分享一下在Python中for循环都有哪些基本用法。工具材料CMD命令行首先我们要打开CMD命令行，在CMD中输入python命令进入到python运行环境，如下图所
python的源码值得去读吗
python的源码值得去读！1.无论是有没有其他语言的经验，入门Python都很简单。Python拥有简单直观的语法，方便的语法糖，以及丰富的第三方库。只要一个基础的Python教程，大家基本上都能无障碍的入门。2.在入门之后，很多人对于进
关于Ruby
Ruby on Rails是一个用于编写网络应用程序的框架，它基于计算机软件语言Ruby，给程序开发人员提供强大的框架支持。Ruby on Rails包括两部分内容：Ruby语言和Rails框架。什么是Ruby?Ruby 语言是一种动态语言
golang 的Command启动的进程如何关闭
在用exec包调用的其他进程后如何关闭结束，可以使用context包的机制进行管理，context包的使用详见： https:godoc.orgcontext exec.CommandContext 方发实现了 context
JAVA代码编辑器，软件图标是IJ，这软件名字叫什么，编程从JAVA入门到精通好学吗？
这个是社区版的，免费开源（推荐）。还有专业版的，新人（其实我也是）不推荐专业版的，社区版的够用了。Java入门其实并不难，精通的话……那要看你说的精通是什么了。Java涉及领域很广，就算Java之父也不可能样样精通。但只要你能学下去，肯
R语言-数据类型及查看方式
R语言支持的数据类型数值型（numeric）复数型（complex）逻辑型（logical）字符型（character） R语言的数据对象类型包括：标量（Scalar）向量（Vector）
【R语言】解决GO富集分析绘图，标签重叠问题
前面我给大家详细介绍过☞GO简介及GO富集结果解读 ☞四种GO富集柱形图、气泡图解读 ☞GO富集分析四种风格展示结果—柱形图，气泡图 ☞KEGG富集分析—柱形图，气泡图，通路图 ☞DAVID G
c语言三种排序
常用的c语言排序算法主要有三种即冒泡法排序、选择法排序、插入法排序。一、冒泡排序冒泡排序：是从第一个数开始，依次往后比较，在满足判断条件下进行交换。代码实现（以降序排序为例）#include&ltstdio.h&gt

推荐阅读

热门文章

最新发布

标签列表

页面通过js加载怎么爬虫 ruby实现

给您推荐相同类型的内容：