如何用Python抓取动态页面信息

2023-02-24 22:21:02Python021

如何用Python抓取动态页面信息,第1张

Spynner的简单使用

Spynner的功能十分强大，但是由于本人能力有限，就介绍一下如何显示网页的源码吧。

#! /usr/bin/python

#-*-coding: utf-8 -*-

import spynner

browser = spynner.Browser()

#创建一个浏览器对象

browser.hide()

#打开浏览器，并隐藏。

browser.load("http://www.baidu.com")

#browser 类中有一个类方法load，可以用webkit加载你想加载的页面信息。

#load(是你想要加载的网址的字符串形式)

print browser.html.encode("utf-8")

#browser 类中有一个成员是html，是页面进过处理后的源码的字符串.

#将其转码为UTF-8编码

open("Test.html", 'w+').write(browser.html.encode("utf-8"))

#你也可以将它写到文件中，用浏览器打开。

browser.close()

#关闭该浏览器

通过这个程序，就可以比较容易的显示webkit处理的页面HTML源码了。

AJAX（Asynchronouse JavaScript And XML：异步JavaScript和XML）通过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新，这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行局部更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。

因为传统的网页在传输数据格式方面，使用的是 XML 语法，因此叫做 AJAX ，其实现在数据交互基本上都是使用 JSON 。使用AJAX加载的数据，即使使用了JS将数据渲染到了浏览器中，在右键->查看网页源代码还是不能看到通过ajax加载的数据，只能看到使用这个url加载的html代码。

法1：直接分析ajax调用的接口。然后通过代码请求这个接口。

法2：使用Selenium+chromedriver模拟浏览器行为获取数据。

Selenium 相当于是一个机器人。可以模拟人类在浏览器上的一些行为，自动处理浏览器上的一些行为，比如点击，填充数据，删除cookie等。 chromedriver 是一个驱动 Chrome 浏览器的驱动程序，使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver：

现在以一个简单的获取百度首页的例子来讲下 Selenium 和 chromedriver 如何快速入门：

参考：Selenium的使用

直接直接分析ajax调用的接口爬取

selenium结合lxml爬取

浏览器网页加载数据页面

# 上一篇：计算机c语言基础知识

# 下一篇：新手学JAVA都要学哪些知识啊

给您推荐相同类型的内容：

怎么自学c语言，需要怎么学习？
学习中的困难莫过于一节一节的台阶，虽然台阶很陡，但只要一步一个脚印地踏，攀登一层一层的台阶，才能实现学习的最高理想。C语言学不会怎么办？我大一的时候也需要学C语言，C语言自学方法有很多，下面是我的建议。1.首先应该记住基础知识点，如数组
如何把R语言中的中文数据导入到mysql
一些常用的数据，处理好，放在mySQL里，以后使用起来也方便。可以用R直接进行分析，具体步骤如下：1、R下载RODBC包，安装好。下载mySQL ODBC，安装好。3、windows：控制面板-&gt管理工具-&gt数据源（
r语言表示或者用什么符号？
R是一款统计计算编程语言，你可以在通用公共许可（GPL）规则下从互联网获取它。也就是说，你可以免费获取它、发布它，甚至拿它来卖钱，只要获取者与你有相同的权利，并且可以免费获得源代码。R可以在微软公司的Windows XP以及之后的版本中使用
C语言怎么调试程序
一、在keil中调试c语言程序1、打开我们的程序，点击菜单栏右侧的startstopdebug..按钮，进入调试模式，如下图。2、左侧为寄存器窗口，右上方是汇编窗口，我们可以看到各个寄存器的数值和c语言对应的汇编代码，如下图。3、点击单步
怎样往多普达HD上装Java平台
本机带有JAVA平台的。如果你不喜欢用本机的，可以到bbs.uc.cn去下载一个JAVA模拟器，非常好用，可以玩很多的游戏。那个论坛里面有很多的游戏，估计有1000多个免费游戏。解决方法如下；1手机硬起动下，（格机）原因可能是你手机JAVA
go语言 c++哪个前景好
C++适合本地程序的开发．Go语言适合网络程序和本地程序的开发．相对于C++Go的优点：垃圾回收语意明确格式统一缺点：效率目前没有C++高，但对于桌面程序而言，效率问题不大，因为硬件已经很快了．C++是目前的主流语言，相信会和C一样成为经典
RuBy什么意思?
最优质的红宝石被称为「鸽血红」，大多产自「缅甸」，其颜色正如鸽子的血一般鲜红清透，其他产地(如非洲、泰国…)也曾挖掘出如此优质顶级的红宝石。传说红宝石是上帝在创造万物时所创造的十二种宝石中最为贵重的。按上帝的旨意这一‘宝石中的贵族‘被置于
C语言汉字机内码特点是什么？汉字输入输出的原理？
1、汉字编码方式很多，有国标码（GB2312_1980)，大五码，GBK,简体18030，区位码，电报码，还有它们的变形：unicode 大端小端码,UTF-8，UTF-*,HZ 等等。内码特点：二进制双字节，每字节用到8bits.输入原
ruby是什么意思
ruby的汉语意思如下：n.红宝石深红色。adj.红宝石的红宝石色的。ruby的读音是：英 [ˈruːbi] 美 [ˈruːbi] 。ruby的造句如下：1、RDT is a far more full-featured Ru
求助，如何在R中实现隔列相加
=SUMPRODUCT((MOD(COLUMN(A1:Y1),2)=1)*(A1:Y1))把=1改成=0就是偶数列相加了，要想隔两列加就改成这样=SUMPRODUCT((MOD(COLUMN(A1:Y1),3)=1)*(A1:Y1))把3*
Python 值传递，引用传递
常见的参数传递有 2 种：值传递和引用传递。所谓值传递，通常就是拷贝参数的值，然后传递给函数里的新变量。这样，原变量和新变量之间互相独立，互不影响。所谓引用传递，通常是指把参数的引用传给新的变量，这样，原变量和新变量就会指向同一块内存
c语言猴子吃桃子问题怎么做?
1、打开visual C++ 6.0-文件-新建-文件-C++ Source File2、题目：猴子吃桃：猴子第1天摘下若干个桃子，当即吃掉一半多1个桃子，第2天早上又将剩下的桃子吃掉一半多1个，以后每天都吃掉前天一半多1个，到第10天早上
golang hashmap的使用及实现
由于go语言是一个强类型的语言，因此hashmap也是有类型的，具体体现在key和value都必须指定类型，比如声明一个key为string，value也是string的map，需要这样做大部分类型都能做key，某些类型是不能
怎么用JAVA画半个圆或者是半圆弧？
画圆一般通过继承JPanel 或者JFrame ，通过调用panel或者frame中的Graphics实例完成画图。java绘图的基本原理:画一个圆import javax.swing.*import java.awt.*public
如何在windows下安装GIT
本文在Windows7下测试成功。安装和设置Git下载Git for Windows，采用默认安装，安装完成后就可以在本地使用Git了。但要将内容放到Github上，必须先在Github网站上注册个账户，然后在本机使用Git创建SSH Ke
新手学JAVA都要学哪些知识啊
这样的问题，我已经回答了很多次，现在很多新手，特别是刚刚进入学生的学生，不知道该从哪里入手，我整理了一些java的知识点，一共分为一个阶段，273个技能点，第一阶段、第二阶段、第三阶段、第四阶段是必须要掌握的，第五阶段和第六阶段就是高薪、高
R语言实战-基本图形
条形图使用的函数为'barplot(x)',其中x为向量以关节炎研究包vcd为演示对象治疗类型和改善情况的列联表条形图并不一定要基于计数数据或频率数据。你可以使用数据整合函数将结果传递给barplot(
go语言版本的Gossip协议包（memberlist）的使用
由于工作的契机，最近学习了下Gossip，以及go语言的实现版本HashiCorpmemberlist。网上有个最基本的memberlist使用的example，在下边的链接中，感兴趣可以按照文档运行下感受感受。本文主要讲解memberl
c语言面试经常问到的问题有哪些?
c语言面试经常问到的问题有：1、C语言的主要特征是什么？C是一种过程语言。C语言的主要功能包括对内存的低级访问，简单的关键字集和简洁的样式。这些功能使其适用于诸如操作系统或编译器开发之类的系统编程。2、i ++和＋＋i有什么区别？1）
r语言如何同时求几列数据的均值和方差
如下：数据集a有变量：x1，x2，x3等等求各变量的均值方差，代码如下：mean(a$x1) var(a$x1)。mean(a$x2) var(a$x2)。mean(a$x3) var(a$x3)。……如果有无效值，需要在括号
java中如何实现Windows观感
public class TestJni { public native void GetTickCount()static {System.loadLibrary("Kernel32.dll")}public stat
如何在Python中保留小数？
f = lambda x, n: round(x, n - len(str(int(x))))定义了一个方法f，用来实现你所说的功能。输入：f(123.456789, 8)输出：123.45678输入：f(1.23456789
如何用R语言做地理加权回归，江湖救
中文名称地理加权回归英文名称geographic weighted regression定义用回归原理研究具有空间(或区域)分布特征的两个或多个变量之间数量关系的方法，在数据处理时考虑局部特征作为权重。应用学科地理学（一级学科），数量地理学
Golang 游戏leaf系列(六) Go模块
在 Golang 游戏leaf系列(一) 概述与示例 (下文简称系列一)中，提到过Go模块用于创建能够被 Leaf 管理的 goroutine。Go模块是对golang中go提供一些额外功能。Go提供回调功能，LinearContext提供
pythonredis生成唯一id原理
pythonredis生成唯一id原理答:1. 安装toollib 执行命令:pip install toollib2. 调用方法 from toollib.guid import RedisUid from toollib.redis_c
R语言对数学建模有没有帮助
R语言对数学建模有帮助。特别是R专统计方面。数学建模就是通过计算得到的结果来解释实际问题，并接受实际的检验，来建立数学模型的全过程。当需要从定量的角度分析和研究一个实际问题时，人们就要在深入调查研究、了解对象信息、作出简化假设、分析内在规律
mac646为什么叫麻辣鸡丝
mac646叫麻辣鸡丝是因为英文音译非常像麻辣鸡丝。它的英文名叫MARRAKESH，这款口红适合白皮、黄皮和肤色暗沉的人，可以根据肤色选择薄涂或者厚涂，薄涂的颜色是橘色，厚涂颜色是橘棕色。经典色号：首先小辣椒，MAC小辣椒真的是MAC家最
怎样用r语言中做岭回归的程序包
（1）plot(lm.ridge(GDP~Consume+Investment+IO+Population+Jobless+Goods,data=dat,lambda=seq(0,0.3,0.001))) # 和线性回归类似，这个plot可
go语言string之Buffer与Builder
操作字符串离不开字符串的拼接，但是Go中string是只读类型，大量字符串的拼接会造成性能问题。拼接字符串，无外乎四种方式，采用“+”，“fmt.Sprintf()”,"bytes.Buffer","st
谁知道光明之魂2GBA金手指
中文版*金手指* VBA用代码 &lt调金钱&gt地址:0x030005ec 数值:65535(16位) &lt调P数&gt地址:0x0300047e 数值:不明(16位)(注:使用此金手指会当机，请小心使用

推荐阅读

热门文章

最新发布

标签列表

如何用Python抓取动态页面信息

给您推荐相同类型的内容：