python怎么获取动态网页链接？

2023-02-27 01:00:01Python07

python怎么获取动态网页链接？,第1张

四中方法：

'''

得到当前页面所有连接

'''

import requests

import re

from bs4 import BeautifulSoup

from lxml import etree

from selenium import webdriver

url = 'http://www.ok226.com'

r = requests.get(url)

r.encoding = 'gb2312'

# 利用 re

matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text)

for link in matchs:

print(link)

print()

# 利用 BeautifulSoup4 （DOM树）

soup = BeautifulSoup(r.text,'lxml')

for a in soup.find_all('a'):

link = a['href']

print(link)

print()

# 利用 lxml.etree （XPath）

tree = etree.HTML(r.text)

for link in tree.xpath("//@href"):

print(link)

print()

# 利用selenium（要开浏览器！）

driver = webdriver.Firefox()

driver.get(url)

for link in driver.find_elements_by_tag_name("a"):

print(link.get_attribute("href"))

driver.close()

爬虫流程

其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤

模拟请求网页。模拟浏览器，打开目标网站。

获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。

保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。

Requests 使用

Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。

模拟发送 HTTP 请求

发送 GET 请求

当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求

import requests

res = requests.get('http://www.douban.com')

print(res)

print(type(res))

>>>

爬虫数据浏览器网站自己的

# 上一篇：如何用java编写一个简单的文本编辑器？

# 下一篇：Ruby Rose 剪发视频的背景音乐是什么

给您推荐相同类型的内容：

请问在C语言里怎么获取当前时间和日期（精确到毫秒）？
先申明下，这个是我转百度知道的，经常BAIDU一下，就OK了#include &ltstdio.h&gt#include &lttime.h&gtvoid main () { time_t rawtimest
女大学生看病时遭到男校医猥亵，学校对此事会如何处理？
武汉的一个女大学生去看病的时候，遭受到了男校医猥亵，而学校就这件事情，却没有做出该有的姿态，也没有对女生进行安慰。不过好在女生进行报警之后，这个校医也受到了法律的处罚，被判处了一年的有期徒刑。一、女大学生被猥亵孩子都是父母最关心的人，所有的
可变MD5加密(Java实现)
可变在这里含义很简单就是最终的加密结果是可变的而非必需按标准MD 加密实现 Java类库security中的MessageDigest类就提供了MD 加密的支持实现起来非常方便为了实现更多效果我们可以如下设计MD 工具类 J
python中修饰器是什么？
就是一个callable object。它使python编程更加容易。例如： @dec def A(args):pass它就等价于dec(A). 当然还有带参数的decorator。我就不举例了。python文档里有这样一句话
R语言怎么提取向量中的偶数
#includeintmain(){inti,a[10],x,yx=y=0for(i=0i1、求给r语言计算向量各值与一常数差值的平方和定向量中偶数的个数。2、用repeat、while和for计算从1~100的所有整数的平方和。3、把一个
r语言中post hoc怎么检验
在vim的配置文件vimrc中添加相关语句，通过 vundle进行YCM安装，（整个包比较大，时间会比较长）。将上面的 vim-ycm-windows-x86 文件里的内容替换为刚才所安装的YouCompleteme文件里面的全部内容。书写
为什么要使用 Go 语言？Go 语言的优势在哪里
1、学习曲线它包含了类C语法、GC内置和工程工具。这一点非常重要，因为Go语言容易学习，所以一个普通的大学生花一个星期就能写出来可以上手的、高性能的应用。在国内大家都追求快，这也是为什么国内Go流行的原因之一。2、效率Go拥有接近C的运行效
R语言能不能自动生成完整的word文档，包含标题
1.菜单“视图”-&gt“大纲” 切换到大纲模式；2.在大纲工具栏设置的标题级数，如一级标题、二级标题…… 3.光标定位于要插入目录的位置，菜单“插入”-&gt“引用”-&gt“索引和目录”弹出对话框；4.选择“
用Ruby可以写游戏不？有没有已经用Ruby写的游戏，我能参考一下，求网址。
我的第一次回答似乎没出现。Ruby可以写游戏。基本上Ruby可以调用Windows API和DirectX API或者使用.net，在开发能力和开发速度上拥有优势。著名的RPG制作大师(RPG Maker VX)就是使用Ruby作为核心的(
java list和数组的区别
List和ArrayList的区别在于：1、在编程语言中ArrayList类是.Net Framework提供的用于数据存储和检索的专用类。List 类可以简单视之为双向连结串行，以线性列的方式管理物件集合。List类是ArrayList
C语言乘号用法
C语言中*是二元运算符：乘号，用于将两个表达式的值相乘；也是一元运算符：取值，用在指针表达式的左边，取指针指向的存储位置的值。使用示例：#include &ltstdio.h&gtint main(){int a
Python 怎样模拟qq空间登陆
用urllib2例如：url = 'http:i.qq.com'data = {'name': 'username','password': '
php如何调用R语言
调用string exec ( string $command [, array &amp$output [, int &amp$return_var ]] )函数执行命令D:xampphtdocsprogramCR
vs怎么创建c语言项目
vs创建c语言项目步骤：工具：电脑、VS软件。1、第一首先在电脑打开vs软件。再点击左上角的文件。2、第二然后选择新建。再点击项目。3、第三然后选择控制台应用程序。再设置项目名字和保存路径。4、第四然后右键点击源文件。选择新建项目。5、
c语言cmd窗口在哪
ㄑm.wangchao.net.cn推荐cmd窗口是什么,怎么打开举报纠错分类: 电脑网络 &gt&gt操作系统系统故障参考答案:cmd是command的缩写.命令行在9x系统下输入command就可以打开命令行.而在
Ruby Rose 剪发视频的背景音乐是什么
Ruby Rose剪发视频《Break Free - Ruby Rose》中的背景音乐是Butterfly Boucher演唱的《It Pulls Me Under》。歌名：It Pulls Me Under演唱：Butterfly Bou
java web怎么调用dll
java调用dll要用到jni（java本地接口）例如程序TestDll.java，内容为：public class TestDll{ static { System.loadLibrary("xxx.dll")
为什么go语言适合开发网游服务器端
个人觉得golang十分适合进行网游服务器端开发，写下这篇文章总结一下。从网游的角度看：要成功的运营一款网游，很大程度上依赖于玩家自发形成的社区。只有玩家自发形成一个稳定的生态系统，游戏才能持续下去，避免鬼城的出现。而这就需要多次大量导入用
c语言经典100题，要过程
您好，c语言经典100题:【程序1】题目:有1,2,3,4个数字,能组成多少个互不相同且无重复数字的三位数都是多少1.程序分析:可填在百位,十位,个位的数字都是1,2,3,4.组成所有的排列后再去掉不满足条件的排列.2.程序源代码:main
r语言分维度求均值
data就是你的这个表日期格式为：YYYYmmddlibrary(plyr)result &lt- ddply(data,.(month = substr(date,5,6)),summarize,ma = mean(a),mb
用R语言进行关联分析
用R语言进行关联分析关联是两个或多个变量取值之间存在的一类重要的可被发现的某种规律性。关联分析目的是寻找给定数据记录集中数据项之间隐藏的关联关系，描述数据之间的密切度。几个基本概念1.项集这是一个集合的概念，在一篮子商品中的一件消费品即
python3离线安装第三方模块及其依赖包
以管理员权限启动cmd命令窗口，执行pip命令安装所需要的模块。例如：以管理员权限启动cmd命令窗口，执行以下命令打包pip第三方安装包及安装索引。将 packages 文件夹和 requirements.txt 文件拷贝至离线
C语言阶乘怎么算
概率论，一个C上下个一个数字的算法：Cmn=m![n!*(m-n)!] m在下，n在上n！代表n的阶乘=1*2*3*……*n。拓展资料：一、概率的严格定义：E是随机试验，S是它的样本空间。对于E的每一事件A赋于一个实数，记为P
python中怎么根据进程号获取进程名
安装第三方库pip install psutil使用如下,假设进程号为3213import psutilproc = psutil.Process(pid=3213)print proce.name() 基于官方文档：https:
批处理怎么调用python脚本
system("python xxx.py arg1 arg2")或者$output=`python xxx.py arg1 arg2`试试就可以了，肯定是可以的。媳妇有无数word文档要替换，百度后发现没有现成的方法
Mac OS 10.7.5用RVM安装ruby失败？是gcc的问题吗
可能你没有 C 有关基础, Ruby(MRI) 是用 C 实现的, 能用的编译器如我上面说的有 gcc 和 clang, 而llvm-gcc 不行.编译第一步是 .configure, 检测环境并产生 makefile, 这时就决定好
吴宗宪的节目《宪在不准笑》里面的Ruby是谁啊？这期节目是两个老人念的《赶羚羊之歌》，请帮忙解答一下。
卢春如（Lu Ruby），台湾歌手。出生于台湾，9岁时就离开了台湾移民到加拿大，1998年年初从加拿大回台湾定居。毕业于加拿大一所科技学院的大众传播系的她对唱歌有极大的兴趣，后成为歌手。中文名：卢春如外文名： Lu Ruby国籍：加拿大
windows embedded standard 装不了python
应该是你没有正确的安装，正常情况下是可以安装的，具体步骤如下：1.访问http:www.python.orgdownload，选择Windows平台下的安装包。2.点击Python 3.6.0进行下载，下载后的文件名为“python
在c语言中怎样使用rand随机函数随机产生一个字母？
rand（）生成的结果是一个整数，如果想得到字符（字母），则需要控制得到的数据在'a' - 'z'的ascii值之间的数据，给你一个生成大写字母的int getRandChar(){int chsra
关于在go语言中导入当前文件夹的步骤
1.先把要导入的包go build - go install 2.接着在要导入的方法中以：项目名导入的文件名的形式导入即可（如下方test（项目名）chiid（文件名））假设的GOPATH指向C:gohome

推荐阅读

热门文章

最新发布

标签列表

python怎么获取动态网页链接？

给您推荐相同类型的内容：