如何用python抓取这个网页的内容？

2023-03-29 20:27:02Python013

如何用python抓取这个网页的内容？,第1张

Python实现常规的静态网页抓取时，往往是用urllib2来获取整个HTML页面，然后从HTML文件中逐字查找对应的关键字。如下所示：

复制代码代码如下:

import urllib2

url="网址"

up=urllib2.urlopen(url)#打开目标页面，存入变量up

cont=up.read()#从up中读入该HTML文件

key1='<a href="http'#设置关键字1

key2="target"#设置关键字2

pa=cont.find(key1)#找出关键字1的位置

pt=cont.find(key2,pa)#找出关键字2的位置(从字1后面开始查找)

urlx=cont[pa:pt]#得到关键字1与关键字2之间的内容(即想要的数据)

print urlx

抓取js动态生成的内容的页面有两种基本的解决方案

1用dryscrape库动态抓取页面

js脚本是通过浏览器来执行并返回信息的，所以，抓取js执行后的页面，一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎，python提供了许多库可以调用这个引擎，dryscrape便是其中之一，它调用webkit引擎来处理包含js等的网页！

2 selenium web测试框架

selenium是一个web测试框架，它允许调用本地的浏览器引擎发送网页请求，所以，它同样可以实现抓取页面的要求。

应该是没法抓取渲染后的页面。

因为渲染这个工作是浏览器完成的。而你通过python脚本抓取到的内容仅仅是html、css、js等源码。

对于一些需要js异步加载的内容获取，通常是先获取相关源码，然后参考js源码，利用python伪造一个请求（带上所需的参数）再向服务器获取一次内容。

动态内容的爬取，也是爬虫面临的一个比较大的难题。很多动态请求事实上并不是那么容易伪造的。

关键字页面内容浏览器是一个

# 上一篇：手机怎么投屏到电脑啊

# 下一篇：小米pro14锐龙版跑分

给您推荐相同类型的内容：

准备换U，是买i5 4590还是买4690
准备换U，是买i5 4590还是买4690效能没什么区别，哪个便宜买哪个，4690k的话就好很多了，可以超频都不对你如果新配肯定买i5 6500啊老电脑升级你得说下原来配置情况。预算和用途。Intel酷睿i5-4
如何数学考试得高分
数学考试得高分的方法如下：1、基础不牢，地动山摇。数学想考高分，基础是最重要的，这也是很多学生数学成绩一直不好的核心原因，牢记基本公式和基本定理，根据课本目录，能熟练回忆出课本上所有知识点，真正打牢基础，你才有学好数学的可能。2、从基
bios是什么意思啊
bios是基本输入输出系统。BIOS是基本输入输出系统，它的全称应该是ROM-BIOS，意思是只读存储器基本输入输出系统。其实，它是一组固化到计算机内主板上一个ROM芯片上的程序，它保存着计算机最重要的基本输入输出的程序、系统设置信息。简
小米pro14锐龙版跑分
在整体综合性能检测阶段，小米笔记本Pro5锐龙版PCMARK10综合得分为5814，PCMARK8检测得分为4231，整体表现非常出色，可以更好解决大部分日常办公软件。处理器的多关键得分为1750cb，单核心得分为211cb，综合性能优异。
电脑桌面册徐一文件时另一些文件不见了怎么办
很多情况下，我们一旦误删了某个文件或文件夹（这里指的是在磁盘上永久删除），通常都是借助于专用的工具软件来找回，其实，下面这个办法可能更简单：1、单击“开始”——“运行”，然后输入regedit（打开注册表）；2、在注册表编辑器中依次展开HK
R语言做聚类分析用统计量确定类的个数.有什么代码或者包吗
聚类分析有两种主要计算方法，分别是凝聚层次聚类（Agglomerative hierarchical method）和K均值聚类（K-Means）。层次聚类又称为系统聚类，首先要定义样本之间的距离关系，距离较近的归为一类，较远的则属于不同的
电脑下应用用哪个软件好?
好用的电脑软件商店推荐：1、Microsoft StoreMicrosoft Store是在Windows旗下商城。由Windows Store、Xbox Store整合更名而来。内容包括发现、体验、下载和购买来自微软及其合作商的最新产品b
微信支付,如何让电脑语音播报!
微信电脑版并不能设置语音播报，实际上店面中的语音播报是因为手机连接了音响，可以通过以下步骤在手机端设置语音播报：1、打开手机，找到“微信”：2、打开微信，找到“我”，选择“支付”：3、打开支付，选择“收付款”：4、打开收付款，点击打开“二
电脑怎么把应用窗口缩小
1. 怎么改变电脑打开应用窗口的大小任务栏右键-任务栏设置-下拉有个“合并任务栏按钮”-选择“始终合并按钮”2. 电脑桌面的应用图标怎么缩小第一种方法：点击一下桌面，按住ctrl键，然后滚动滑鼠中键，通过放大或者缩小桌面
用div+css实现两张图片的水平排列
&ltdiv style="margin:0 autowidth:200px"&gt&ltdiv style="float:leftwidth:100px"&gt这里放
屏保中的音乐怎样取消？
桌面上右键，属性，屏幕保护，设置，然后看看有没有这个选项，没有的话，不爽就删了这个屏保，电脑是你的，敢跟你作对，你就卸载它，哈哈。。哦，还有，如果不想删屏保，去找到那个声音文件，删了也可以。如果您想在锁屏时关闭音乐播放，可以尝试以下方法：1
foxmail 插入信纸会不会影响客户接受？
1)Foxmail的信纸功能，实际上就是实现的HTML邮件的功能，里面有背景图片、CSS样式、甚至JS调节等等，有一些信纸的确可能会被拦截，不过大部分的信纸功能不会被拦截，建议尽量用一些比较简洁的信纸。2）正如上面提到的，信纸实际上就是HT
电脑钉钉听课怎么调声音
电脑钉钉听课调声音方法：点击视频会议图标，点击开始会议，点击右下方设置，调节麦克风和扬声器。1、打开钉钉电脑版，进去群聊，点击视频会议图标。2、进去视频会议准备界面，点击开始会议。3、进去之后，点击右下方设置，进去视频会议设置界面，可调声
显卡驱动哪个版本稳定?
驱动人生显卡驱动哪个版本最稳定任何驱动还是随硬件搭配的驱动最为合适。如果没有配套驱动根据硬件型号下载相应的驱动。个人不建议使用驱动人生等第三方软件来更新驱动哪个版本的显卡驱动比较稳定 NVIDIA GeForce 376.33
怎么在网上购物?都需要什么?我要详细的步骤,谢谢
以在淘宝网网上购物为例，需要使用电脑中的浏览器，购买流程如下：1、首先以WIN7为例，打开电脑中的IE浏览器，如下图所示：2、然后在搜索淘宝网选择官方网站进入，如下图所示：3、然后在搜索框中输入想要购买的物品，如下图所示：4、然后选择想要
电脑怎么上锁
有时候我们离开电脑，但是又不想把电脑暴露在别人面前，免得隐私泄露。事实上，微软的.系统提供了一系列措施给我们为电脑上锁。下面是我整理的电脑怎么上锁，欢迎阅览。1、打开计算机2、点击上方的“打开控制面板”3、点击“用户账户和家庭安
电脑打字段落如何设置
段落设置1、打开需要编辑的word2010文档，找到菜单栏中的段落，如下图箭头部分2、打开段落编辑对话框中，设置你需要的段落格式选中要调整段落间距的段落。在所选区域任意位置右击鼠标。打开右键菜单后，点击“段落”选项。在“段落”窗
电脑桌面怎么平铺
问题一：win7怎样更改桌面图片为平铺?鼠标桌面右键个性化---最左下角有个桌面背饥点选打开后在左下角有个图片位置小角号点开里面有填充--适应--拉伸--平铺--居中问题二：如何使桌面平铺最大图在桌面右点一下
笔记本电脑每次开都是属性怎么办笔记本电脑每次开都是属性的处理方法
笔记本电脑每次开都是属性的处理方法如下:1、遇到这种情况，有可能是中毒，先从开始菜单打开“运行”程序。2、在打开的运行框中，在“打开”右侧编辑框位置，输入msconfig命令，确定。3、进入系统实用配置程序窗口后，当前显示的是“
华为交换机堆叠和集群配置
session 1 交换机的堆叠iStackiStack，全称Intelligent Stack，智能堆叠，适用于S2700、S3700、S5700和S6700中低端交换机。而高端交换机中叫做CSS，全称Cluster Switch
胶片机和单反的区别，能否上传电脑，哪里买的到
胶片机和单反的区别：1、胶片照相机使用胶片感光原理记录镜头的图像，胶片以数千万乃至亿像素记录图像；2、数码相机使用半导体传感器【CMOSCCD】记录镜头的图像，数码单反D800像素达到3600万；3、胶片机是否是很多年前使用的用胶片
崩坏三电脑版和手机版互通吗
可以互通的，不过要选对服务器，比如你号是安卓机为主的，那在PC端上要选“安卓国服”（这里说的都是官服的情况，以及如果是iOS也得选iOS国服）。《崩坏3》是由米哈游科技（上海）有限公司制作发行的一款角色扮演类国产手游，该作于2016年10
《Ruby程序员修炼之道第2版》pdf下载在线阅读全文，求百度网盘云资源
《Ruby程序员修炼之道第2版》百度网盘pdf最新全集下载:链接：https:pan.baidu.coms1k6hnORSDF2YmcCA6y1OiLA?pwd=tlco 提取码：tlco简介：这是一本深受好评的书。它不仅是一本纯
箭头怎么打 css
图片中的箭头用的都是背景图片。先找到保存这些图片下来，然后再写相应的CSS。css背景代码：background:url(bgimage.jpg) no-repeat -2px 0px 后面的-2px 0px可以去掉或者调整相应的
如何选取过去每个月股票的市值 python
类似，可以修改一下股票涨跌幅数据是量化投资学习的基本数据资料之一，下面以python代码编程为工具，获得所需要的历史数据。主要步骤有：（1） #按照市值从小到大的顺序活得N支股票的代码；（2） #分别对这一百只股票进行100支股票操作；（3
如何在wps中设置实时显示字数
在wps中设置实时显示字数的具体操作方法如下。1、在电脑上打开wps软件，在右侧应用栏中找到“选项”栏进入。2、在弹出的对话框中找到“状态栏”，将其勾选上，保存。3、设置完成后回到wps中就可以看到文本下方会有实时字数的显示了。1. 如何
电脑怎么添加信任文件？
电脑上用360安全卫士就可以添加信任文件；具体的操作方法如下：1.在360安全卫士菜单栏上找到信任区。2.选择添加信任目录。3.浏览文件找到360安全卫士文件夹。4.点击是。5.成功添加。6.选择添加信任文件。7.找到想要添加的信任文件。
怎样设置CSS背景图片路径
.a{background-image:url(图片路径)}图片路径可以是绝对路径、根相对路径和文档相对路径绝对路径是包括服务器协议的完全路径，比如“百度主页”，完全路径为：http:www.baidu.comindex.htm，如果
电脑上平方怎么打？
以在Word文档中打出平方为例，以下是具体的操作方法：1、打开文档，鼠标停在需要打平方符号的地方，输入数字“2”。2、选中数字2，此时数字2背景变成黑色。3、在“格式”菜单下找到“字体”选项。4、打开“字体”选项，在“字体”选项中找到“上
电脑除尘需要注意些什么？
1、显示器除尘电脑使用一段时间后，显示平面、显示器内部（散热孔多向上，很容易落入尘埃）以及主机箱内会积聚尘埃。显示平面上积聚尘埃，会影响图像的清晰度；显示器内积聚尘埃，再加潮湿，会引起高压部分放电，干扰图像甚至影响显示器的正常工作；主机箱内

推荐阅读

热门文章

最新发布

标签列表

如何用python抓取这个网页的内容？

给您推荐相同类型的内容：