python如何提取网页信息？

2023-02-17 19:51:02Python023

python如何提取网页信息？,第1张

page = urllib2.urlopen(url)

contents = page.read()

#获得了整个网页的内容也就是源代码

print(contents)

# coding=utf-8

import urllib

import re

# 百度贴吧网址:https://tieba.baidu.com/index.html

# 根据URL获取网页HTML内容

def getHtmlContent(url):

page = urllib.urlopen(url)

return page.read()

# 从HTML中解析出所有jpg的图片的URL

# 从HTML中jpg格式为<img ... src = "xxx.jpg" width='''>

def getJPGs(html):

# 解析jpg图片URL的正则表达式

jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"')

# 解析出jpg的URL列表

jpgs = re.findall(jpgReg, html)

return jpgs

# 用图片url下载图片并保存成制定文件名

def downloadJPG(imgUrl, fileName):

urllib.urlretrieve(imgUrl, fileName)

# 批量下载图片,默认保存到当前目录下

def batchDownloadJPGs(imgUrls, path='../'): # path='./'

# 给图片重命名

count = 1

for url in imgUrls:

downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)]))

print "下载图片第:", count, "张"

count += 1

# 封装:从百度贴吧网页下载图片

def download(url):

html = getHtmlContent(url)

jpgs = getJPGs(html)

batchDownloadJPGs(jpgs)

def main():

url = "http://www.meituba.com/dongman/"

download(url)

if __name__ == '__main__':

main()

下载图片网页图片贴吧内容

# 上一篇：记录：CSS3 模糊效果

# 下一篇：c语言大整数减法

给您推荐相同类型的内容：

C语言sin怎么用
C语言sin()用来计算参数x 的正玄值，然后将结果返回。返回-1 至1 之间的计算结果。例子：#include &ltmath.h&gtmain(){double answer = sin(0.5)printf(
java如何从数据库读取数据并写入txt文件？
写Java程序时经常碰到要读如txt或写入txt文件的情况，但是由于要定义好多变量，经常记不住，每次都要查，特此整理一下，简单易用，方便好懂！[java] view plain copypackage edu.thu.keyword.te
在java中怎样判断全角半角
JS判断全角半角：function chkHalf(str){for(var i=0i&ltstr.lengthi++){strCode=str.charCodeAt(i) if((strCode&gt6
dw中css样式中图片下面的横线怎么设置
css中使用textdecoration属性就可以直接设置划线效果。对字体样式文本加下横线款式，有二种方式，一直立即应用html下横线标识，此外一种是应用CSS下横线款式。这个属性允许对文本设置某种效果，如加下划线。。如果后代元素没有自己的
C语言信号量会不会溢出
会的。在C语言中，数据的存储就像一个圆圈，正数溢出数据就会从最小负数开始，负数溢出数据同理，打个比方(简略写一下)：inta=32768,b=-32769；printf("a=%d,b=%d",&ampa,&am
pycharm python文件:进程已结束，退出代码为1，怎么处理？
这个问题是因为python解释器环境遇到一些不能处理异常而结束了，由于你的Pycharm工具底层其实也是考python.exe进程来解释Python程序的，当python.exe出现异常后，你的程序就不能执行了。只要重启Pycharm工具，
如何用html做复选框全选中和全不选中
1.这个要使用js来判断是否选中,需要引用jquery&ltscript type="textjavascript" src="jsjquery-1.8.3.min.js" &g
python 怎么读
python，英[ˈpaɪθən]，美[ˈpaɪθɑːn]，英['paɪθən]：发音有点像“派森” 或 “派粉”，注意中间那个 θ 音，除英语外，世界上没几个语言有这个音。θ 这个就是咬住舌头吐气的发音。美[ˈpaɪˌθɑn,
js里输出换行怎么弄?
在要换行的地方输入n就可以了，你的斜杠写反了。写法如下：效果如下图：知识拓展：JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛
rabbit是什么动物？
Rabbit is the general name of all genera of mammalian rabbit family. Commonly known as rabbit.兔是哺乳类兔形目兔科下属所有的属的总称，俗称兔子。
如何css制作3d旋转立方体效果？
具体步骤如下：一、立方体结构中，使用一个wrapper div来包裹立方体。在里面使用6个div来制作立方体的6个面。二、立方体的每一个面都有它自己的元素。我们稍后会使用CSS来将立方体的6个面放置到正确的位置上。三、在立方体的CSS
python是什么？
01Python是一种面向对象的解释型计算机程序设计语言，具有丰富和强大的库。它常被昵称为胶水语言，能够把用其他语言制作的各种模块（尤其是CC++）很轻松地联结在一起。 Python是一种面向对象的解释型计算机程序设计语言，由
c语言中什么是单精度型和双精度型？？？各举个例子。。。
单精度型和双精度型的区别在于它们的精确程度不一样，也就是小数部分的有效位数不一样。单精度数（float型）在32位计算机中存储占用4字节，也就是32位，有效位数为7位，小数点后6位；双精度数（double型）在32位计算机中存储占用8字节
CSS3动画和js动画各有什么优劣
CSS3的动画的优点：1.在性能上会稍微好一些，浏览器会对CSS3的动画做一些优化（比如专门新建一个图层用来跑动画）2.代码相对简单但其缺点也很明显：1.在动画控制上不够灵活2.兼容性不好3.部分动画功能无法实现（如滚动动画，视差滚动等）J
如何把JS文件添加到HTML里？JS代码如图：
1、J首先输入s_file01.js，程序代码 document.write(" &ltscript language="javascript" src="com Js_fil
python内存管理机制
由于python中万物皆对象，所以python的存储问题是对象的存储问题。实际上，对于每个对象，python会分配一块内存空间去存储它。那么python是如何进行内存分配，如何进行内存管理，又是如何释放内存的呢？总结起来有一下几
css中元素auto属性值是什么？
css中的auto是自动适应的意思，而在css中auto往往都是默认值。x0dx0ax0dx0a正如margin:0 auto，意思就是上下边距为0，左右边距为auto，就是自动适应。x0dx0a但是，如果要使用他的话，就必须给
c语言大整数减法
郁闷，我用纸写了一下，写了3面纸，现在时间不够了，我不能把代码抄上来了。唉……够悲剧。方法可以告诉你：分别定义2个字符串数数和2个整数数，然后把字符串数组转换成整数数组，这样的转换并不麻烦，你可以声明一个中间字符串变量(这个字符串长度为1，
js时间戳怎么比较
在js中，可以对两个时间戳进行相减，使用if语句判断结果，从而实现时间戳的比较。具体步骤如下：1、在test.html文件内,命名为test.html，用于讲解js时间戳怎么比较。2、在test.html文件内,在js标签内创建一个pan
怎样编写CSS
所以，编写CSS的方法和编写HTML文档的方法是一样的。您可以用任何一种文本编辑工具来编写。比如Windows下的记事本和写字板、专门的HTML文本编辑工具（FrontPage、Ultraedit等），都可以用来编辑CSS文档。那么您可
R语言_一个矩阵除以向量会发生什么
在用 featureCounts 做完表达矩阵的counts值后进行TPM需要注意这个细节问题，在计算TPM时每个基因需要除以各自的基因长度来校正基因长度，每一个样本又要除以它各自的文库大小校正测序深度。因此，我们的表达矩阵，其实是
R语言将层次聚类中的树分成簇
R语言将层次聚类中的树分成簇说明在聚类树图中可以观测到聚类的层次，但是仍然得不到组的信息，不过我们可以定义一个聚类树图会拥有多少个簇，并控制树的高度以便将树分成不同的组。操作接上节的数据hc将数据分成四组fit = cutree(hc,4)
有适合小学生看的电脑代码编程的书籍吗？
导读：编程是当前需求比较旺盛的职业道路，因此，很多家长都希望自己的孩子长大后成为软件程序员，或者起码拥有一些编程思维。如果您想让孩子学习编程从哪里开始呢？在此儿童节之际向各位推荐7款适合儿童的编程语言。计算机编程是一种需求旺盛的职业道路，因
c语言实验4 逻辑结构程序设计航空公司对旅客托运行李
#include &ltstdio.h&gtint main(){int a,b,cprintf("请输入旅客托运行李的重量、经济舱全额票价：")scanf("%d%d",&a
干货 - 一文搞定Python 枚举
enum是一组绑定到唯一常数值的符号名称，并且具备可迭代性和可比较性的特性。我们可以使用enum创建具有良好定义的标识符，而不是直接使用魔法字符串或整数，也便于开发工程师的代码维护。我们可以使用class语法创建一个枚举类型，方便
用C语言编程欧拉法、梯形法、二级二阶R-K、三级三阶R-K、四级四阶R-K求解下列方程的数值解
欧拉法求解y'=-2y-4x, x0=0, y0=2, x&lt=1的求解如下：#include&ltstdio.h&gt*solve ode: dydx = -2*y -4*x*float f
c语言定义函数是什么?
将代码段封装成函数的过程叫做函数定义。函数可以重复使用的代码，用来独立地完成某个功能，它可以接收用户传递的数据，也可以不接收。接收用户数据的函数在定义时要指明参数，不接收用户数据的不需要指明，根据这一点可以将函数分为有参函数和无参函数。相
怎样导入Java源程序？
1，直接拷贝覆盖，不管是完整的带项目配置文件的java源程序，还是不完整的或缺少配置文件的都可以。x0dx0a具体步骤:x0dx0a先在Eclipse中新建空的工程并且命好名，然后把旧工程的目录里所有代码文件目录，直接拷贝覆到新建空
css中如何调整插入背景图片的大小
CSS2.1 之前是不能设置背景图大小的，CSS3就可以通过background-size来设定图片大小，可以是像素或者是百分比。例如background-size:100px 200px表示把背景图片大小调整为100x200px。要把图
R语言目录及文件操作
用 file_test() 可以判断是一个目录还是文件：创建目录使用 dir.create()当创建多级目录时，令recursive = TRUE即可。创建空文件使用 file.create()有两个函数可以使用

推荐阅读

热门文章

最新发布

标签列表

python如何提取网页信息？

给您推荐相同类型的内容：