谁用过python中的re来抓取网页，能否给个例子，谢谢

2023-02-26 23:36:02Python013

谁用过python中的re来抓取网页，能否给个例子，谢谢,第1张

这是我写的一个非常简单的抓取页面的脚本，作用为获得指定URL的所有链接地址并获取所有链接的标题。

===========geturls.py================

#coding:utf-8

import urllib

import urlparse

import re

import socket

import threading

#定义链接正则

urlre = re.compile(r"href=[\"']?([^ >\"']+)")

titlere = re.compile(r"<title>(.*?)</title>",re.I)

#设置超时时间为10秒

timeout = 10

socket.setdefaulttimeout(timeout)

#定义最高线程数

max = 10

#定义当前线程数

current = 0

def gettitle(url):

global current

try:

content = urllib.urlopen(url).read()

except:

current -= 1

return

if titlere.search(content):

title = titlere.search(content).group(1)

try:

title = title.decode('gbk').encode('utf-8')

except:

title = title

else:

title = "无标题"

print "%s: %s" % (url,title)

current -= 1

return

def geturls(url):

global current,max

ts = []

content = urllib.urlopen(url)

#使用set去重

result = set()

for eachline in content:

if urlre.findall(eachline):

temp = urlre.findall(eachline)

for x in temp:

#如果为站内链接，前面加上url

if not x.startswith("http:"):

x = urlparse.urljoin(url,x)

#不记录js和css文件

if not x.endswith(".js") and not x.endswith(".css"):

result.add(x)

threads = []

for url in result:

t = threading.Thread(target=gettitle,args=(url,))

threads.append(t)

i = 0

while i <len(threads):

if current <max:

threads[i].start()

i += 1

current += 1

else:

pass

geturls("http://www.baidu.com")

使用正则表达式（re）只能做到一些比较简单或者机械的功能，如果需要更强大的网页分析功能，请尝试一下beautiful soup或者pyquery,希望能帮到你

findall里面的正则是匹配一个网址的后缀 dispbbs.asp?boardID=509&ID={数字}&page={page的值} ，如果你是一个静态页面http://www.cc98.org/abcd，直接输出静态页面的正则abcd就可以了。

链接正则定义页面线程

# 上一篇：golang 有哪些比较稳定的 web 开发框架

# 下一篇：RUBY元编程怎么样

给您推荐相同类型的内容：

如何用python 做一个从上到下，1 3 5 3 1的菱形，左边的空格为 2 1 0 1 2
按照你的要求编写的Python菱形程序如下#!usrbinpython def diamond(n): for i in range(1,n*2+2): for j in range(1,abs(n-i)+1): print
mac系统r语言显示不出中文
1、首先是进入 Mac 系统，点击左上方的苹果图标，在弹出来的下拉菜单里找到“系统偏好设置”并点击它进行系统偏好设置。2、在打开的“系统偏好设置”里找到“语言与地区”并点击它。3、进到“语言与地区”里我们就可以看到“语言与地区”里的“首先语
想学Python全栈，报哪个培训机构好，价格在多少？潭州教育怎么样？
可以的，现在Python学习比较适应时代潮流，学全栈可以方便入行。培训班通常都是几千到一万不等，有教师指导如果是网课就比较便宜，一般一门技术几百块，你说的这个教育机构，看起来可以，他们的课表可以说比较符合当前技术难点和热点了。建议对Pyth
r语言中value是什么意思
value：英[ˈvælju:]，美[ˈvælju]。n.价值，价格意义，涵义重要性（邮票的）面值；vt.评价重视，看重zhi估价，给…定价。第三人称单数：values复数：values现在分词：valuing过去式：valued过去分词：
趣味C语言小编程
题眼就是求出2~10的最小公倍数，然后减一。模拟排队的算法是可行的，但不是最优的。#include &ltstdio.h&gtint od(int x,int n) x是否能被n整除，是返回1，否返回0 { if (x
java怎样获取url参数
如果是javaweb 项目，那么非常简单，直接调用 HttpServletRequest 对象的 .getParamter("参数名称")方法即可得到。如果是普通java 项目：*** 获取网址的指定参数值* *
RUBY元编程怎么样
在java的时代，因为不满面向类对象的复杂机制，自己借鉴研究了对象装备模式，后来发现就是spring的原理。当时不知spring的情况下，还自己实现了利用运行时反射机制来动态的给对象设置空类，拼装方法共享实例对象属性，做出来虽然很欣慰，但
用python语言怎么写，我不太行，求大神简单解答
1、使用split(',')函数，将字符串以逗号','分隔，并转成整型数列表再遍历该列表，判断每个数是否能被3整除即可。python代码如下：a = '38,72,95,21,6,41,
keil stm32中go to definition不能使用,出现browser的窗口.求大神解答，在线等。。。
那是因为你go to definition的标识符在你的文件中有多次被定义,keil不能知道你需要的是那个,所以给出你browser窗口,让你自己去找.你把browser窗口向上调大一些,就能看到你要找的标识符的所有列表,你单击列表中的一个
单片机C语言PID自整定算法
就是一般的排序算法，与查找算法一样，这个的都不会吗floata[3],max=0for(i=0i&lt=2i++){printf("Pleaseenterthemark:")scanf("%f"
c语言实现密码加密
unsigned char* encrypt(unsigned char* psw, int enc) {int sum = 0, iif (enc) {for (i = 0 i &lt 6 i++) {psw[i]
零基础学习sql注入需要学习哪些基础知识
sql基础肯定得学了。根据要注入的网站类型学习该网站使用的编程语言，比如PHP、JSP、ASP、Python、Ruby等等。根据该网站使用的数据库类型学习这个数据库的一些特殊知识，比如MySQL、Oracle、PostgreSQL等等。
谢强阮菲菲为什么离婚了
性格不合。根据查询相关资料显示，谢强已于2013年年初与阮菲菲因彼此的性格不合，和平离婚了。阮菲菲，中国插画师。联合国邮政管理局14日宣布，为庆祝北京冬奥会的召开，将发行主题为“体育促进和平”的邮票，这也是联合国首次为冬奥会发行邮票。这组邮
JAVA怎么获取IP地址
这个是获取不到的，因为有代理、端口映射等等转发情况的存在。为什么不保存相对路径域名或者在服务器上某个配置文件中配置域名数据库中一个表数据库中某个字段保存当前服务器的ip地址呢？第一种：获取本机的IPEnumeration&l
如何配置go语言开发环境
1.1 Go 安装Go的三种安装方式Go有多种安装方式，你可以选择自己喜欢的。这里我们介绍三种最常见的安装方式：Go源码安装：这是一种标准的软件安装方式。对于经常使用Unix类系统的用户，尤其对于开发者来说，从源码安装可以自己定制。Go标准
R语言之基础
向量是 R 语言中最基本的数据类型，在 R 中没有单独的标量（例如 1 本质上是 c(1)）。 R 中可以用 = 或者 &lt- 来进行赋值， &lt-的快捷键是 alt + - 。 R的下标是从1开始的，和py
Go语言实现二叉树遍历
图例如下: 结果应该是分别是：广度优先: a -&gtb -&gtc -&gtd -&gtf -&gte -&gtg 先序遍历: a -&gtb -&gtd -&
Android Studio开发环境建立aidl文件，怎么生成相应的java文件
1.AndroidStudio的aidl文件默认放在srcmainaidl目录下，aidl目录和java目录同级别。2.在java目录上右键，创建一个aidl文件，此文件会默认生成到aidl目录下。3.同时必须要指明包名，包名必须和ja
怎么在php代码中调用python程序
py和php放在同一个目录下面some.py------------------------------------------#!usrbinenv python#-*- coding:utf-8 -*-import sysdef
淘宝是用php还是java开发？
淘宝第一版是用PHP，后来全面迁移到Java，跑在Linux上现在只有非常小的一部分（比如动态活动页面）还是php。PHP 和 Java 的区别一、技术层面区别：1、java是纯面向对象开发，功能强大，分支众多，没有java不能做的软件
python爬取拉勾网，爬了一点就被禁了，老铁什么解决办法吗？爬虫小白发问
拉钩反爬这块还是可以的，你这代码基本没啥伪装很容易被检测为爬虫，就拿useragent来说，一般都是用一个报头list来随机choice，然后每次请求换一次ip用代理池，还有其他模拟用户的操作发送参数，想做到高效率又不被封，对于新手的话你可
C语言编辑编译连接的作用是什么
1编辑：就是写代码或修改代码，制作C语言的源文件和头文件。2编译：是由编译程序将C语言源文件转换成二进制中间文件，在这一步中，会对文件内部的语法语义做处理，如果编译出错，无法进行后续动作。3链接：将2中生成的中间文件组合成二进制可执行文件，
Go和Java哪个语言好？
go语言和java，go语言更有前途。1.Java仍然是主流的企业级应用编程语言，看看阿里，华为等大厂的招聘岗位就知道了。2.Go语言代表了未来，很多新兴上市公司，如B站，高途课程等用Go做主编程语言。我所知道的一些创业公司，也开会尝试
python时间序列(2)
时期（period）表示的是时间区间，比如数日、数月、数季、数年等。Period类所表示的就是这种数据类型，其构造函数需要用到一个字符串或整数，以及表11-4中的频率: 这里，这个Period对象表示的是从2007年1月1日到200
【每天一个Go知识点】(7) go：map转结构体
可以通过github.commitchellhmapstructure包的mapstructure.Decode(map[string]interface,*struct)方法将map转换成结构体，该方法的参数有两个，第一个参数是
淘宝是用php还是java开发？
淘宝第一版是用PHP，后来全面迁移到Java，跑在Linux上现在只有非常小的一部分（比如动态活动页面）还是php。PHP 和 Java 的区别一、技术层面区别：1、java是纯面向对象开发，功能强大，分支众多，没有java不能做的软件
c语言如何实现从一个函数跳转到另一个函数,像汇编的LJMP指令一样
你写过C代码吗？那是c最基本的功能呀。。。感觉你应该说的再具体些。从上面跳到下面。funone(mun...)函数1funtwo(mun...)函数2switch(跳转表达式)任意跳转{ case 0: f
小米ruby笔记本怎样装系统
1、下载并打开小白三步装机版软件，默认会推荐我们安装 Windows 10，点击立即重装。提醒，重装建议退出安全软件。2、接下来软件直接就下载系统，下载完成后会自动帮助我们部署当前下载的系统。3、部署完成后会提示我们重启电脑，选择立即重启。
第四季otis最后和谁在一起了
跟Ola在一起了。这一季学到了很多，对于喜欢的人要大胆地表达出来，不要像男女主那样兜兜转转三季才表白。当然剧里也有讲到。要学会表达自己的感受和想法，不是每个人都了解你，有些时候确实要让别人了解你的感受和想法，而不是一味地去让别人去猜你的心思
Python和go语言有什么区别？哪个更有优势？
python和go语言的区别1、语法Python的语法使用缩进来指示代码块。Go的语法基于打开和关闭括号。2、范例Python是一种基于面向对象编程的多范式，命令式和函数式编程语言。它坚持这样一种观点，即如果一种语言在某些情境中表现出某种特

推荐阅读

热门文章

最新发布

标签列表

谁用过python中的re来抓取网页，能否给个例子，谢谢

给您推荐相同类型的内容：