python 关于用beautifulsoup匹配标题并保存URL的问题

2023-02-25 15:16:02Python032

python 关于用beautifulsoup匹配标题并保存URL的问题,第1张

# encoding: gbk

import urllib2

import re

from BeautifulSoup import BeautifulSoup

patt = re.compile(r'.*href="(.*?)/.*".*?', re.I|re.X) # 按需求更换regex

page=urllib2.urlopen("") # 按需求更换地址

soup=BeautifulSoup(page,fromEncoding="gb2312") # 按需求更换编码

for a in soup.findAll('a'):

a = a.__str__('gb2312')

m = patt.match(a)

if m:

print m.groups(0)[0]

今天简单使用了一下python的re模块和lxml模块，分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title，xpath在完成这样的小任务上效率非常好，在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况，当然这不是xpath的原因，而是页面本身编码，跟utf-8转码之间有冲突所致，这里看代码：

python抽取指定url页面的title方法（python获取当前页面的url） python 抽取 url title 脚本之家第1张

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的页面内容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8编码转换

'''

try:

if isinstance(strs, unicode):

strs = strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

用xpath抽取网页Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding

最近在工作中需要将url的host和path路径分开存储，python内置的 urlparse ，支持我们优雅的解决这个问题，参考地址

由上文我们可以看到，url被拆分的很细致，提取的方法也很简单，只需要给属性取一个别名，后面跟上解析的key，即可匹配出解析文本。

页面按需模块简单地址

# 上一篇：R语言数据结构-向量

# 下一篇：为什么越来越多人偏爱用Go语言做开发？慕课网也越来越多关于go的课程了？

给您推荐相同类型的内容：

golang使用Nsq
1. 介绍最近在研究一些消息中间件，常用的MQ如RabbitMQ,ActiveMQ,Kafka等。NSQ是一个基于Go语言的分布式实时消息平台，它基于MIT开源协议发布，由bitly公司开源出来的一款简单易用的消息中间件。官方和
python三本经典书籍都是什么？
《深度学习入门》（[ 日］斋藤康毅）电子书网盘下载免费在线阅读资源链接：链接: https:pan.baidu.coms1ddnvGv-r9PxjwMLpN0ZQIQ?pwd=bhct 提取码: bhct 书名：深度学习入
一加9怎么设置语言
有时候手机自带的语言并不是我们所喜欢的，我们可以去设置里面进行设置，那一加9怎么设置语言？一起来看看吧~ 一加9怎么设置语言？ 1、点击手机桌面上的【设置】，点击【其他设置】选项。 2、点击【语言】选项。 3、勾选想
linux下的C语言开发（线程等待）
姓名:冯成学号:19020100164 学院:丁香二号书院转自: https:feixiaoxing.blog.csdn.netarticledetails7240833【嵌牛导读】本文将介绍linux下的
python 文本查找
这个很简单哈，我用java写过类似的，python下没写过，但思路都是一样的，我说一下思路，供你参考一下：【笨方法】”字符串截取“基本字符串1=”abc123“基本字符串2=”345aaa“例如：目标字符串为：Todayisagoodday
python-flask 快速搭建web
Flask是由python实现的一个web微框架，我们可以使用Python语言快速实现一个网站或Web服务，很方便的实现工具链，或者工作中其他内容的集成展示。python官网 :https:www.python.org
石榴作文400字
在学习、工作、生活中，大家都跟作文打过交道吧，作文是人们把记忆中所存储的有关知识、经验和思想用书面形式表达出来的记叙方式。那么，怎么去写作文呢？以下是我帮大家整理的石榴作文400字，仅供参考，大家一起来看看吧。石榴作文400字1
ruby什么意思
Ruby，一种为简单快捷的面向对象编程（面向对象程序设计）而创的脚本语言在20世纪90年代由日本人松本行弘开发，它的灵感与特性来自于 Perl、Smalltalk、Eiffel、Ada 以及 Lisp 语言，因为Perl发音与6月诞生石pe
i58279可以带动pr吗
能带动。PR主要是吃核心数量的，四核就可以满足日常使用，i58279配备四核心八线程，PR后期处理软件都很吃内存，建议内存16G起，i58279支持最大内存32g。所以i58279可以带动pr。I5 9400F或I7 9700F都可以。甚至
GO语言（二十七）：管理依赖项（下）-
当您对外部模块的存储库进行了 fork （例如修复模块代码中的问题或添加功能）时，您可以让 Go 工具将您的 fork 用于模块的源代码。这对于测试您自己的代码的更改很有用。为此，您可以使用go.mod 文件中的replace
为什么越来越多人偏爱用Go语言做开发？慕课网也越来越多关于go的课程了？
个人认为：1、上手快只要你有其会其他语言，学习go很快。2、go语言非常适合写服务端因为它开源，所以很容易找到你想要的框架，开发效率非常高。3、跨平台你的一个程序可以随意部署。不受操作系统限制，windwos、linux、macos都能
python正则表达式以数字3开头的
匹配以数字开头和结尾的字符串例如：3py3.33py3.33-3在最荒唐的年华里遇见对的你，终究是一个没有后来的结局。正则表达式是：^[0-9].*[0-9]$后来回忆起的，不是获得的荣誉，赢取的掌声，而是忙到快崩溃还咬牙坚持的日子。^表示
R语言中关于求一个矩阵的相关系数的问题
analyze-correlate-bivariate-选择变量OK输出的是相关系数矩阵相关系数下面的Sig.是显著性检验结果的P值，越接近0越显著。另外，表格下会显示显著性检验的判断结果，你看看表格下的解释就知道，比如“*
go语言的webengine叫什么
Java教程Linux入门更多&gt&gt 首页Go语言WEB框架(Gin)详解在 Go语言开发的 Web 框架中，有两款著名 Web 框架分别是 Martini 和 Gin，两款 Web 框架相比较的话，Gin 自己说它比
成都哪里有Python培训班
成都的千锋教育很不错，就业率也高。人工智能行业的火爆，让Python从业人员的春天也来了，优秀的Python人才不仅被企业争抢，年薪更是非常可观，Python的前景如此好，自然是吸引了不少人的加入。选择一个口碑好、师资力量强的培训班，就能随
如何用R语言绘制散点图(数据分组展示)并同时添加全数据的线性和指数两条拟合线？
用R作图，比用EXCEL要灵活的多。散点图，直接用plot()即可多类别，在R中就是多变量，用pionts() 加类别拟合曲线用 fit&lt- lm()lines(fit)添加文字用 text()首先，下载并安装好R软件。打开R软
R语言中的ssr怎么求
#残差平方和residual=ARMA$residuals #残差n=length(residual)ssr=0for(i in 1:n){ssr=ssr+(residual[i]^2)}ssrSSR是回归平方和，反应线性拟合值和他们的平
c语言怎么运行
1、创建一个文件名为main.c，然后用任意一个款你熟悉的文本编辑软件，比如说记事本，在里面输入下面的代码，记住，要用文本文件编辑软件，不能用word的。2、然后用gcc编译程序：gcc .main.c。你会得到一个***.out文件
女生必买十大口红
女生必买十大口红如下：1、迪奥999。迪奥999被称为“正宫红”，被认为是女人一生中必买的口红色号，适合大部分的场合，涂上后非常有气势，不管是厚涂还是薄涂都非常显气质。2、雅诗兰黛420。雅诗兰黛420是一款很日常的口红，上嘴是玫瑰豆沙
ruby是什么意思
ruby的汉语意思如下：n.红宝石深红色。adj.红宝石的红宝石色的。ruby的读音是：英 [ˈruːbi] 美 [ˈruːbi] 。ruby的造句如下：1、RDT is a far more full-featured Ru
在R语言中,怎么设函数判断字符串的大小
第一步，获取向量中的所有元素的的长度，可以使用nchar()函数，如下图所示：请点击输入图片描述第二步，截取字符串的字串，可以使用substr()函数，如下图所示：请点击输入图片描述第三步，判断某个字符串在某个向量的某个位置，使用grep(
Python 按行读取txt文件，如何去掉换行符"n"
python 按行读取txt时，每行默认自带了回车换行操作，导致脚本报错。故而按行读取时，需要去掉默认的'n' #coding=utf-8 from selenium import webdriver
如何使用R语言统计矩阵的一列中数值等于1的元素个数
上图是一个简单的例子，b为一矩阵，现在想统计第二列中数值等于1的元素个数，首先做一个逻辑判断，即b[,2]==1，得到一个由布尔变量true和false组成的向量。此时只需要知道true的数量，由于对布尔变量求和，true转化为1，fa
一学就会，手把手教你用Go语言调用智能合约
智能合约调用是实现一个 DApp 的关键，一个完整的 DApp 包括前端、后端、智能合约及区块链系统，智能合约的调用是连接区块链与前后端的关键。我们先来了解一下智能合约调用的基础原理。智能合约运行在以太坊节点的 EVM 中。
java能开发电路吗
java能开发电路。JAVA可以干很多事情，自然也可以进行电路控制，下面是我实现的用JAVA控制8盏LED灯，能控制LED灯，自然也就能控制其它电器一类的东西了，只要把LED灯换成其它的电器或者自己想要控制的外设就行了。这套系统主要用来控
《R语言实战》自学笔记61-重复测量方差分析
所谓重复测量方差分析，即受试者被测量不止一次。本节重点关注含一个组内和一个组间因子的重复测量方差分析（这是一个常见的设计）。以下为R语言实战示例。基础安装包中的CO2数据集包含了北方和南方牧草类植物Echinochloa crus-
世界上最大的钻石叫什么名字？有图片最好！！
世界上最早发现金刚石的国家是四大文明古国之一的印度。世界上最大的钻石是1905年1月21日在南非比勒陀利亚城发现的库里南钻石,呈淡天蓝色,重量3106克拉,Morgan的名字。世界上最大的钻石——“千年星”（图）这张18日得到的照片显示
r语言默认字体是哪种
r语言默认字体是宋体。R语言绘图中的中文默认字体宋体，希望用其他字体绘图，保存成PDF格式不能识别中文。R语言，顾名思义，它首先是一门计算机的编程语言，就跟传统的C语言，Java语言类似，但是，它又不仅仅是一门计算机语言。这是因为，R语言天
林志颖林心如和“JR”
JR是小志自创品牌Jimmy Racing 的英文缩写。 JR中文名为：二林箱包公司。产品有包包、眼镜、比基尼、拖鞋……Jimmy Racing也是“林志颖车队”的英文表达。 JR是全名Jimmy Racing 的大写字母。Jimmy
go语言有没有类似tp5框架
有，go语言有框架，例如：Beego（Go语言下开源的，高性能Web框架）、Buffalo（Go语言下快速Web开发框架）、Echo、Gin、Iris、Revel（高生产率，全栈Go语言的Web框架）等。可以先直接使用go自带的http

推荐阅读

热门文章

最新发布

标签列表

python 关于用beautifulsoup匹配标题并保存URL的问题

给您推荐相同类型的内容：