python如何获取网页script里的url？

2023-02-26 03:34:01Python019

python如何获取网页script里的url？,第1张

获取方法如下：

def get_js_value(url):

page_source = requests.get(url, headers=headers).content.decode('utf8')

selector = etree.HTML(page_source)

script_content = selector.xpath('/html/head/script[3]/text()')[0]

context = js2py.EvalJs()

context.execute(script_content)

今天简单使用了一下python的re模块和lxml模块，分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title，xpath在完成这样的小任务上效率非常好，在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况，当然这不是xpath的原因，而是页面本身编码，跟utf-8转码之间有冲突所致，这里看代码：

python抽取指定url页面的title方法（python获取当前页面的url） python 抽取 url title 脚本之家第1张

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的页面内容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8编码转换

'''

try:

if isinstance(strs, unicode):

strs = strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

用xpath抽取网页Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding

可将很多url放在一个列表中，然后用循环语句遍历。代码如下：

urls=[url1,url2,url3]

for u in urls:

requests.get(u)

txt=r.text

页面模块代码使用了网页

# 上一篇：小米ruby15.6固态硬盘坏了使用影响性能吗?

# 下一篇：c语言中while的用法

给您推荐相同类型的内容：

python3 使用try处理异常
try_num=0html=Nonewhile True: try: html=urlopen(...) except: pass try_num+=1 if try_num&gt
!c语言的用法是什么？
01 !c语言用来做逻辑运算中的非运算：感叹号用作非运算时，是单目运算符，与右侧的表达式结合；和等于号连用，组成逻辑判断的不等于运算：感叹号与等于号连用是一个操作符，表示逻辑运算的不等于，其为双目运算符，左右都要有表达式；出现于字符串中
经典C语言程序例子
题目01：在一个已知的字符串中查找最长单词，假定字符串中只含字母和空格，空格用来分隔不同的单词。直接编译，程序执行结果如下图所示：题目02：编写一个int string_len(char *s)，返回字符串s的字符长度(不包括)。直接编
林心如的介绍
姓名林心如出生1976年1月27日体重46kg身高166cm血型B型星座水瓶座三围32B，22，34 眼晴色深黑色发色深黑色初恋: 17岁谈过几次恋爱1次学历圣光幼稚园、日新国小、静修女中、中兴高
python 替换xml中的一行或者两行
a='&ltRange&gt0-229956 &ltRange&gt'b="'&ltRange&gt0-(A-1) &ltRange&
python之哈希算法
哈希(Hash)算法：`hash（object）` 哈希算法将一个不定长的输入，通过散列函数变换成一个定长的输出，即散列值。是一种信息摘要算法。对象的hash值比原对象拥有更低的内存复杂度。它不同于加密。哈希（hash）是将目标文
Eclipse怎么搭建Ruby环境 Eclipse下搭建Ruby环境方法
第一步，1. 在Eclipse的Help -&gt Install New Software输入http:download.aptana.comstudio3plugininstallnext 然后下载之后会花一段时间下载
c语言怎样用函数统计正整数的数量？
#include &ltstdio.h&gtint func(int *arr,int n){int i,count=0for(i=0i&ltni++)if(arr[i] &gt0)count+
python条件判断if第一行以什么结尾下一行以什么开始
python条件判断if操作如下：1、以if开头，后面是空格，空格后面就是具体的条件表达式，条件表达式后面以冒号结尾。2、从第一行的if位置缩进开始写，if代码块有多行，这个代码块的多行都要缩进。函数：endswith()作用：判断字符串
Gem库是怎么被Ruby定位和加载的
1. 建好如下文件夹注意：lib目录下必须有个和你gem名字一样的rb文件。 [ruby] view plaincopy $ cd hola $ tree . ├── hola.gemspec └── lib └── hola.rb 2.
python怎么输入图片
python导入图片的方法：一、直接从源图片中导入（图片位于images文件夹内）self.label1=QLabel(self)self.label1.setPixmap(QPixmap(r"imageshead.jpg&qu
c语言中while的用法
C语言中while的用法解析如下：一、1表示true，在bool类型取值false和true，0为false，非0为true（例如-1和2都是true）。程序中，这里1就表示永真，直到循环体内遇到break。二、while用法演示解析：
Python数据分析 | 数据描述性分析
首先导入一些必要的数据处理包和可视化的包，读文档数据并通过前几行查看数据字段。对于我的数据来说，由于数据量比较大，因此对于缺失值可以直接做删除处理。得到最终的数据，并提取需要的列作为特征。对类别数据进行统计：类别型字
ruby 如何判断字符串是否相等
ruby判断字符串用"=="就可以。判断对象可以用"equal?"方法。此处与java相反。p str1==str2返回的结果应该是先打印"str1==str2"的结果后，然后再输
python难还是ruby难
一、异同对比选择1、Python和ruby的相同点：·都强调语法简单，都具有更一般的表达方式。python是缩进，ruby是类basic的表达。都大量减少了符号。·都是动态数据类型。都是有丰富的数据结构。·都具有C语言扩展能力，都具
printf在c语言中是什么意思？
在C语言中printf( )是专门用于输出的语句。用法如下：1、printf（)函数是格式化输出函数，一般用于向标准输出设备按规定格式输出信息。2、printf（)函数的调用格式为： printf(＂＂, )。3、格式输出，它是c语
在C语言中，for语句的后面加分号和不加分号有何不同，该分号有什么作用？
加分号，表示这个循环是空语句，除了执行for()括号里的，什么都不干，然后就执行下一行。不加分号，那for循环后面的printf语句就是for循环的一部分，跟着for一起执行，但前提是for循环里的条件要满足。分号代表语句结束。例如：
c语言函数求方程的根
#include&ltstdio.h&gt#include&ltstdlib.h&gt#include&ltmath.h&gtint main(){float a,b,c,x,x1,x2,d
林心如的介绍
姓名林心如出生1976年1月27日体重46kg身高166cm血型B型星座水瓶座三围32B，22，34 眼晴色深黑色发色深黑色初恋: 17岁谈过几次恋爱1次学历圣光幼稚园、日新国小、静修女中、中兴高
RuBy什么意思?
最优质的红宝石被称为「鸽血红」，大多产自「缅甸」，其颜色正如鸽子的血一般鲜红清透，其他产地(如非洲、泰国…)也曾挖掘出如此优质顶级的红宝石。传说红宝石是上帝在创造万物时所创造的十二种宝石中最为贵重的。按上帝的旨意这一‘宝石中的贵族‘被置于
★南昌大学★我们大一没有学c语言，直接学了c加加，可以学好吗？
可以学好，不过会有些困难，还是建议你在学C++的时候看看C语言；C语言很强大，如C Object、C#、C++、JAVA等都是从C语言发展过来的高级语言，有了C语言的坚实基础，搞定与其相关的其他语言都没问题。 ⑴ 考研—南昌大学和安
又见一帘幽梦歌曲
一帘幽梦（刘家昌曲，琼瑶词）片头曲我有一帘幽梦不知与谁能共多少秘密在其中欲诉无人能懂窗外更深露重今夜落花成冢春来春去俱无踪徒留一帘幽梦谁能解我情衷谁将柔情深种若能相知又相逢共此一帘幽梦 ...............
小米笔记本和荣耀锐龙版我要选哪个
推荐小米笔记，笔记本电脑优点：性价比无敌啊！自带系统不喜欢，自己花了三个小时重新装win7系统、装驱动，性能比较高，win7系统开机时间最低记录29秒。我只用来上网、聊天、看电影，偶尔玩玩游戏，没发现问题。还有些高级功能不会用，我已经过了玩
Sketchup 程序自动化（二）Ruby 基础、单位转换
在我们打开Sketchup界面时，首先会选择模版，或者是默认的模版，这个模版规定了我们的尺寸单位，我们画的线是按照选择的单位格式来进行计算和规划。在二次开发中，默认的单位为英寸，有时候需要对绘制的线，进行长度统计和单位转换，可通过调用
python列表的基本操作
python列表的基本操作如下：01 '''02 列表：有非常重要的地位。(list)03 [项,项...]04 '''05 list1=['zhang san
Python的赋值与复制
对于Python的初学者，在对象的使用过程中，由于对变量的赋值和对象的复制中的概念模糊，导致程序出错。例如，下面的代码：输出结果为：a = [6,2,3,4,5], b = [6,2,3,4,5],
C语言源程序名的后缀是
C语言源程序后缀为.c，编译后的后缀为 .obj 或 .o，连接后生成的可执行文件的后缀为.exe。C语言是一门面向过程的、抽象化的通用程序设计语言，广泛应用于底层开发。C语言能以简易的方式编译、处理低级存储器。C语言是仅产生少量的机器语
怎么用Python爬取抖音高点赞高收藏的短视频？
用scrapy框架，但是你这样做侵犯了知识版权，如果用于商用，会面临起诉。记者从北京市海淀区人民法院获悉，因认为刷宝APP采用技术手段或人工方式获取抖音APP短视频及评论并向公众提供的行为构成不正当竞争，北京微播视界科技有限公司（下称微播公
c语言和java的区别
C语言是经典的面向过程的编程语言，编程入门一般都学C语言以了解编程以及锻炼逻辑思维能力，在一些跟硬件比较紧密的编程中也经常用到。x0dx0ax0dx0aC++是在C语言的基础上加入了面向对象的概念，成为混合型面向对象语言，功能强大，
python怎样从一个窗口切换到同界面的另一个窗口
跳转实现思路主程序相当于桌子：import tkinter as tkroot = tk.Tk()而不同的Frame相当于不同的桌布：face1 = tk.Frame(root)face2 = tk.Frame(root)...每个界面采用

推荐阅读

热门文章

最新发布

标签列表

python如何获取网页script里的url？

给您推荐相同类型的内容：