最新发布

# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
HarmonyOS赋能HUAWEI WATCH 3系列：隐私安全再升级
当前智能可穿戴设备已经慢慢渗透到我们的生活当中，有更多人愿意借助可穿戴设备来监测身体的各项数据与指标，从而更好的保护自己的身体。而华为作为可穿戴设备的头部厂商，凭借优质的硬件，丰富的软件及生态服务，受到了广大消费者的青睐。根据IDC《中国
# 2023-02-09
华为鸿蒙系统支持的中央空调有哪些
华为鸿蒙系统支持的中央空调有美的，日立中央空调等。首款搭载华为鸿蒙系统的智能空调中国尊鸿蒙艺术柜机，已于2021年5月起上市销售，在空调旺季市场上掀起一轮全新的主动智能、新风无风感的智慧新体验。随着美的与华为联手打造的这两大智慧空调操控体验
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同

python指定url

2023-02-25 16:30:01Python023

python指定url,第1张

今天简单使用了一下python的re模块和lxml模块，分别利用的它们提供的正则表达式和xpath来解析页面源码从中提取所需的title，xpath在完成这样的小任务上效率非常好，在这里之所以又使用了一下正则表达式是因为xpath在处理一些特殊的页面的时候会出现乱码的情况，当然这不是xpath的原因，而是页面本身编码，跟utf-8转码之间有冲突所致，这里看代码：

python抽取指定url页面的title方法（python获取当前页面的url） python 抽取 url title 脚本之家第1张

# !/usr/bin/python

#-*-coding:utf-8-*-

'''

功能：抽取指定url的页面内容中的title

'''

import re

import chardet

import urllib

from lxml import etree

def utf8_transfer(strs):

'''

utf8编码转换

'''

try:

if isinstance(strs, unicode):

strs = strs.encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'GB2312':

strs = strs.decode("gb2312", 'ignore').encode('utf-8')

elif chardet.detect(strs)['encoding'] == 'utf-8':

strs = strs.decode('utf-8', 'ignore').encode('utf-8')

except Exception, e:

print 'utf8_transfer error', strs, e

return strs

def get_title_xpath(Html):

'''

用xpath抽取网页Title

'''

Html = utf8_transfer(Html)

Html_encoding = chardet.detect(Html)['encoding']

page = etree.HTML(Html, parser=etree.HTMLParser(encoding=Html_encoding

文章目录

一、功能介绍

二、功能介绍

1.`urlparse.urlparse`

2.`urlparse.urlsplit`

3.`urlparse.urljoin`

一、功能介绍

官方文档：http://docs.python.org/library/urlparse.html

作用：urlparse模块主要是用于解析url中的参数对url按照一定格式进行拆分或拼接

注意：urlparse 模块在 python 3.0 中已经改名为 urllib.parse

二、功能介绍

1.urlparse.urlparse

1.1 获取ParseResult对象

将url分为6个部分，返回一个包含6个字符串的元组：协议、位置、路径、参数、查询、片段。

举例：

import urlparse

url_change = urlparse.urlparse('https://i.cnblogs.com/EditPosts.aspx?opt=1')

print url_change

'''

输出结果:

ParseResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', params='', query='opt=1', fragment='')

'''

scheme 是协议

netloc 是域名服务器

path 相对路径

params是参数

query是查询的条件

fragment是片段

1.2获取结果的某一项

import urlparse

url_change = urlparse.urlparse('https://i.cnblogs.com/EditPosts.aspx?opt=1')

print url_change.query # opt=1

print url_change.scheme # https

1.3获取结果的某一项，用字典或元组展示

import urlparse

url_change = urlparse.urlparse('https://i.cnblogs.com/EditPosts.aspx?opt=1')

print urlparse.parse_qs(url_change.query) # {'opt': ['1']}

print urlparse.parse_qsl(url_change.query) # [('opt', '1')]

2.urlparse.urlsplit

2.1获取SplitResult对象

和urlparse差不多，将url分为5部分，返回一个包含5个字符串项目的元组：协议、位置、路径、查询、片段。

import urlparse

url_change = urlparse.urlsplit('https://i.cnblogs.com/EditPosts.aspx?opt=1')

print url_change

'''

输出结果：

SplitResult(scheme='https', netloc='i.cnblogs.com', path='/EditPosts.aspx', query='opt=1', fragment='')

'''

scheme 是协议

netloc 是域名服务器

path 相对路径

query是查询的条件

fragment是片段

2.2获取某一项

print url_change.scheme # https

3.urlparse.urljoin

将相对的地址组合成一个url，对于输入没有限制，开头必须是http://或者https://，否则将不组合前面。

import urlparse

new_url = urlparse.urljoin('https://baidu.com/ssss/','88888')

print new_url

'''

https://baidu.com/ssss/88888

''' 注意：如果输入错误信息如 new_url = urlparse.urljoin('122','88888') 并不会将两者合并,而输出后边的链接，即‘88888’

域名放在第一个参数，第二个参数为要和域名拼接的子链接

url编码：

import urllib

url = 'http://test.com/s?wd=哈哈' #如果此网站编码是gbk的话，需要进行解码，从gbk解码成unicode，再从Unicode编码编码为utf-8格式。

url = url.decode('gbk', 'replace')

print urllib.quote(url.encode('utf-8', 'replace'))

参考资料

Python3 如何对url解码？.CSDN博客[引用时间2018-1-1]

页面参数功能路径片段

# 上一篇：go语言适合做什么

# 下一篇：基迪奥的新书（基因表达调控-新组学技术介绍与应用）是否值得买？