最新发布

# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为手机升级鸿蒙系统音乐不能同步到华为音箱
要将手机和鸿蒙系统音乐进行蓝牙配对。匹配方法：1、在鸿蒙系统手机的主页面中从右上边向下滑动，调出控制中心。2、点击【音频播控中心】，播放音乐、新人或者是有声小说等。3、进入音频播控中心中，点击右上角的位置。4、选择切换音频输出设备，以华为音
# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
华为harmonyos是什么系统
演示机型：华为P50 系统版本：HarmonyOS 2华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
华为平板m6能升级鸿蒙吗？
华为平板M6 10.8英寸、华为平板M6 8.4英寸、华为平板M6 高能版可以升级HarmonyOS系统。升级方式：进入设置 &gt系统和更新，点击软件更新。升级HarmonyOS 2前，您的平板需同时满足下列条件：（1）升级版本前
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
鸿蒙系统网页捷径怎么关闭
在华为浏览器设置中进行关闭。具体步骤：1.打开华为浏览器点击右下角更多。2.打开按键设置，选择主页设置。3.选择自定义主页，接下来选择自定义网址，就可以让捷径这个功能消失了。首先，您需要了解升级Harmony OS前的准备工作：1.升级前，
# 2023-02-09
荣耀手机也能升级鸿蒙系统，可升级的机型名单已公布
昨天晚上，华为正式发布了HarmonyOS 2手机操作系统，一大批华为手机终端产品均可升级，对于荣耀用户来说，也十分关心自己的机型是否可以升级鸿蒙系统。昨天晚上，荣耀官方也同步公布了HarmonyOS 2可升级机型清单。根据荣耀官方的消

python爬虫：带你了解爬虫应当怎么做

2023-04-30 04:46:01Python021

python爬虫：带你了解爬虫应当怎么做,第1张

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

python2

爬虫：从网页上采取数据

爬虫模块：urllib,urllib2,re,bs4,requests,scrapy,xlml

1.urllib

2.request

3.bs4

4.正则re

5种数据类型

(1)数字Number

(2)字符串String

(3)列表List[] 中文在可迭代对象就是unicode对象

(4)元组Tuple()

(5)字典Set{}

爬虫思路：

1.静态 urlopen打开网页------获取源码read

2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)

3.bs4 能够解析HTML和XML

-- coding:utf-8 –

from bs4 import BeautifulSoup

1

html=“

2018.1.8 14:03

”

soup=BeautifulSoup(html,‘html.parser’) #解析网页

print soup.div

2从文件中读取

html=’’

soup=BeautifulSoup(open(‘index.html’),‘html.parser’)

print soup.prettify()

4.获取所需信息

import requests

base_url = 'https://www.baidu.com'

response = requests.get(base_url)

url=请求url，

headers =请求头字典，

params = 请求参数字典。

timeout = 超时时长，

)---->response对象

服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文

字符串格式：response.text

bytes类型：response.content

response.headers['cookie']

response.text获取到的字符串类型的响应正文，

其实是通过下面的步骤获取的：

response.text = response.content.decode(response.encoding)

产生的原因：编码和解码的编码格式不一致造成的。

str.encode('编码')---将字符串按指定编码解码成bytes类型

bytes.decode('编码')---将bytes类型按指定编码编码成字符串。

a、response.content.decode('页面正确的编码格式')

<meta http-equiv="content-type" content="text/htmlcharset=utf-8">

b、找到正确的编码，设置到response.encoding中

response.encoding = 正确的编码

response.text--->正确的页面内容。

a、没有请求参数的情况下，只需要确定url和headers字典。

b、get请求是有请求参数。

在chrome浏览器中，下面找query_string_params,

将里面的参数封装到params字典中。

c、分页主要是查看每页中，请求参数页码字段的变化，

找到变化规律，用for循环就可以做到分页。

requests.post(

url=请求url，

headers = 请求头字典，

data=请求数据字典

timeout=超时时长

)---response对象

post请求一般返回数据都是json数据。

（1）response.json()--->json字符串所对应的python的list或者dict

（2）用 json 模块。

json.loads(json_str)---->json_data(python的list或者dict)

json.dumps(json_data)--->json_str

post请求能否成功，关键看**请求参数**。

如何查找是哪个请求参数在影响数据获取？

--->通过对比，找到变化的参数。

变化参数如何找到参数的生成方式，就是解决这个ajax请求数据获取的途径。

**寻找的办法**有以下几种：

（1）写死在页面。

（2）写在js中。

（3）请求参数是在之前的一条ajax请求的数据里面提前获取好的。

代理形象的说，他是网络信息中转站。

实际上就是在本机和服务器之间架了一座桥。

a、突破自身ip访问现实，可以访问一些平时访问不到网站。

b、访问一些单位或者团体的资源。

c、提高访问速度。代理的服务器主要作用就是中转，

所以一般代理服务里面都是用内存来进行数据存储的。

d、隐藏ip。

FTP代理服务器---21,2121

HTTP代理服务器---80,8080

SSL/TLS代理：主要用访问加密网站。端口：443

telnet代理：主要用telnet远程控制，端口一般为23

高度匿名代理：数据包会原封不动转化，在服务段看来，就好像一个普通用户在访问，做到完全隐藏ip。

普通匿名代理：数据包会做一些改动，服务器有可能找到原ip。

透明代理：不但改动数据，还会告诉服务，是谁访问的。

间谍代理：指组织或者个人用于记录用户传输数据，然后进行研究，监控等目的的代理。

proxies = {

'代理服务器的类型':'代理ip'

}

response = requests.get(proxies = proxies)

代理服务器的类型:http,https,ftp

代理ip:http://ip:port

参数爬虫字典数据字符串

# 上一篇：eventutil怎么在引入js中

# 下一篇：[内附完整源码和文档] 基于python的新闻检索系统