最新发布

# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
LIO一AN00是怎样截滚动长屏？
一、使用隔空手势截取屏幕1.进入设置 &gt辅助功能 &gt智慧感知 &gt隔空截屏，确保隔空截屏开关已开启。2.将手掌朝向屏幕，放在在距离屏幕半臂的位置稍作停顿，待屏幕上方出现后小手后，握拳截屏。二、指关节截取屏
# 2023-02-09
harmonyos2.0.0系统好用吗
harmonyos2.0.0系统好用。对于HarmonyOS 2.0系统，最大的感受就是流畅。此前有很多用户担心从EMUI系统过渡到鸿蒙系统会不适应，其实HarmonyOS 2.0系统真的会让用户用了以后爱不释手。不管是服务卡片还是动画过
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
极客简报｜华为跌倒苹果吃饱；HarmonyOS 用户破亿
本周苹果召开新品发布会，iPhone 13 系列、iPad 9、iPad mini 6 以及 Apple Watch Series 7 正式亮相，大多数产品已于本周开卖，最快 9 月 24 日即可到手。极客之选
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G

Python爬虫（七）数据处理方法之JSON

2023-02-23 19:41:01Python012

Python爬虫（七）数据处理方法之JSON,第1张

JSON 指的是 JavaScript 对象表示法（JavaScript Object Notation），是轻量级的文本数据交换格式，且具有自我描述性，更易理解。

JSON看起来像python类型（列表，字典）的字符串。

在之前的文章中，我们说到了怎么用response的方法，获取到网页正确解码后的字符串。如果还有不懂的，可以先阅读 Python爬虫（三）Requests库。接下来以有道翻译为例子，说说怎么通过网页解码后的字符串，提取到翻译结果。

再结合上述有道翻译的例子，得到字典类型的返回结果，并提取出来翻译结果。

将上述例子的dict_json换成str字符串，再写入文本中。

执行完上述的程序，会得到一个fanyi.txt的文件，其结果如下：{"type": "ZH_CN2EN", "errorCode": 0, "elapsedTime": 1, "translateResult": [[{"src": "\u4eba\u751f\u82e6\u77ed\uff0c\u6211\u7528python", "tgt": "Life is too short, I use python"}]]}。这样子的一份文档，中文部分显示的是二进制，且格式非常不利于阅读，这并不是我们想要的结果。好在json.dumps()为我们提供的两个方法，以帮助我们更好阅读文档。

1.ensure_ascii，能够让中文显示成中文；

2.indent，能够让下一行在第一行的基础上空格。

其用法如下：

import requests

base_url = 'https://www.baidu.com'

response = requests.get(base_url)

url=请求url，

headers =请求头字典，

params = 请求参数字典。

timeout = 超时时长，

)---->response对象

服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文

字符串格式：response.text

bytes类型：response.content

response.headers['cookie']

response.text获取到的字符串类型的响应正文，

其实是通过下面的步骤获取的：

response.text = response.content.decode(response.encoding)

产生的原因：编码和解码的编码格式不一致造成的。

str.encode('编码')---将字符串按指定编码解码成bytes类型

bytes.decode('编码')---将bytes类型按指定编码编码成字符串。

a、response.content.decode('页面正确的编码格式')

<meta http-equiv="content-type" content="text/htmlcharset=utf-8">

b、找到正确的编码，设置到response.encoding中

response.encoding = 正确的编码

response.text--->正确的页面内容。

a、没有请求参数的情况下，只需要确定url和headers字典。

b、get请求是有请求参数。

在chrome浏览器中，下面找query_string_params,

将里面的参数封装到params字典中。

c、分页主要是查看每页中，请求参数页码字段的变化，

找到变化规律，用for循环就可以做到分页。

requests.post(

url=请求url，

headers = 请求头字典，

data=请求数据字典

timeout=超时时长

)---response对象

post请求一般返回数据都是json数据。

（1）response.json()--->json字符串所对应的python的list或者dict

（2）用 json 模块。

json.loads(json_str)---->json_data(python的list或者dict)

json.dumps(json_data)--->json_str

post请求能否成功，关键看**请求参数**。

如何查找是哪个请求参数在影响数据获取？

--->通过对比，找到变化的参数。

变化参数如何找到参数的生成方式，就是解决这个ajax请求数据获取的途径。

**寻找的办法**有以下几种：

（1）写死在页面。

（2）写在js中。

（3）请求参数是在之前的一条ajax请求的数据里面提前获取好的。

代理形象的说，他是网络信息中转站。

实际上就是在本机和服务器之间架了一座桥。

a、突破自身ip访问现实，可以访问一些平时访问不到网站。

b、访问一些单位或者团体的资源。

c、提高访问速度。代理的服务器主要作用就是中转，

所以一般代理服务里面都是用内存来进行数据存储的。

d、隐藏ip。

FTP代理服务器---21,2121

HTTP代理服务器---80,8080

SSL/TLS代理：主要用访问加密网站。端口：443

telnet代理：主要用telnet远程控制，端口一般为23

高度匿名代理：数据包会原封不动转化，在服务段看来，就好像一个普通用户在访问，做到完全隐藏ip。

普通匿名代理：数据包会做一些改动，服务器有可能找到原ip。

透明代理：不但改动数据，还会告诉服务，是谁访问的。

间谍代理：指组织或者个人用于记录用户传输数据，然后进行研究，监控等目的的代理。

proxies = {

'代理服务器的类型':'代理ip'

}

response = requests.get(proxies = proxies)

代理服务器的类型:http,https,ftp

代理ip:http://ip:port

本来是想爬取之后作最佳羁绊组合推算，但是遇到知识点无法消化（知识图谱），所以暂时先不组合了，实力有限

库的安装

1.requests #爬取棋子数据

2.json #棋子数据为js动态，需使用json解析

3.BeautifulSoup

实战前先新建个lol文件夹作为工作目录，并创建子目录data，用于存放数据。

1.爬取数据，新建个py文件，用于爬取云顶数据，命名为data.py

1.1定义个req函数，方便读取。//需设定编码格式，否则会出现乱码

def Re_data(url):

re = requests.get(url)

re.encoding = 'gbk'

data = json.loads(re.text)

return data['data']

1.2定义个Get函数，用于读取数据并使用保存函数进行保存数据，保存格式为json。

def Get_data():

# 获取数据并保存至data目录

base_url = 'https://game.gtimg.cn/images/lol/act/img/tft/js/'

chess = Re_data(base_url + 'chess.js')

race = Re_data(base_url + 'race.js')

job = Re_data(base_url + 'job.js')

equip = Re_data(base_url + 'equip.js')

Save_data(chess,race,job,equip)

1.3定义save函数实现读取的数据进行文件保存，保存目录为工作目录下的data文件夹。

def Save_data(t_chess,t_race,t_job,t_equip):

with open('./data/chess.json','w') as f:

json.dump(t_chess,f,indent='\t')

with open('./data/race.json','w') as f:

json.dump(t_race,f,indent='\t')

with open('./data/job.json','w') as f:

json.dump(t_job,f,indent='\t')

with open('./data/equip.json','w') as f:

json.dump(t_equip,f,indent='\t')

1.4定义主函数main跑起来

if __name__ == '__main__':

start = time.time()

Get_data()

print('运行时间：' + str(time.time() - start) + '秒')

至此，数据爬取完成。

2.种族和职业进行组合。

2.1未完成 //未完成，使用穷举方法进行组合会出现内存不够导致组合失败（for循环嵌套导致数组内存超限）

//待学习，使用知识图谱建立组合优选，可参考：https://zhiya360.com/12447.html

期间遇到的问题：

1.爬取棋子数据时为动态js加载，需通过json模块的loads方法获取

2.3层for循环嵌套数据量大，导致计算失败，需优化计算方法。

数据字符串参数组合字典

# 上一篇：电脑主机箱里的风扇如何装

# 下一篇：c语言知识点有哪些？