最新发布

# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为鸿蒙系统支持的中央空调有哪些
华为鸿蒙系统支持的中央空调有美的，日立中央空调等。首款搭载华为鸿蒙系统的智能空调中国尊鸿蒙艺术柜机，已于2021年5月起上市销售，在空调旺季市场上掀起一轮全新的主动智能、新风无风感的智慧新体验。随着美的与华为联手打造的这两大智慧空调操控体验
# 2023-02-09
华为harmonyos是什么系统
演示机型：华为P50 系统版本：HarmonyOS 2华为harmonyos是鸿蒙系统。鸿蒙系统一款全新的面向全场景的分布式操作系统，创造一个超级虚拟终端互联的世界，将人、设备、场景有机地联系在一起，将消费者在全场景生活中接触的多
# 2023-02-09
华为harmonyos是什么手机
华为harmonyos是华为手机的操作系统，简称为鸿蒙系统。华为鸿蒙系统（HUAWEI Harmony OS），是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。华为鸿蒙系统是一款全新的面向全
# 2023-02-09
magicos和鸿蒙os区别
magicos和鸿蒙os区别：两者定位不同，技术架构不同。两者定位不同：HarmonyOS旨在替换安卓、最终实现跨平台多设备分布式操作。MagicOS则是在安卓系统、Windows系统以及其它操作系统上叠加荣耀的核心能力，从而让不同生态实
# 2023-02-09
鸿蒙系统网页捷径怎么关闭
在华为浏览器设置中进行关闭。具体步骤：1.打开华为浏览器点击右下角更多。2.打开按键设置，选择主页设置。3.选择自定义主页，接下来选择自定义网址，就可以让捷径这个功能消失了。首先，您需要了解升级Harmony OS前的准备工作：1.升级前，
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
如何升级Harmony OS？
首先，您需要了解升级Harmony OS前的准备工作：1.升级前，请确保设备没有被Root，并预留10G以上的内部存储空间。2.进入华为应用市场，搜索我的华为，将我的华为应用更新到最新版本。请提前备份好数据（第三方通讯类应用需单独备份），
# 2023-02-09
华为HarmonyOS与安卓对比：鸿蒙系统的强大不止于此
自从HarmonyOS 2上线后，HarmonyOS优越的性能表现让大家眼前一亮，我认为该系统最大的优点就是可在后台打开多个大型游戏且能保持游戏不中断，即后台保活率高。据测评媒体@小白测评的实验数据显示搭载H

python爬虫模拟登录是什么意思

2023-02-22 19:38:01Python07

python爬虫模拟登录是什么意思,第1张

有些网站需要登录后才能爬取所需要的信息，此时可以设计爬虫进行模拟登录，原理是利用浏览器cookie。

一、浏览器访问服务器的过程：

（1）浏览器（客户端）向Web服务器发出一个HTTP请求（Http request）；

（2）Web服务器收到请求，发回响应信息（Http Response）；

（3）浏览器解析内容呈现给用户。

二、利用Fiddler查看浏览器行为信息：

Http请求消息：

（1）起始行：包括请求方法、请求的资源、HTTP协议的版本号

这里GET请求没有消息主体，因此消息头后的空白行中没有其他数据。

（2）消息头：包含各种属性

（3）消息头结束后的空白行

（4）可选的消息体：包含数据

Http响应消息：

（1）起始行：包括HTTP协议版本，http状态码和状态

（2）消息头：包含各种属性

（3）消息体：包含数据

从上面可见，cookie在Http请求和Http响应的头消息中是很重要的属性。

三、什么是cookie：

当用户通过浏览器首次访问一个域名时，访问的Web服务器会给客户端发送数据，以保持Web服务器与客户端之间的状态，这些数据就是Cookie。

它是站点创建的，为了辨别用户身份而储存在用户本地终端上的数据，其中的信息一般都是经过加密的，存在缓存或硬盘中，在硬盘中是一些小文本文件。

当访问该网站时，就会读取对应网站的Cookie信息。

作用：记录不同用户的访问状态。

四、操作过程：

在知乎登录界面输入用户名和密码，然后登录。

利用Fiddler来查看这期间浏览器和知乎服务器之间的信息交互。

（1）浏览器给服务器发送了一个POST，携带帐号和密码等信息；

从起始行可见，POST是发送给http://www.zhihu.com/login/email这个网址，内容在最下面消息体里，

也可以在Fiddler的Webforms标签下查看POST的内容，如下：

可以发现，信息里不仅有帐号（email）和密码（password），其实还有_xsrf（具体作用往后看）和remember_me（登录界面的“记住我”）两个值。

那么，在python爬虫中将这些信息同样发送，就可以模拟登录。

在发送的信息里出现了一个项：_xsrf，值为2fc4ab0f0f144c2e478c436fe3160443

这个项其实是在访问知乎登录网页https://www.zhihu.com/#signin时，网页发送过来的信息，在浏览器源码中可见：

所以需要先从登录网址https://www.zhihu.com/#signin获取这个_xsrf的值，

并连同帐号、密码等信息再POST到真正接收请求的http://www.zhihu.com/login/email网址。

（2）获取_xsrf的值：

爬取登录网址https://www.zhihu.com/#signin，从内容中获取_xsrf的值。

正则表达式。

（3）发送请求：

xsrf = 获取的_xsrf的值

data = {"email":"xxx","password":"xxx","_xsrf":xsrf}

login = s.post(loginURL, data = data, headers = headers)

loginURL：是真正POST到的网址，不一定等同于登录页面的网址；

（4）爬取登录后的网页：

response = s.get(getURL, cookies = login.cookies, headers = headers)

getURL：要爬取的登陆后的网页；

login.cookies：登陆时获取的cookie信息，存储在login中。

（5）输出内容：

print response.content

五、具体代码：

[python] view plain copy

# -*- coding:utf-8 -*-

# author:Simon

# updatetime:2016年3月17日 17:35:35

# 功能：爬虫之模拟登录，urllib和requests都用了...

import urllib

import urllib2

import requests

import re

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'}

def get_xsrf():

firstURL = "http://www.zhihu.com/#signin"

request = urllib2.Request(firstURL,headers = headers)

response = urllib2.urlopen(request)

content = response.read()

pattern = re.compile(r'name="_xsrf" value="(.*?)"/>',re.S)

_xsrf = re.findall(pattern,content)

return _xsrf[0]

def login(par1):

s = requests.session()

afterURL = "https://www.zhihu.com/explore" # 想要爬取的登录后的页面

loginURL = "http://www.zhihu.com/login/email" # POST发送到的网址

login = s.post(loginURL, data = par1, headers = headers) # 发送登录信息，返回响应信息（包含cookie）

response = s.get(afterURL, cookies = login.cookies, headers = headers) # 获得登陆后的响应信息，使用之前的cookie

return response.content

xsrf = get_xsrf()

print "_xsrf的值是：" + xsrf

data = {"email":"xxx","password":"xxx","_xsrf":xsrf}

print login(data)

六、补充：

用知乎网做完试验，发现这里好像并不需要发送_xsrf这个值。

不过有的网站在登陆时确实需要发送类似这样的一个值，可以用上述方法。

首先进入github登录页：https://github.com/login

输入账号密码，打开开发者工具，在Network页勾选上Preserve Log（显示持续日志），点击登录，查看Session请求，找到其请求的URL与Form Data、Headers。此时除Cookies与authenticity_token无法直接获得外，其余模拟登录所需参数皆已获得。

我们进入登录页点击登录后，浏览器会向服务器发送这些信息，所以这些信息是在登录页就已设置好的。所以我们在登录页源码中搜索authenticity_token，果然找到了它的值。在Response-Headers中观察到有一个set-cookies的字段，这个就是设置cookies的过程。下面给出代码示例。

相关推荐：《Python视频教程》

1.这要看个家APP具体实现登录逻辑

2.大部分登录方法都是post方法，就用urllib包足以

3.模拟一个请求头，因为大部分公司都会过滤掉非真实用户请求

4.拦截抓包，看他们家的协议组成，推荐用

Charles

5.如果他们做了通信签名，反编译他们的apk包，寻找对应的加密密钥。如果做了混淆，我暂时没做过这块破解，抱歉。

信息消息浏览器服务器爬虫

# 上一篇：如何理解java中的实例化？

# 下一篇：什么是邓斯坦婴儿语言？