怎样用Python设计一个爬虫模拟登陆知乎

2023-02-27 01:25:01Python022

怎样用Python设计一个爬虫模拟登陆知乎,第1张

给你一个例子，可以看看：

import requests

import time

import json

import os

import re

import sys

import subprocess

from bs4 import BeautifulSoup as BS

class ZhiHuClient(object):

"""连接知乎的工具类，维护一个Session

2015.11.11

用法：

client = ZhiHuClient()

# 第一次使用时需要调用此方法登录一次，生成cookie文件

# 以后可以跳过这一步

client.login("username", "password")

# 用这个session进行其他网络操作，详见requests库

session = client.getSession()

"""

# 网址参数是账号类型

TYPE_PHONE_NUM = "phone_num"

TYPE_EMAIL = "email"

loginURL = r"http://www.zhihu.com/login/{0}"

homeURL = r"http://www.zhihu.com"

captchaURL = r"http://www.zhihu.com/captcha.gif"

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",

"Accept": "text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,*/*q=0.8",

"Accept-Encoding": "gzip, deflate",

"Host": "www.zhihu.com",

"Upgrade-Insecure-Requests": "1",

}

captchaFile = os.path.join(sys.path[0], "captcha.gif")

cookieFile = os.path.join(sys.path[0], "cookie")

def __init__(self):

os.chdir(sys.path[0]) # 设置脚本所在目录为当前工作目录

self.__session = requests.Session()

self.__session.headers = self.headers # 用self调用类变量是防止将来类改名

# 若已经有 cookie 则直接登录

self.__cookie = self.__loadCookie()

if self.__cookie:

print("检测到cookie文件，直接使用cookie登录")

self.__session.cookies.update(self.__cookie)

soup = BS(self.open(r"http://www.zhihu.com/").text, "html.parser")

print("已登陆账号： %s" % soup.find("span", class_="name").getText())

else:

print("没有找到cookie文件，请调用login方法登录一次！")

# 登录

def login(self, username, password):

"""

验证码错误返回：

{'errcode': 1991829, 'r': 1, 'data': {'captcha': '请提交正确的验证码 :('}, 'msg': '请提交正确的验证码 :('}

登录成功返回：

{'r': 0, 'msg': '登陆成功'}

"""

self.__username = username

self.__password = password

self.__loginURL = self.loginURL.format(self.__getUsernameType())

# 随便开个网页，获取登陆所需的_xsrf

html = self.open(self.homeURL).text

soup = BS(html, "html.parser")

_xsrf = soup.find("input", {"name": "_xsrf"})["value"]

# 下载验证码图片

while True:

captcha = self.open(self.captchaURL).content

with open(self.captchaFile, "wb") as output:

output.write(captcha)

# 人眼识别

print("=" * 50)

print("已打开验证码图片，请识别！")

subprocess.call(self.captchaFile, shell=True)

captcha = input("请输入验证码：")

os.remove(self.captchaFile)

# 发送POST请求

data = {

"_xsrf": _xsrf,

"password": self.__password,

"remember_me": "true",

self.__getUsernameType(): self.__username,

"captcha": captcha

}

res = self.__session.post(self.__loginURL, data=data)

print("=" * 50)

# print(res.text) # 输出脚本信息，调试用

if res.json()["r"] == 0:

print("登录成功")

self.__saveCookie()

break

else:

print("登录失败")

print("错误信息 --->", res.json()["msg"])

def __getUsernameType(self):

"""判断用户名类型

经测试，网页的判断规则是纯数字为phone_num，其他为email

"""

if self.__username.isdigit():

return self.TYPE_PHONE_NUM

return self.TYPE_EMAIL

def __saveCookie(self):

"""cookies 序列化到文件

即把dict对象转化成字符串保存

"""

with open(self.cookieFile, "w") as output:

cookies = self.__session.cookies.get_dict()

json.dump(cookies, output)

print("=" * 50)

print("已在同目录下生成cookie文件：", self.cookieFile)

def __loadCookie(self):

"""读取cookie文件，返回反序列化后的dict对象，没有则返回None"""

if os.path.exists(self.cookieFile):

print("=" * 50)

with open(self.cookieFile, "r") as f:

cookie = json.load(f)

return cookie

return None

def open(self, url, delay=0, timeout=10):

"""打开网页，返回Response对象"""

if delay:

time.sleep(delay)

return self.__session.get(url, timeout=timeout)

def getSession(self):

return self.__session

if __name__ == '__main__':

client = ZhiHuClient()

# 第一次使用时需要调用此方法登录一次，生成cookie文件

# 以后可以跳过这一步

# client.login("username", "password")

# 用这个session进行其他网络操作，详见requests库

session = client.getSession()

1. 找到正确的登录链接，应该是：self.baseUrl + '/login/email'

2. 这个request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))没用过不清楚，所以不知道有没有带上前两个请求的cookies。我是改成：

self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))这样访问的。

通常登录403问题都是：

1. 登录api不对，

2. 前后访问没有带cookies，导致token无效、验证码无效。

附上改后的，只会用requests的我，请勿喷啊~~~：

import cookielib,urllib2

import re,urllib,json

class ZhiHuSpider(object):

def __init__(self):

self.baseUrl = 'http://www.zhihu.com/'

self.captchaUrl = 'http://www.zhihu.com/captcha.gif?r='

self.cookies = cookielib.CookieJar()

self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookies))

# 获取网页xsrf值

def getXsrf(self):

html = None

html = self.opener.open(self.baseUrl).read().decode('utf-8')

xsrf_match = re.search(r'name="_xsrf" value="(.*?)"/>', html)

if xsrf_match:

return xsrf_match.group(1).strip()

# 将验证码保存在本地

def getCaptchaCode(self):

data = self.opener.open(self.captchaUrl).read()

fName = self.captchaUrl.split('/')[3].split('?')[0]

f = open(fName, 'wb')

f.write(data)

f.close()

print(u'验证码已保存在本地！请查看！')

# 模拟登录知乎

def login(self):

form = { '_xsrf': self.getXsrf(),

'email': '[email protected]',

'password': 'password' }

self.getCaptchaCode()

code = input(u'请输入验证码：')

form['captcha'] = code

postdata = urllib.urlencode(form)#parse.urlencode(form)

op = self.opener.open(self.baseUrl + '/login/email', postdata.encode('utf-8'))

#req = request.Request(self.baseUrl + '/#signin', postdata.encode('utf-8'))

a = op.read().decode()

a=json.loads(a)

print a,type(a)

print a['msg']

if __name__ == '__main__':

spider = ZhiHuSpider()

spider.login()

关于知乎验证码登陆的问题，用到了Python上一个重要的图片处理库PIL,如果不行，就把图片存到本地，手动输入。

通过对知乎登陆是的抓包，可以发现登陆知乎，需要post三个参数，一个是账号，一个是密码，一个是xrsf。

这个xrsf隐藏在表单里面，每次登陆的时候，应该是服务器随机产生一个字符串。所有，要模拟登陆的时候，必须要拿到xrsf。

用chrome （或者火狐 httpfox 抓包分析）的结果：

所以，必须要拿到xsrf的数值，注意这是一个动态变化的参数，每次都不一样。

拿到xsrf，下面就可以模拟登陆了。

使用requests库的session对象，建立一个会话的好处是，可以把同一个用户的不同请求联系起来，直到会话结束都会自动处理cookies。

注意：cookies 是当前目录的一个文件，这个文件保存了知乎的cookie，如果是第一个登陆，那么当然是没有这个文件的，不能通过cookie文件来登陆。必须要输入密码。

这是登陆的函数，通过login函数来登陆，post 自己的账号，密码和xrsf 到知乎登陆认证的页面上去，然后得到cookie，将cookie保存到当前目录下的文件里面。下次登陆的时候，直接读取这个cookie文件。

这是cookie文件的内容

以下是源码：

运行结果：

https://github.com/zhaozhengcoder/Spider/tree/master/spider_zhihu

反爬虫最基本的策略：

爬虫策略：

这两个都是在http协议的报文段的检查，同样爬虫端可以很方便的设置这些字段的值，来欺骗服务器。

反爬虫进阶策略：

1.像知乎一样，在登录的表单里面放入一个隐藏字段，里面会有一个随机数，每次都不一样，这样除非你的爬虫脚本能够解析这个随机数，否则下次爬的时候就不行了。

2.记录访问的ip，统计访问次数，如果次数太高，可以认为这个ip有问题。

爬虫进阶策略：

1.像这篇文章提到的，爬虫也可以先解析一下隐藏字段的值，然后再进行模拟登录。

2.爬虫可以使用ip代理池的方式，来避免被发现。同时，也可以爬一会休息一会的方式来降低频率。另外，服务器根据ip访问次数来进行反爬，再ipv6没有全面普及的时代，这个策略会很容易造成误伤。（这个是我个人的理解）。

通过Cookie限制进行反爬虫：

和Headers校验的反爬虫机制类似，当用户向目标网站发送请求时，会再请求数据中携带Cookie，网站通过校验请求信息是否存在Cookie，以及校验Cookie的值来判定发起访问请求的到底是真实的用户还是爬虫，第一次打开网页会生成一个随机cookie，如果再次打开网页这个Cookie不存在，那么再次设置，第三次打开仍然不存在，这就非常有可能是爬虫在工作了。

反爬虫进进阶策略：

1.数据投毒，服务器在自己的页面上放置很多隐藏的url，这些url存在于html文件文件里面，但是通过css或者js使他们不会被显示在用户看到的页面上面。（确保用户点击不到）。那么，爬虫在爬取网页的时候，很用可能取访问这个url，服务器可以100%的认为这是爬虫干的，然后可以返回给他一些错误的数据，或者是拒绝响应。

爬虫进进阶策略：

1.各个网站虽然需要反爬虫，但是不能够把百度，谷歌这样的搜索引擎的爬虫给干了（干了的话，你的网站在百度都说搜不到！）。这样爬虫应该就可以冒充是百度的爬虫去爬。（但是ip也许可能被识破，因为你的ip并不是百度的ip）

反爬虫进进进阶策略：

给个验证码，让你输入以后才能登录，登录之后，才能访问。

爬虫进进进阶策略：

图像识别，机器学习，识别验证码。不过这个应该比较难，或者说成本比较高。

参考资料：

廖雪峰的python教程

静觅的python教程

requests库官方文档

segmentfault上面有一个人的关于知乎爬虫的博客，找不到链接了

爬虫验证码文件策略进阶