Python爬虫之Header

Python012

Python爬虫之Header,第1张

HTTP “请求头信息” Request Header 是向服务端提供客户端的信息,“响应头信息” Response Header 是服务端向客户端提供请求文档信息或服务器的状态信息,服务端判断服务端的身份,就是通过 Header 来判断的,所以爬虫通过设置 Header 来隐藏自己相当重要。

一个完整的HTTP请求包含以下部分:

请求方法 URL HTTP版本

请求头信息

请求数据

<一个空行,请求的结束行>

常见的请求头:

Accept :客户端接收的数据类型,如:Accept:text/html

User Agent :客户端软件类型

Authorization :认证消息,包括用户名和口令

Referer :用户获取的Web页面

真实的请求头信息会更多,下面是豆瓣某短评的真实请求头:

一个完整的HTTP响应包含以下部分:

状态行

响应头

响应数据

常见的状态行:

更多状态码查看: HTTP状态码

常见的响应头:

Server :Web服务器程序的信息

Date :当前服务器的日期和时间

Last Modified :请求文档最近一次修改的时间

Expires :请求文档过期时间

Content-length :数据长度(字节)

Content-type :数据MIME类型

WWW-authenticate :用于通知客户方需要的认证信息,如用户名,口令等

下面是豆瓣某短评的真实响应头:

Python使用Requests来请求的时候,如果没有设置Header,Header是空的,设置Header的方法如下:

之前给大家介绍了Python爬虫库requests的发送请求传参等使用方法,在requests模块中,它的操作方法可以有很多,比如获取响应内容、响应状态码、响应头等相关信息,下面一起来学习这篇有关“Python爬虫库requests如何获取响应内容?requests模块可以获取到哪些响应内容?”的文章吧,希望对大家的学习有更多的帮助。

我们在使用模块之前,都会对它进行导入操作,requests模块也不例外,导入的方法如下:

import requests

一、获取响应的内容

在Python不同的类型中,响应的内容也会有所不同,而在我们对网页发送一个请求的时候,服务器就会给我们返回响应的内容,并且使用requests它就会对我们的这个内容进行自动解码操作。

1、文本响应内容

Requests库中,它可以对一个文本的响应进行获取,代码如下:

r = requests.get('https://www.baidu.com')

r.text

这里是通过text文本的形式获取响应内容。不仅如此它还可以使用encoding来获取一个响应内容的编码以及还可以对编码进行修改。方法如下:

r.encoding

输出编码格式为:

'ISO-8859-1'

2、二进制响应内容

Requests不仅可以对一个文本进行响应,还可以对一个二进制内容进行响应,使用方法很简单,如下:

r.content

只需要通过content方法,获取的内容就是一个二进制类型的文件响应。

有关Python爬虫库requests如何获取响应内容?requests模块可以获取到哪些响应内容?的学习到这里就结束了,想要学习Python爬虫库requests的知识可以继续关注哦,会每天给大家更新不一样内容。