R爬虫必备基础—HTTP协议

Python021

R爬虫必备基础—HTTP协议,第1张

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

HTTP协议工作于客户端-服务端架构上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器有:Apache服务器,IIS服务器(Internet Information Services)等。Web服务器根据接收到的请求后,向客户端发送响应信息。HTTP默认端口号为80,但是你也可以改为8080或者其他端口。

通信流程说明:

①用户首先通过鼠标/键盘点击或手动输入目标链接(即URL(Uniform Resource Locators),中文名称:统一资源定位符),向HTTP客户端(如常见的浏览器)传达数据查询需求。

②HTTP客户端收到需求后,将收到的URL信息向DNS服务器(域名系统)询问链接对应的具体IP地址,DNS服务器返回URL对应的IP地址。

③HTTP客户端再拿着IP地址通过TCP协议(传输控制协议,Transmission Control Protocol)和IP协议(Internet Protocol)向HTTP服务器发出数据请求,等待服务器响应。

④HTTP服务器将请求的相关信息返回给HTTP客户端,由客户端返回给客户。

⑤重复上述步骤①~④,直到所有请求执行完毕。

URL格式: 如 scheme://hostname:port/path?querystring#fragment 。一个完整的URL共有6部分构成,但是并不是每个部分都一定要具备。参数解释如下:

HTTP是基于客户端/服务端(C/S)的架构模型,通过一个可靠的链接来交换信息,是一个无状态的请求/响应协议。一个HTTP"客户端"是一个应用程序(Web浏览器或其他任何客户端),通过连接到服务器达到向服务器发送一个或多个HTTP的请求的目的。一个HTTP"服务器"同样也是一个应用程序(通常是一个Web服务,如Apache Web服务器或IIS服务器等),通过接收客户端的请求并向客户端发送HTTP响应数据。HTTP使用统一资源标识符(Uniform Resource Identifiers, URI)来传输数据和建立连接。一旦建立连接后,数据消息就通过类似Internet邮件所使用的格式[RFC5322]和多用途Internet邮件扩展(MIME)[RFC2045]来传送。

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成,下图给出了请求报文的一般格式。

如:

HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。

如:

根据 HTTP 标准,HTTP 请求可以使用多种请求方法。HTTP1.0 定义了三种请求方法:GET, POST 和 HEAD方法。HTTP1.1 新增了六种请求方法:OPTIONS、PUT、PATCH、DELETE、TRACE 和 CONNECT 方法。

在请求模式中,最常用的请求方法是GET和POST方法,在爬虫过程中至关重要。这两个方法都是从服务器请求一个资源,但是在正文的使用上有所不同。GET方法是网络请求最通用方法,可理解为直接请求。POST则有所区别,需要提交表单信息才能请求到信息,比如说拉勾网招聘首页需要用户输入地点、薪资范围等信息才能请求到匹配的网页界面。

HTTP请求头提供了关于请求,响应或者其他的发送实体的信息。下面将具体来介绍HTTP响应头信息。

当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头(server header)用以响应浏览器的请求。HTTP状态码的英文为HTTP Status Code。下面是常见的HTTP状态码:

200 - 请求成功

301 - 资源(网页等)被永久转移到其它URL

404 - 请求的资源(网页等)不存在

500 - 内部服务器错误

HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。HTTP状态码共分为5种类型:

Content-Type(内容类型),一般是指网页中存在的 Content-Type,用于定义网络文件的类型和网页的编码,决定浏览器将以什么形式、什么编码读取这个文件,比如text/html/xml/json/jpg/gif/pdf等。Content-Type 标头告诉客户端实际返回的内容的内容类型,如下图,返回的是html格式文件。

当我们在地址栏输入 www.sina.com.cn 时,浏览器将显示新浪的首页。在这个过程中,浏览器都干了哪些事情呢?通过Network的记录,我们就可以知道。在Network中,定位到第一条记录,点击右侧Headers,从Request Headers中可以看到浏览器发给新浪服务器的请求:请求网址为 https://www.sina.com.cn/ ,请求方法为GET.

继续往下找到Response Headers,它显示服务器返回的原始响应数据。其中200表示一个成功的响应,后面的OK是说明。失败的响应有404 Not Found:网页不存在,500 Internal Server Error:服务器内部出错,等等。Content-Type指示响应的内容,这里是text/html表示HTML网页。请注意,浏览器就是依靠Content-Type来判断响应的内容是网页还是图片,是视频还是音乐。

HTTP响应返回的是HTML源码,点击Response,可以看到返回的html网页源码。

接着,当浏览器读取到新浪首页的HTML源码后,它会解析HTML,显示页面,然后,根据HTML里面的各种链接,再发送HTTP请求给新浪服务器,拿到相应的图片、视频、Flash、JavaScript脚本、CSS等各种资源,最终显示出一个完整的页面。

参考: https://www.runoob.com/http/http-tutorial.html

更多内容可关注公共号“YJY技能修炼”~~~

往期回顾

R爬虫在工作中的一点妙用

R爬虫必备基础——HTML和CSS初识

R爬虫必备基础——静态网页+动态网页

R爬虫必备——rvest包的使用

R爬虫必备基础——CSS+SelectorGadget

R爬虫必备基础—Chrome开发者工具(F12)

import socket

import re

def service_client(new_socket, request):

#为这个客户端返回数据

    # 1. 接收浏览器发送过来的请求,即http请求

    # GET / HTTP/1.1

# ……

# request = new_socket.recv(1024).decode("utf-8")

# print(">>>" * 20)

# print(request)

    request_lines = request.splitlines()

print("")

print(">" *20)

print(request_lines)

# GET /index.html HTTP/1.1

# get post put del

    ret = re.match(r"[^/]+(/[^ ]*)", request_lines[0])

file_name =""

    if ret:

file_name = ret.group(1)

print("*" *50, file_name)

if file_name =='/':

file_name ='/index.html'

    # 2. 返回http格式的数据给浏览器

    try:

# f = open("../buickmall/index.html", "rb")

        f = open("../buickmall" + file_name, "rb")

except:

response ="HTTP/1.1 404 NOT FOUND\r\n"

        response +="\r\n"

        response +="---file not found---"

        new_socket.send(response.encode("utf-8"))

else:

html_content = f.read()

f.close()

# 2.2 准备发送给浏览器的数据:Body

        response_body = html_content

# 2.1 准备发送给浏览器的数据:Header

        response_header ="HTTP/1.1 200 OK\r\n"

        response_header +="Content-Length:%d\r\n" % len(response_body)

response_header +="\r\n"

        response = response_header.encode("utf-8") + response_body

# 将Response发送给浏览器

        new_socket.send(response)

# 关闭套接

    # new_socket.close()·

def main():

"""用来完成整体的控制"""

    # 1. 创建套接字

    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

# 2. 绑定

    tcp_server_socket.bind(("", 7890))

# 3. 变为监听套接字

    tcp_server_socket.listen(128)

tcp_server_socket.setblocking(False)# 将套接字变为非阻塞

    client_socket_list = list()

while True:

# 4. 等待新客户端的链接

        try:

new_socket, client_addr = tcp_server_socket.accept()

except Exceptionas ret:

pass

        else:

new_socket.setblocking(False)

client_socket_list.append(new_socket)

for client_socketin client_socket_list:

try:

recv_data = client_socket.recv(1024).decode("utf-8")

except Exceptionas ret:

pass

            else:

if recv_data:

# 5. 为这个客户端服务

                    service_client(client_socket, recv_data)

else:

client_socket.close()

client_socket_list.remove(client_socket)

# 6.关闭监听套接字

    tcp_server_socket.close()

if __name__ =="__main__":

main()

import socket

import re

import select

def service_client(new_socket, request):

"""为这个客户端返回数据"""

    # 1. 接收浏览器发送过来的请求,即http请求

    # GET / HTTP/1.1

# ……

# request = new_socket.recv(1024).decode("utf-8")

# print(">>>" * 20)

# print(request)

    request_lines = request.splitlines()

print("")

print(">" *20)

print(request_lines)

# GET /index.html HTTP/1.1

# get post put del

    ret = re.match(r"[^/]+(/[^ ]*)", request_lines[0])

file_name =""

    if ret:

file_name = ret.group(1)

print("*" *50, file_name)

if file_name =='/':

file_name ='/index.html'

    # 2. 返回http格式的数据给浏览器

    try:

# f = open("../buickmall/index.html", "rb")

        f = open("../buickmall" + file_name, "rb")

except:

response ="HTTP/1.1 404 NOT FOUND\r\n"

        response +="\r\n"

        response +="---file not found---"

        new_socket.send(response.encode("utf-8"))

else:

html_content = f.read()

f.close()

# 2.2 准备发送给浏览器的数据:Body

        response_body = html_content

# 2.1 准备发送给浏览器的数据:Header

        response_header ="HTTP/1.1 200 OK\r\n"

        response_header +="Content-Length:%d\r\n" % len(response_body)

response_header +="\r\n"

        response = response_header.encode("utf-8") + response_body

# 将Response发送给浏览器

        new_socket.send(response)

# 关闭套接字

    # new_socket.close()

def main():

"""用来完成整体的控制"""

    # 1. 创建套接字

    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)

# 2. 绑定

    tcp_server_socket.bind(("", 7890))

# 3. 变为监听套接字

    tcp_server_socket.listen(128)

tcp_server_socket.setblocking(False)# 将套接字变为非阻塞

    # 创建一个epoll对象

    epl = select.epoll()

# 将监听套接字对应的fd注册到epoll中

    epl.register(tcp_server_socket.fileno(), select.EPOLLIN)

fd_event_dict = dict()

while True:

fd_event_list = epl.poll()# 默认会阻塞,直到os检测到数据到来,通过事件通知的方式告诉程序,此时才会解阻塞

        # [(fd, event), (……)]

        # 参数fd:套接字对应的文件描述符

        # 参数event:这个fd是什么事件,例如可调用recv接收等

        for fd, eventin fd_event_list:

# 4. 等待新客户端的链接

            if fd == tcp_server_socket.fileno():

new_socket, client_addr = tcp_server_socket.accept()

epl.register(new_socket.fileno(), select.EPOLLIN)

fd_event_dict[new_socket.fileno()] = new_socket

elif event == select.EPOLLIN:

# 判断已经链接的客户端是否有数据发送过来

                recv_data = fd_event_dict[fd].recv(1024).decode("utf-8")

if recv_data:

# 5. 为这个客户端服务

                    service_client(fd_event_dict[fd], recv_data)

else:

fd_event_dict[fd].close()

epl.unregister(fd)

del fd_event_dict[fd]

# 6.关闭监听套接字

    tcp_server_socket.close()

if __name__ =="__main__":

main()

import gevent

import time

from geventimport monkey

monkey.patch_all()

def f1(n):

for iin range(n):

print(gevent.getcurrent(), i)

time.sleep(0.5)

# gevent.sleep(0.5)

def f2(n):

for iin range(n):

print(gevent.getcurrent(), i)

time.sleep(0.5)

# gevent.sleep(0.5)

def f3(n):

for iin range(n):

print(gevent.getcurrent(), i)

time.sleep(0.5)

# gevent.sleep(0.5)

# print("---1---")

# g1 = gevent.spawn(f1, 5)  # 参数f指定协程在哪执行,需要传参就直接写在后边

# print("---2---")

# g2 = gevent.spawn(f2, 5)

# print("---3---")

# g3 = gevent.spawn(f3, 5)

# print("---4---")

# g1.join()

# g2.join()

# g3.join()

gevent.joinall([

gevent.spawn(f1, 5),

    gevent.spawn(f2, 5),

    gevent.spawn(f3, 5)

])

import urllib.request

import gevent

from geventimport monkey

monkey.patch_all()

def downloader(img_name, img_url):

req = urllib.request.urlopen(img_url)

img_content = req.read()

with open(img_name, "wb")as f:

f.write(img_content)

def main():

gevent.joinall([

gevent.spawn(downloader, "1.jpg","https://rpic.douyucdn.cn/live-cover/appCovers/2019/10/27/6510444_20191027144840_small.jpg"),

        gevent.spawn(downloader,"2.jpg","https://rpic.douyucdn.cn/appCovers/416825/20160915/802092c2192960b416832a28a59c373b_small.jpg")

])

if __name__ =="__main__":

main()

# 浏览器-->服务器发送的请求格式如下:

#

#  # 表示请求的目标、协议版本

#  POST / HTTP/1.1

#  # 表示服务器的IP地址和端口

#  Host: 127.0.0.1:8080

#  # 表示是长链接

#  Connection: keep-alive

#  # 表示谷歌浏览器告诉服务器,浏览器可以处理https协议

#  Upgrade-Insecure-Requests: 1

#  # 表示浏览器的版本

#  User-Agent: Mozilla/5.0 (Windows NT 10.0Win64x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.80 Safari/537.36

#  # 表示浏览器可以接收什么样的格式

#  Accept: text/html,application/xhtml+xml,application/xmlq=0.9,image/webp,image/apng,*/*q=0.8,application/signed-exchangev=b3

#  # 表示能够接收的压缩格式

#  Accept-Encoding: gzip, deflate, br

#  # 表示能接收的语言,能接收中文

#  Accept-Language: zh-CN,zhq=0.9

#

#  username:tom

#  password:123

#

# 服务器-->浏览器回送的数据格式如下:

#  HTTP/1.1 200 OK

#  Bdpagetype: 1

#  Bdqid: 0x9dd09c83000204a0

#  # 表示你的缓存是共享的、还是私有的,现在是私有的

#  Cache-Control: private

#  Connection: Keep-Alive

#  # 编码格式,浏览器就按照这个格式来解压

#  Content-Encoding: gzip

#  # 服务器传回的内容格式、字符集

#  Content-Type: text/htmlcharset=utf-8

#  Content-Length: 123456789

#  Cxy_all: baidu+34491ab9ca3c8ba32cebe1d26059f593

#  # 表示服务器当前的时间

#  Date: Sun, 23 Jun 2019 03:38:04 GMT

#  Expires: Sun, 23 Jun 2019 03:37:52 GMT

#  # 服务器:BWS是百度服务器的一个简称

#  Server: BWS/1.1

#  # 设置Cookie

#  Set-Cookie: delPer=0path=/domain=.baidu.com

#  Set-Cookie: BDSVRTM=0path=/

#  Set-Cookie: BD_HOME=0path=/

#  Set-Cookie: H_PS_PSSID=1441_21127_29135_29237_28518_29099_29131_29369_28833_29220_26350path=/domain=.baidu.com

#  Strict-Transport-Security: max-age=172800

#  Vary: Accept-Encoding

#  X-Ua-Compatible: IE=Edge,chrome=1

#  Transfer-Encoding: chunked

#

#  <h1>hahaha</h1>

import socket

def service_client(new_socket):

"""为这个客户端返回数据"""

    # 1. 接收浏览器发送过来的请求,即http请求

    # GET / HTTP/1.1

# ……

    request = new_socket.recv(1024)

print(request)

# 2. 返回http格式的数据给浏览器

    # 2.1 准备发送给浏览器的数据:Header

    response ="HTTP/1.1 200 OK\r\n"

    response +="\r\n"

    # 2.2 准备发送给浏览器的数据:Body

    response +="

"

    new_socket.send(response.encode("utf-8"))

# 关闭套接字

    new_socket.close()

def main():

"""用来完成整体的控制"""

    # 1. 创建套接字

    tcp_server_socket = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

tcp_server_socket.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)

# 2. 绑定

    tcp_server_socket.bind(("", 7890))

# 3. 变为监听套接字(最大连接数是128)

    tcp_server_socket.listen(128)

while True:

# 4. 等待新客户端的链接

        new_socket, client_addr = tcp_server_socket.accept()

# 5. 为这个客户端服务

        service_client(new_socket)

# 6.关闭监听套接字

    tcp_server_socket.close()

if __name__ =="__main__":

main()

while true:

print('---1---')

time.sleep(0.1)

yield

def task_2():

while true:

print('---2---')

time.sleep(0.1)

yield

def main():

t1 = task_1()

t2 = task_2()

while true:

    next(t1)

next(t2)

if __name__=="__main__":

import urllib.request

def main():

# req = urllib.request.urlopen("https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/whfpf%3D360%2C280%2C50/sign=71bcd12444fbfbeddc0c653f1ecdc400/18d8bc3eb13533faa998d335a7d3fd1f41345bfa.jpg")

  req = urllib.request.urlopen("import urllib.request

def main():

# req = urllib.request.urlopen("https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/whfpf%3D360%2C280%2C50/sign=71bcd12444fbfbeddc0c653f1ecdc400/18d8bc3eb13533faa998d335a7d3fd1f41345bfa.jpg")

  req = urllib.request.urlopen("https://gss2.bdstatic.com/-fo3dSag_xI4khGkpoWK1HF6hhy/baike/s%3D220/sign=bc88abda1fdfa9ecf92e511552d1f754/023b5bb5c9ea15ce788829cfb8003af33b87b296.jpg")

# req = urllib.request.urlopen("")

# req = urllib.request.urlopen("https://img.alicdn.com/tfs/TB1_.LJe7P2gK0jSZPxXXacQpXa-1880-640.jpg")

  img_content = req.read()

with open('4.jpg', 'wb')as f:

f.write(img_content)

if __name__ =='__main__':

main()")

  # req = urllib.request.urlopen("https://rpic.douyucdn.cn/live-cover/roomCover/cover_update/2019/09/17/1f067e8b2763c9cd4fd8f3a77ea12522.jpg/webpdy1")

# req = urllib.request.urlopen("https://img.alicdn.com/tfs/TB1_.LJe7P2gK0jSZPxXXacQpXa-1880-640.jpg")

  img_content = req.read()

with open('4.jpg', 'wb')as f:

f.write(img_content)

if __name__ =='__main__':

main()

域名解析 -->发起TCP的3次握手 -->建立TCP连接后发起http请求 -->服务器响应http请求,浏览器得到html代码 -->浏览器解析html代码,并请求html代码中的资源(如js、css、图片等) -->浏览器对页面进行渲染呈现给用户