http_user_agent字段内容异常

2023-02-27 01:01:01Python08

HTTP请求头中的User-Agent字段

字符搬运工-蓝天

原创

关注

0点赞·502人阅读

引言

当我们使用python爬虫爬取数据时，经常会遇到爬取请求拒绝的问题，通过查看请求信息，我们会发现，一般写的爬虫会默认告诉服务器自己发送了一个Python爬取请求，而一般网站是不允许被爬虫访问的，可能是因为会涉及到商业问题。最后，通过更改User-Agent字段就可以轻易骗过该网站。

那么User-Agent到底是什么呢？

User-Agent会告诉网站服务器，访问者是通过什么工具来请求的，如果是爬虫请求，一般会拒绝，如果是用户浏览器，就会应答。

User-Agent字段

1. 基本格式

我们在Chrome内核的浏览器中查看User-Agent的结果如下：

Mozilla/5.0 (Windows NT 10.0Win64x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36

登录后复制

User-Agent的通常格式如下：

Mozilla/5.0 (平台) 引擎版本浏览器版本号

登录后复制

2. 第一部分：Mozilla/5.0

历史上各种版本的浏览器互相竞争，当时想获得图文并茂的网页，就必须宣称自己是 Mozilla 浏览器。由此导致如今User-Agent里通常都带有Mozilla字样，出于对历史的尊重，大家都会默认填写该部分。

3. 第二部分：平台

平台这部分可由多个字符串组成，用英文半角分号分开。

Windows系统平台这部分内容如下：

Windows NT 5.0 // 如 Windows 2000

Windows NT 5.1 // 如 Windows XP

Windows NT 6.0 // 如 Windows Vista

Windows NT 6.1 // 如 Windows 7

Windows NT 6.2 // 如 Windows 8

Windows NT 6.3 // 如 Windows 8.1

Windows NT 10.0 // 如 Windows 10

Win64x64 // Win64 on x64

WOW64 // Win32 on x64

登录后复制

其中，Windows NT 10.0是指我使用的操作系统的版本，比如我使用的win10对应的就是Windows NT 10.0，如果我使用win7对应的就是Windows NT 6.1。Win64x64是指我的操作系统是64位的。

Linux系统平台这部分内容如下：

X11Linux i686// Linux 桌面，i686 版本

X11Linux x86_64// Linux 桌面，x86_64 版本

X11Linux i686 on x86_64 // Linux 桌面，运行在 x86_64 的 i686 版本

登录后复制

macOS系统平台这部分内容如下：

MacintoshIntel Mac OS X 10_9_0 // Intel x86 或者 x86_64

MacintoshPPC Mac OS X 10_9_0 // PowerPC

MacintoshIntel Mac OS X 10.12// 不用下划线，用点

登录后复制

4. 第三部分：引擎版本

历史上，苹果依靠了WebKit内核开发出Safari浏览器，WebKit包含了WebCore引擎，而WebCore又从KHTML衍生而来。由于历史原因，KHTML引擎需要声明自己是“类似Gecko”的，因此引擎部分通常写为：AppleWebKit/537.36 (KHTML, like Gecko)…Safari/537.36。再后来，Google开发Chrome也是用了WebKit内核，于是也跟着这么写。借用Littern的一句话：“Chrome 希望能得到为Safari编写的网页，于是决定装成Safari，Safari使用了WebKit渲染引擎，而WebKit呢又伪装自己是KHTML，KHTML呢又是伪装成Gecko的。同时所有的浏览器又都宣称自己是Mozilla。”。不过，后来Chrome 28某个版本改用了blink内核，但还是保留了这些字符串。而且，最近的几十个版本中，这部分已经固定，没再变过。

基于python网络爬虫的设计与实现论文好写。因为基于python网络爬虫的设计与实现论文可以从网络上寻找相关的资料来攥写，比较方便，所以基于python网络爬虫的设计与实现论文好写。

丨综述

爬虫入门之后，我们有两条路可以走。

一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入学习它的源码等知识，进一步强化。

就个人而言，前一种方法其实就是自己动手造轮子，前人其实已经有了一些比较好的框架，可以直接拿来用，但是为了自己能够研究得更加深入和对爬虫有更全面的了解，自己动手去多做。后一种方法就是直接拿来前人已经写好的比较优秀的框架，拿来用好，首先确保可以完成你想要完成的任务，然后自己再深入研究学习。第一种而言，自己探索的多，对爬虫的知识掌握会比较透彻。第二种，拿别人的来用，自己方便了，可是可能就会没有了深入研究框架的心情，还有可能思路被束缚。

不过个人而言，我自己偏向后者。造轮子是不错，但是就算你造轮子，你这不也是在基础类库上造轮子么？能拿来用的就拿来用，学了框架的作用是确保自己可以满足一些爬虫需求，这是最基本的温饱问题。倘若你一直在造轮子，到最后都没造出什么来，别人找你写个爬虫研究了这么长时间了都写不出来，岂不是有点得不偿失？所以，进阶爬虫我还是建议学习一下框架，作为自己的几把武器。至少，我们可以做到了，就像你拿了把枪上战场了，至少，你是可以打击敌人的，比你一直在磨刀好的多吧？

丨框架概述

博主接触了几个爬虫框架，其中比较好用的是 Scrapy 和PySpider。就个人而言，pyspider上手更简单，操作更加简便，因为它增加了 WEB 界面，写爬虫迅速，集成了phantomjs，可以用来抓取js渲染的页面。Scrapy自定义程度高，比 PySpider更底层一些，适合学习研究，需要学习的相关知识多，不过自己拿来研究分布式和多线程等等是非常合适的。

在这里博主会一一把自己的学习经验写出来与大家分享，希望大家可以喜欢，也希望可以给大家一些帮助。

丨PySpider

PySpider是binux做的一个爬虫架构的开源化实现。主要的功能需求是：

· 抓取、更新调度多站点的特定的页面

· 需要对页面进行结构化信息提取

· 灵活可扩展，稳定可监控

而这也是绝大多数python爬虫的需求 —— 定向抓取，结构化化解析。但是面对结构迥异的各种网站，单一的抓取模式并不一定能满足，灵活的抓取控制是必须的。为了达到这个目的，单纯的配置文件往往不够灵活，于是，通过脚本去控制抓取是最后的选择。

而去重调度，队列，抓取，异常处理，监控等功能作为框架，提供给抓取脚本，并保证灵活性。最后加上web的编辑调试环境，以及web任务监控，即成为了这套框架。

pyspider的设计基础是：以python脚本驱动的抓取环模型爬虫

· 通过python脚本进行结构化信息的提取，follow链接调度抓取控制，实现最大的灵活性

· 通过web化的脚本编写、调试环境。web展现调度状态

· 抓取环模型成熟稳定，模块间相互独立，通过消息队列连接，从单进程到多机分布式灵活拓展