request库用python3怎么伪装header爬取知乎

Python012

request库用python3怎么伪装header爬取知乎,第1张

python网页抓取功能非常强大,使用urllib或者urllib2可以很轻松的抓取网页内容。但是很多时候我们要注意,可能很多网站都设置了防采集功能,不是那么轻松就能抓取到想要的内容。

1–下载python3.5的包

在python官网https://www.python.org/downloads/release/python-351/

下载tgz包就可以了。其实下面的2个包其一都可以使用

Python-3.5.1.tgz (这个不是编译过的东西,不能解压之后直接使用)

Python-3.5.1.tar.xz (这个是pthon的源码)

2–解压文件

tar -xf Python-3.5.1.tgz

3–解压之后有一个目录Python-3.5.1,进入目录

cd Python-3.5.1

4–开始安装,使用编译的方法进行安装

在python的目录中有一个README文件,他介绍了如何安装python。 但是我们要指定这个安装目录

mkdir /usr/python3.5./configure --prefix=/usr/python3.5makemake install

说明./configure命令执行完毕之后创建一个文件creating Makefile,供下面的make命令使用 执行make install之后就会把程序安装到我们指定的目录中去

5–让系统默认使用Python 3.5.1

在/usr/bin中有python、python2、python2.7三个文件依次指向后者,我们将python备份

cd /usr/binmv python python.bakln -s /usr/python3.5/bin/python3 /usr/bin/python

注意我们编译安装之后在/usr/python3.5/bin下会自动生成一个python3的连接,他指向bin目录中的python3.5

6–因为yum使用python2,因此替换为python3后可能无法正常工作,继续使用这个python2.7.5

因此修改yum配置文件(sudo vi /usr/bin/yum)。 把文件头部的#!/usr/bin/python改成#!/usr/bin/python2.7保存退出即可