python3爬虫爬百度贴吧decode("utf-8")出错

Python015

python3爬虫爬百度贴吧decode("utf-8")出错,第1张

我写了下代码。没有编码问题,是不是不用decode?

import requests

r1 = requests.get("http://tieba.baidu.com/f?ie=utf-8&kw=python&fr=search")

print(r1.text)

首先,你去爬取一个网站,

你会清楚这个网站是属于什么类型的网站(新闻,论坛,贴吧等等)。

你会清楚你需要哪部分的数据

你需要去想需要的数据你将如何编写表达式去解析。

你会碰到各种反爬措施,无非就是各种百度各种解决。当爬取成本高于数据成本,你会选择放弃。

你会利用你所学各种语言去解决你将要碰到的问题,利用各种语言的client组件去请求你想要爬取的URL,获取到HTML,利用正则,XPATH去解析你想要的数据,然后利用sql存储各类数据库。