python 爬虫超级课程表话题时出错,请问各位大神如何解决

Python014

python 爬虫超级课程表话题时出错,请问各位大神如何解决,第1张

这个有主要有两种可能:

你生成的url不正确,这个你可以打印一下,找一个报503的url直接在url里访问,看看是否有问题。

亚马逊判断出你是爬虫,给禁止返回数据了,这个就需要伪装一下你的爬虫,比如修改爬取间隔,随机使用http header,或者使用代理ip。

import urllib

if __name__ == '__main__':

enc = r"%C0%FA%CA%B7%C9%CF%C4%C7%D0%A9%C5%A3%C8%CB%C3%C7.PDF"

string = urllib.unquote(enc).decode('gb2312')

print type(string), string

这是python2的,简单点。只能帮这么多了。

用谷歌浏览器打开谷歌日历,按F12打开控制台,增加一个日历项目,分析请求。

去看urllib,urllib2的文档,了解如何用py发送网络请求。

将“每周的课程”处理成谷歌日历的请求,用urllib2发送。

如何在碰到问题时去网上搜?

把py基础学好,把常用库是具体做什么的记下来,有个印象就行,用到的时候再查文档。

比如谷歌日历,是个web app,第一时间联想到py的urllib2库可以用来网络通信,这就行了。