这句代码是调用系统浏览器打开那个url,如果想获取状态码,应该使用别的方法
比如:
import requests
r = requests.get('http://doctor.10jqka.com.cn/002755/')
print(r.status_code) # 状态码
我们可以检测响应状态码:
r=requests.get(url)r.status_code
返回200,正常响应
为方便引用,Requests还附带了一个内置的状态码查询对象:
r = requests.get(url)
print r.status_code == requests.codes.ok
如果发送了一个失败请求(非200响应),我们可以通过Response.raise_for_status()来抛出异常:
bad_r = requests.get(url)
bad_r.raise_for_status()
爬虫跟踪下一页的方法是自己模拟点击下一页连接,然后发出新的请求。请看: item1 = Item()yield item1item2 = Item()yield item2req = Request(url='下一页的链接', callback=self.parse)yield req 注意使用yield时不要用return语句。