Python 爬虫爬坑路（二）——B站图片，咸鱼的正确 GET 姿势

2023-02-24 07:27:01Python06

Python 爬虫爬坑路（二）——B站图片，咸鱼的正确 GET 姿势,第1张

昨天在写完入门级爬虫之后，马上就迫不及待的着手开始写 B站的图片爬虫了，真的很喜欢这个破站呢 (〜￣△￣)〜

这里不涉及到 Python 爬虫的高级技巧，没有使用框架，没有考虑反爬机制，没有使用异步IO技术，因为这些，我都不会！

我们选定 B站的动画区进行测试，打开后我们发现有好多好多图....

但当我们使用 F12 查看这些图片的时候，发现并没有图片的地址...

这就是目前大多网站使用的 Ajax 技术动态加载数据的锅，可遇到这种情况这么办呢？别急别急，我们知道这些图片的地址一定是需要加载的，而目前常见WEB传输数据的基本就是方式 XML 和 Json (其实是我就知道这两种...)，那好我们去看看请求的 XML 和 Json 文件。

以下省略查找过程....

我们发现 B站的图片地址是保存在 Json 里面的，ok，我们保存好这个 json 地址:

https://api.bilibili.com/x/web-interface/dynamic/region?callback=jQuery172071087417824369_1505783866149&jsonp=jsonp&ps=15&rid=24&_=1505783866453

这个是 MAD·AMV 最新动态的 Json 文件，利用上面相同的方法，我们找到 3D区、短片·配音区、综合区以及右边排行部分的相应 json 地址。

好在 Chrome 浏览器提供了一个 Preview 功能，自动帮我们整理好数据，如下

这样就很清晰啦，我们只需要一层层解析拿到 pic 即可。于是我们这样写：

我们利用 requests 内置的 json 解码器，很不幸，报错：

json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

它提示说：解码 Json 数据的时候出了问题，可能是在第一行第一列，咦？好奇怪，刚才不是用浏览器看过结构了吗，没毛病啊，怎么还在报错：Σ( ￣□￣||)

别急别急，我们先看看原始的 Json 数据长啥样？用浏览器打开上面的 json 链接就可以了。

（/TДT)/ 前面的那些字母是干嘛的呀，为什么还有括号啊！

所以我们知道了 Json 解析错误的原因啦：后面在处理的时候把前面的这部分删掉就好啦，另外我们也发现了 archives 这个关键字，我们在上一张图看见过的哦，有印象吗？啊，你说没有呀，没关系，这里你只需要记着它是一个 List 的数据类型就好了呀！

为了防止被当作是恶意访问从而被封 IP，这里我们选择牺牲时间，取巧使用 sleep(x) ，让其等待一段时间之后再发出请求。

你可能会问我，呀，你这个，根本没有代理、没有混淆IP防止反爬、也没有模拟 Ajax 请求动态抓取云云~

那我可以很负责的告诉你，你！走错地方了！你要找的技术贴出门右拐！（￣へ￣）

我们恰巧使用的是 B站的 Ajax 技术，只要哪个视频有了最新评论(或者是一下其它的条件)，就会使用 Ajax 将最新的数据取出来。就像下面这样：

所以可能在访问人数多的时候，更新越快，越有可能获得更多不同的图片啦！

之后你就可以在吃饭的时候，把它挂起，然后吃饭回来就会发现有好多好多的图片！(=・ω・=)

之后会陆续的更新自己爬虫的爬坑过程，希望能够找到小伙伴一起学习呀！

三种方案:

1.直接用Python的requests库直接爬取，不过这个需要手动做的事情就比较多了，基本上就看你的Python功力了

2.使用scrapy爬虫框架，这个框架如果不熟悉的话只能自己先去了解下这个框架怎么用

3.使用自动测试框架selemium模拟登录操作，及图片爬取，这个对于大多数会点Python编码的人来说是最好的选择了，他比较直观的能看到怎么去获取数据

每种方案的前提都是你必须有一定基础的编码能力才行，不是随便一个人就能用的

跟linux有什么关系，python是跨平台的，爬取图片的代码如下：

import urllib.requestimport osimport randomdef url_open(url):

req=urllib.request.Request(url) #为请求设置user-agent,使得程序看起来更像一个人类

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1WOW64rv:43.0) Gecko/20100101 Firefox/43.0') #代理IP，使用户能以不同IP访问，从而防止被服务器发现

'''iplist=['1.193.162.123:8000','1.193.162.91:8000','1.193.163.32:8000']

proxy_support=urllib.request.ProxyHandler({'http':random.choice(iplist)})

opener=urllib.request.build_opener(proxy_support)

opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.154 Safari/537.36 LBBROWSER')]

urllib.request.install_opener(opener)'''

response=urllib.request.urlopen(req)

html=response.read() return htmldef get_page(url):

html=url_open(url).decode('utf-8')

a=html.find('current-comment-page')+23

b=html.find(']',a) #print(html[a:b])

return html[a:b]def find_imgs(url):

html=url_open(url).decode('utf-8')

img_addrs=[]

a=html.find('img src=') while a!=-1:

b=html.find('.jpg',a,a+140) if b!=-1: if html[a+9]!='h':

img_addrs.append('http:'+html[a+9:b+4]) else:

img_addrs.append(html[a+9:b+4]) else:

b=a+9

a=html.find('img src=',b) for each in img_addrs:

print(each+'我的打印') return img_addrsdef save_imgs(folder,img_addrs):

for each in img_addrs: #print('one was saved')

filename=each.split('/')[-1] with open(filename,'wb') as f:

img=url_open(each)

f.write(img)def download_mm(folder='ooxx',pages=10):

os.mkdir(folder)

os.chdir(folder)

url=""

page_num=int(get_page(url)) for i in range(pages):

page_num=page_num-1

page_url=url+'page-'+str(page_num)+'#comments'

img_addrs=find_imgs(page_url)

save_imgs(folder,img_addrs)if __name__=='__main__':

download_mm()1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374

完成

运行结果

爬虫图片数据框架时候

# 上一篇：C语言中计算数组长度的方法是什么

# 下一篇：Go语言怎么样？