2.在浏览器的开发者工具审查该页面的元素(一般按f12可以弹出该工具),选择Network,之后选择doc可以简便地找到我们需要的元素。
注:以下两步第3,第4步主要是为了防止网站的反爬,经过这两步后,基本可以避开网站的反爬,所以如果你爬取的网站没有反爬的话,可以跳过这两步。
3.查看网页的请求方式--get请求
4.查看header
5.在Response中找到我们所需要的元素所在的标签位置(如:我们要爬取的是歌曲,既需要寻找歌曲的名字与其id信息,观察可以发现其中一首歌单中的歌名-moon在类名为“f-hide”的ul标签的li标签的a标签中) ~
@[toc]
首先通过网易分页歌单的url获取每份歌单的url,然后通过每份歌单的url提取歌单中的前十首歌的url,通过每首歌的url获取一些歌曲的作者和专辑等信息,整个过程通过协程来加快速度。