1、可以使用chrome中的response分析其html代码,html代码为标签格式,每个标签都是有开始成对出现的,我们要抓取小说排行榜信息,查看html代码,发现其标签中的信息为小说排行榜中的信息。
2、进一步查看每本书的信息使用标签来概括。
3、其中dat-rid标签代表的是这本身在该网页中属于第几个,panclass="rank-tagnoXX"代表的是这本身的排行榜book-mid-info标签中的XX中有书名信息。
4、需要抓取的排行帮以及书名信息在上面两个部分,接下来使用正则匹配表达,将每本书的上述两行信息提取出来,重新定义一个函数get_top_number_and_book_name。
5、由于小说名都是使用中文,所以需要用到\u4e00-\u9fa5,表示为匹配该段的中文字符,[\u4e00-\u9fa5]+,表示匹配所有中文,小说名除了中文还有英文,以及逗号,冒号等其他特殊形式的符合。
Python是一种计算机程序设计语言。作为一门叫做ABC语言的替代品。Python是一种面向对象、直译式计算机程序设计语言。
百度贴吧排名是按一定时期内,各贴吧人气高低由系统自动排列。百度贴吧排行榜数据取自各个贴吧的访问量、用户数、发帖数、由系统根据一定公式自动计算统计。以下为百度贴吧分类排行榜:
明星名人贴吧排行榜 http://post.baidu.com/top500/1.html
动漫贴吧排行榜 http://post.baidu.com/top500/2.html
文学与艺术贴吧排行榜 http://post.baidu.com/top500/3.html
体育贴吧排行榜 http://post.baidu.com/top500/4.html
时尚生活贴吧排行榜 http://post.baidu.com/top500/5.html
科学与军事贴吧排行榜 http://post.baidu.com/top500/6.html
电脑数码贴吧排行榜 http://post.baidu.com/top500/7.html
个人空间贴吧排行榜 http://post.baidu.com/top500/8.html
百度特区贴吧排行榜 http://post.baidu.com/top500/9.html
游戏贴吧排行榜 http://post.baidu.com/top500/10.html
教育与人文贴吧排行榜 http://post.baidu.com/top500/11.html
娱乐贴吧排行榜 http://post.baidu.com/top500/12.html
情感贴吧排行榜 http://post.baidu.com/top500/13.html
贴吧家族排行榜
http://post.baidu.com/top500/14.html
帖吧首页--百度特区--百度特区贴吧排行榜
http://post.baidu.com/top500/9.html