一、分析网页,网址架构
二、码代码并测试
三、下载并用手机打开观察结果
一、分析网页,网址架构
先随便点击首页上的一篇小说,土豆的--元尊,发现在首页上面有如下一些信息: 作者,状态,最新章节,最后更新时间,简介,以及下面就是每一章的章节名,点击章节名就可以跳转到具体的章节。
然后我们按F12,进入开发者模式,在作者上面点击右键--“检查”,可以发现这些信息都是比较正常地显示。
再看章节名称,发现所有的章节都在<div id="list">下面的 dd 里面,整整齐齐地排列好了,看到这种情形,就像点个赞,爬起来舒服。
分析完首页,点击章节名称,跳转到具体内容,发现所有的正文都在 <div id="content">下面,巴适的很
那么现在思路就是,先进入小说首页,爬取小说相关信息,然后遍历章节,获取章节的链接,之后就是进入具体章节,下载小说内容。
OK,开始码代码。
二、码代码并测试
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
2.先构建第一个函数,用于打开网页链接并获取内容。
使用的是requests 包的request.get ,获取内容之后用‘utf-8’ 进行转码。
这里我之前有个误区就是,以为所有的网站都是用 'utf-8' 进行转码的,但是实际上有些是用'gbk' 转码的,如果随便写,就会报错。
百度之后,只要在console 下面输入 ‘document.charset’ 就可以获取网站的编码方式。
代码。笔趣阁中的病毒本质上是在计算机程序中插入的破坏计算机功能或者数据的代码,能够影响计算机的使用。笔趣阁是一个电子小说网站,收录了很多玄幻小说,修真小说,都市小说等不同类型的小说。一般在电脑端制作会比较容易,本章讲的是在电脑端制作的方法。 以下的例子是使用CSS规则来自作书源, https://www.jianshu.com/p/58c61123b2bd笔趣阁 https://www.ybiquge.com/{ "bookSourceName": "笔趣阁", "bookSourceUrl": " http://www.ybiquge.com/ ", "exploreUrl": "", "ruleBookInfo": { "author": "[property =image]@content", "intro": "[property =category]@content&&[property =latest_chapter_name]@content", "name": "[property =update_time]@content" }, "ruleContent": { "content": "id.content@textNodes" }, "ruleExplore": {}, "ruleSearch": { "author": "span.2@text", "bookList": "class.result-item", "bookUrl": "a.1@href", "coverUrl": "img@src", "intro": "p.0@text", "kind": "span.4@text", "lastChapter": "a.2@text", "name": "a.1@text", "wordCount": "span.6@text" }, "ruleToc": { "chapterList": "id.list@dd", "chapterName": "a@text", "chapterUrl": "a@href" }, "searchUrl": " http://www.ybiquge.com/search.php?q= {{key}}&p={{page}}", } 搜索规则searchUrl:搜索词由{{key}}来标识,页码由{{page}}表示章节目录规则ruleToc:chapterList章节列表,chapterName章节名称,chapterUrl内容链接 本章只是大概讲述了一下如何制作简单书源,更多复杂规则,我们后面会慢慢来,有兴趣的,可以先按这个方法先玩一下,有不明白,欢迎留言,共同进步。