Python漫画爬虫两弹

Python015

Python漫画爬虫两弹,第1张

其实从接触python到现在已经快大半年了,中间看过不少的视频,也跟着别人的教程写过不少东西,但是到现在还感觉没有入门。其实中间也明白是为什么,就好比小学生上课一样,上课认真听,认真做笔记,可是下了课之后就从来不看笔记,也从来不写作业。上课一听就懂,自己一写啥都不会,我相信很多人跟我现在是一样的感觉,所以现在创建这个作业集,一来是想鞭策自己真真正正的写点东西,二来也是希望广大的读者老师能够给我批改批改作业,大家相互学习共同进步。

好了,现在开始进入正题。

但是我在这里还是遇到了一个小问题。比如说

上一步呢我们获取了所有漫画的url保存在了一个list当中,现在我们挨个请求comic_list中的url。

通过观察网页我们发现我们可以从网页上直接看到漫画一共有多少页(page_num),也就是多少张图片

(上一章下一章点开之后会发现跳到了另外一部漫画,所有我们不用在意,这里的一部漫画很短)

正则是用来提取数字。

然后我们一页一页的点击观察url的变化会发现除了第一页的url就是漫画的url外,其他从第二页一直到最后的url都是有规律的

找到规律这就简单了,跟先前构造漫画url差不多。我们构造构造除了第一页外的其他页数的url

保存漫画分两步,首先是创建文件夹,其次是保存。

打开风之动漫拉到最下面我们可以看到在网站的最下面有一个 网站地图

获取漫画每一话的标题和对应的url,保存到字典 comic_chapter_url_dict

最难的部分来了。

首先 通过F12 我们可以看到图片的链接在一个 id="mhpic" 的img标签中

最后希望能够帮助那些比我还小白的小白,也希望各位大神看过之后能够指点一二,不胜感激。

两个爬虫的 GitHub地址

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

对于动漫,大家一定都不陌生,我周围的不少单身码农都是动漫迷。我也是一个资深动漫迷,动漫里面有好多漂亮的小姐姐,比如斗破苍穹的美杜莎,云韵,萧薰儿,天行九歌里面紫女,焰灵姬。当然女孩也有自己的动漫情怀,部门里面还有小姐姐喜欢cosplay呢~~

于是乎我想既然Python无所不能,不如用Python做一个小程序帮小姐姐的头像转成漫画,以后也可以搭讪一下部门的小姐姐,吹嘘一把!哈哈,想想都幸福,于是熬了一夜,总于完成了这个小程序。

1

首先,我们来看一下,漫画和我们的照片的区别,如下图所示:

2

图片转漫画——减少色彩

图片转漫画——减少色彩

有了上述的两个细节的描述,我们接下来的程序,也将围绕着这两点进行展开。

其对应的程序入下图所示:

上述程序中,我们需要注意的一点就是对于输入的图片我们必须要调整图片尺寸为4的整数倍,因为在金字塔下采样的过程中,图片会默认降到原先尺寸的1/4大小,如果无法除尽的话,程序会自动向上取整,这样的话,我们上采样之后,模糊的图片和最初输入的图片在分辨率上会有些许的差别,这样会使后面的程序保存。

3

完成了上面几步之后,我们接着要进行增强轮廓了。我们的程序如下图所示:

上述的程序中,我们利用opencv的自适应阈值函数来分割轮廓,然后将我们的轮廓图片和模糊后的图片按照轮廓图片的数值进行与操作,最终得到我们的漫画图片。

以上便是程序的核心部分,接下来我们用Python里面的著名框架flask程序做一个简单额网站页面。

4

对于flask程序,想必大家或多或少都有一定的了解,我们所使用的flask程序非常简单,我简单的说一下思路和步骤: