python怎样爬取网站目录结构

Python0144

python怎样爬取网站目录结构,第1张

抓取每一页的所有a标签,采集所有href属性,分离域名,把此网站域名下的地址标记为采集入库条件,然后计算第一次采集到的地址的hash,如果hash重复,则不入库,否则入库再迭代二次采集,直到所有href的hash都复为结束条件,程序则认为数据库中已采集到此域下的所有地址,即可以开始抓站

SimpleHTTPServer:包含执行GET和HEAD请求的SimpleHTTPRequestHandler类。

通过下面命令我们创建了HTTP服务,默认使用8000端口号监听。如果文件夹下有index.html,那么这个文件就会成为一个默认页,如果没有这个文件,那么,目录列表就会显示出来。

1、点击开始菜单,输入cmd,在查询出的结果中点击命令提示符。

2、打开命令提示符窗口,输入命令piplist,按下回车键,可以查询出当前windows系统所有安装过的python库。

3、双击桌面的此电脑图标,在打开的窗口中点击C盘。

4、进入C盘目录后,依次找到你的python安装目录,一般在ProgramFiles下的python目录中,进入python目录后进入Lib/site-packages目录,可以看到很多文件夹,这些文件夹就是你已经安装过的python库。