方法/步骤
在做爬取数据之前,你需要下载安装两个东西,一个是urllib,另外一个是python-docx。
然后在python的编辑器中输入import选项,提供这两个库的服务
请点击输入图片描述
urllib主要负责抓取网页的数据,单纯的抓取网页数据其实很简单,输入如图所示的命令,后面带链接即可。
请点击输入图片描述
抓取下来了,还不算,必须要进行读取,否则无效。
请点击输入图片描述
5
接下来就是抓码了,不转码是完成不了保存的,将读取的函数read转码。再随便标记一个比如XA。
请点击输入图片描述
6
最后再输入三句,第一句的意思是新建一个空白的word文档。
第二句的意思是在文档中添加正文段落,将变量XA抓取下来的东西导进去。
第三句的意思是保存文档docx,名字在括号里面。
请点击输入图片描述
7
这个爬下来的是源代码,如果还需要筛选的话需要自己去添加各种正则表达式。
python爬图片报错 [Errno 13] Permission denied: 'D:\\python\\test2',是代码输入错误造成的,解决方法如下:
1、首先在网页上抓取图片时open函数有时会报错,如图。
2、然后,根据提示找到错误代码处进行查看,是open函数出了问题。
3、再仔细看这个部分报错的文件名称,发现有个*号,问题就找出来了。
4、使用.replace('*','')将*号替换,就可以了。
5、然后再次运行该代码,最后,图片抓取完成,就不会再报错了。