相关推荐:《Python教程》
将该安装包解压,然后在打开cmd,并通过cmd进入到该安装包解压后的文件夹目录下。
在该文件目录下输入"python install setup.py",进行beautifulsoup4模块的安装,当安装完成后会看到有"Finished"字样。
安装完成后,在cmd中运行Python,然后输入"from bs4 import BeautifulSoup" 导入该模块,如果成功安装的话将没有任何打印信息,否则会有相应的错误信息打印。
直接通过pip安装
打开cmd,然后在cmd中输入命令“pip install beautifulsoup4”,就可以成功安装beautifulsoup4,不过该版本不一定会是4.4.1,版本会是当前python库中的最新版本。
python是一款应用非常广泛的脚本程序语言,谷歌公司的网页就是用python编写。python在生物信息、统计、网页制作、计算等多个领域都体现出了强大的功能。python和其他脚本语言如java、R、Perl 一样,都可以直接在命令行里运行脚本程序。工具/原料python;CMD命令行;windows操作系统
方法/步骤
1、首先下载安装python,建议安装2.7版本以上,3.0版本以下,由于3.0版本以上不向下兼容,体验较差。
2、打开文本编辑器,推荐editplus,notepad等,将文件保存成 .py格式,editplus和notepad支持识别python语法。
脚本第一行一定要写上 #!usr/bin/python
表示该脚本文件是可执行python脚本
如果python目录不在usr/bin目录下,则替换成当前python执行程序的目录。
3、编写完脚本之后注意调试、可以直接用editplus调试。调试方法可自行百度。脚本写完之后,打开CMD命令行,前提是python 已经被加入到环境变量中,如果没有加入到环境变量,请百度
4、在CMD命令行中,输入 “python” + “空格”,即 ”python “;将已经写好的脚本文件拖拽到当前光标位置,然后敲回车运行即可。
为了做到更优雅,这次抛弃了urllib库的引用,使用requests和beautifulsoup搭配的方式进行
首先构建一个请求并且响应它
然后呢到上找一篇文章试试手,看一下网页源码找到文章的div
以及找到文章内容,仔细看看内容还挺不错哈哈
可以发现所有的内容都在p标签里面,那么接下来就简单多了只需要
f5运行一下
最后使用codecs库来进行文件操作将文章保存到本地
没错使用上requests和bs4之后爬取文章的工作是那么的轻松呢
效果图