【Step1】获取html:
import requests
r = requests.get(‘’)
html = r.text#这样3行代码就把网页的html取出来了
【Step2】解析:
html用你喜欢的方式解析就可以了,牛逼的话可以直接正则。
from bs4 import BeautifulSoup
soup = BeautifulSoup(html) #这样2行就可以很方便的操作soup解析了
或者专业点的用scrapy爬虫框架,默认用xpath解析。
Python可以做什么?1)网站后端程序员:使用它单间网站,后台服务比较容易维护。如:Gmail、Youtube、知乎、豆瓣
2)自动化运维:自动化处理大量的运维任务
3)数据分析师:快速开发快速验证,分析数据得到结果
4)游戏开发者:一般是作为游戏脚本内嵌在游戏中
5)自动化测试:编写为简单的实现脚本,运用在Selenium/lr中,实现自动化。
6)网站开发:借助django,flask框架自己搭建网站。
7)爬虫获取或处理大量信息:批量下载美剧、运行投资策略、爬合适房源、系统管理员的脚本任务等。