1、通过Chrome浏览器检查元素。
2、获取单个页面HTML文本。
3、用正则表达式解析出所需要的信息并存入列表。
4、将列表中的信息存成csv文件。
5、利用start参数批量爬取其他页的短评。
pdfplumber 是一个开源 python 工具库-,可以方便地获取 pdf 的各种信息,包括文本、表格、图表、尺寸等。完成我们本文的需求,主要使用 pdfplumber 提取 pdf 表格数据。
python 中还有很多库可以处理 pdf,比如 PyPDF2、pdfminer 等,本文选择pdfplumber 的原因在于能轻松访问有关 PDF 的所有详细信息,包括作者、来源、日期等,并且用于提取文本和表格的方法灵活可定制。大家可以根据手头数据需求,再去解锁 pdfplumber 的更多用法。
可将很多url放在一个列表中,然后用循环语句遍历。代码如下:urls=[url1,url2,url3]
for u in urls:
requests.get(u)
txt=r.text