如何用python爬取一个网站的评论数据

Python012

如何用python爬取一个网站的评论数据,第1张

假如一个商品全部评论数据为20w+ 默认好评15w+ 这15w+的默认好评就会不显示出来。那么我们可以爬取的数据就只剩下5w+ 接下来 我们就分别爬取全部好评 好评 中评 差评 追加评价 但是就算这些数据加起来 也仍然不足5w+ 上文的博主猜测可能有两点原因:

1.出现了数据造假,这个数字可能是刷出来的

2.真的有这么多的评论,但这时候系统可能只显示其中比较新的评论,而对比较旧的评论进行了存档。

在博主理论的基础上我也进行了很多相应的测试,就是说无论如何 我们最终都爬不到剩下的5w条数据 只能爬取一部分但这一部分数据也将近上千多条 如果有小伙伴能爬取下更多欢迎补充。

整体思路

全部评价 好评 中评 差评 追加评价的网址都是涉及到一定的参数的 只要修改网页的数据 在遍历页码 即可完成全部的爬取。

是为了从互联网上抓取对于我们有价值的信息。

比如说:访问天猫的网站,搜索对应的商品,然后爬取它的评论数据,可以作为设计前期的市场调研的数据,帮助很大。

在爬虫领域,Python几乎是霸主地位,虽然C++、Java、GO等编程语言也可以写爬虫,但Python更具优势,不仅拥有优秀的第三方库,还可以为我们做很多的事情,比如:收集数据、数据储存、网页预处理等。