weibo词云

JavaScript06

weibo词云,第1张

爬虫部分

首先 解析页面

在关闭js后发现 页面完全是静态的 所以只需要一次请求 就完全加载页面

先拿到page的数量

然后根据page数生成url

定义一个微博类和处理微博的方法draw

以微博为单位把每一页的微博存入list 调用draw方法提取目标字段

定义一个存入方法,本次选择使用mysql

爬取部分完成,接下来先对数据进行去重,按照mid分组即可

定义一个读方法把微博的content部分合起来

再定义一个词云生成方法generate_wc

最终结果展示

本次爬虫只完成了一个原型,理论上可用于任意关键字微博爬取,但还有很多地方可以改进,如微博的过滤。因为数量级不大,也没有使用断点的设计,cookie也是手动添加,没有打验证码的操作。有待改进。

国外产品有tableau;国内产品有bdp个人版,可视化效果如下:

bdp个人版提供了柱状图、条形图、饼图、雷达图、散点图、面积图、GIS地图、漏斗图、词云、矩形树图、旭日图等几十种可视化图表!!!无需编程基础,拖拽数据即可生成统计图表,操作容易。数据实时可视化,及时了解数据动态~