weibo词云

JavaScript012

weibo词云,第1张

爬虫部分

首先 解析页面

在关闭js后发现 页面完全是静态的 所以只需要一次请求 就完全加载页面

先拿到page的数量

然后根据page数生成url

定义一个微博类和处理微博的方法draw

以微博为单位把每一页的微博存入list 调用draw方法提取目标字段

定义一个存入方法,本次选择使用mysql

爬取部分完成,接下来先对数据进行去重,按照mid分组即可

定义一个读方法把微博的content部分合起来

再定义一个词云生成方法generate_wc

最终结果展示

本次爬虫只完成了一个原型,理论上可用于任意关键字微博爬取,但还有很多地方可以改进,如微博的过滤。因为数量级不大,也没有使用断点的设计,cookie也是手动添加,没有打验证码的操作。有待改进。

js改变字体的颜色是用的“color”属性,xmlHttp.open("GET",URL,true)是设置ajax的请求地址和请求方式,不能去掉。

1、新建html文档,在body标签中添加p标签,标签内容是“演示文本”,这时字体的默认颜色是黑色的:

2、为了方便获取到这个p标签,给p标签添加上id,这里以“demo”为例:

3、添加script标签,在js标签中输入代码“document.getElementById('demo').style.color = '#f00'”,这样文本的字体颜色就变成了红色: