首先 解析页面
在关闭js后发现 页面完全是静态的 所以只需要一次请求 就完全加载页面
先拿到page的数量
然后根据page数生成url
定义一个微博类和处理微博的方法draw
以微博为单位把每一页的微博存入list 调用draw方法提取目标字段
定义一个存入方法,本次选择使用mysql
爬取部分完成,接下来先对数据进行去重,按照mid分组即可
定义一个读方法把微博的content部分合起来
再定义一个词云生成方法generate_wc
最终结果展示
本次爬虫只完成了一个原型,理论上可用于任意关键字微博爬取,但还有很多地方可以改进,如微博的过滤。因为数量级不大,也没有使用断点的设计,cookie也是手动添加,没有打验证码的操作。有待改进。
js改变字体的颜色是用的“color”属性,xmlHttp.open("GET",URL,true)是设置ajax的请求地址和请求方式,不能去掉。
1、新建html文档,在body标签中添加p标签,标签内容是“演示文本”,这时字体的默认颜色是黑色的:
2、为了方便获取到这个p标签,给p标签添加上id,这里以“demo”为例:
3、添加script标签,在js标签中输入代码“document.getElementById('demo').style.color = '#f00'”,这样文本的字体颜色就变成了红色: