电脑疫情新闻怎样保存下来

电脑教程017

电脑疫情新闻怎样保存下来,第1张

如今各大网站的反爬机制已经可以说是到了丧心病狂的程度,比如大众点评的字符加密、微博的登录验证等。相比较而言,新闻网站的反爬机制就要稍微弱一点。因此今天以新浪新闻为例,分析如何通过Python爬虫按关键词抓取相关的新闻。

首先,如果从新闻直接进行搜索,你会发现其内容最多显示20页,因此我们要从新浪的首页进行搜索,这样才没有页数的限制。

在IE浏览器中,我们可以通过浏览器中的“文件”下拉菜单中的“另存为”来将当前的页面保存。保存的时候我们在“文件名”框中键入网页的文件名以后,在“保存类型”中我们可以选择“网页,html”,这样可以完整的保存网页。另一种保存的类型就是“网页,全部”,这个选项就更强大了,可以将当前页面中的图像、框架和样式表均保存,并将当前页面显示图像文件一同下载并保存到一个“xxx.file”文件下。Internet Explorer将自动修改网页中的连接,实现离线浏览。