最新发布

# 2023-02-09
华为手机开机显示Harmony OS怎么解决
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
LIO一AN00是怎样截滚动长屏？
一、使用隔空手势截取屏幕1.进入设置 &gt辅助功能 &gt智慧感知 &gt隔空截屏，确保隔空截屏开关已开启。2.将手掌朝向屏幕，放在在距离屏幕半臂的位置稍作停顿，待屏幕上方出现后小手后，握拳截屏。二、指关节截取屏
# 2023-02-09
harmonyos是什么
harmonyos是华为鸿蒙系统。鸿蒙OS是华为公司开发的一款基于微内核、耗时10年、4000多名研发人员投入开发、面向5G物联网、面向全场景的分布式操作系统。鸿蒙的英文名是HarmonyOS，意为和谐。不是安卓系统的分支或修改而来的。与
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
华为手机开机显示Harmony OS是什么情况?
如果您的手机开机进入Harmony OS界面、EMUI界面、FASTBOOT界面，可能因为如下原因：（1）可能是无意按到了开机键+音量键的组合键进入了特殊模式，建议您长按电源键15秒以上，尝试强制重启手机，即可正常进入手机桌面。温馨提醒
# 2023-02-09
鸿蒙HarmonyOS系统用户已突破3000万，跻身第三大操作系统？
华为HarmonyOS操作系统用户已经突破3000万，计划2021年底突破三亿台设备北京时间7 月 8 日，华为官方透露，华为 Harmony OS 2.0 用户已经达到 3000 万。新系统发布仅一个多月，相当于每天有一百
# 2023-02-09
HarmonyOS赋能HUAWEI WATCH 3系列：隐私安全再升级
当前智能可穿戴设备已经慢慢渗透到我们的生活当中，有更多人愿意借助可穿戴设备来监测身体的各项数据与指标，从而更好的保护自己的身体。而华为作为可穿戴设备的头部厂商，凭借优质的硬件，丰富的软件及生态服务，受到了广大消费者的青睐。根据IDC《中国
# 2023-02-09
harmonyos声音调到最大还是小怎么办
如果您的手机外放声音小，可以通过以下方法进行排查处理：1.请确保喇叭没有被遮挡请确保设备使用匹配的保护壳、保护套，避免喇叭的出音口位置被遮挡。2.更换播放音源或者播放APP后尝试3.提前备份好数据(QQ、微信等第三方应用需单独备份)更新版本
# 2023-02-09
荣耀桌面时间日期天气显示怎么设置
荣耀桌面时间日期天气显示设置步骤为：操作环境：荣耀手机、HarmonyOS2.0.0。1、首先在打开的荣耀手机桌面中，长按手机桌面空白处。2、然后点击页面下方的窗口小工具。3、进入窗口小工具，点击天气。4、最后点击显示时间和天气的样式，
# 2023-02-09
harmonyos可以玩原神吗
harmonyos可以玩原神。根据天眼查显示，HarmonyOS2系列，现已推送到多款机型中将正在游玩的《原神》一键从Mate40Pro转到MatePad上。《原神》是由上海米哈游制作发行的一款开放世界冒险游戏。华为于7月12日宣布，H

[内附完整源码和文档] 基于python的新闻检索系统

2023-04-30 04:46:01Python043

[内附完整源码和文档] 基于python的新闻检索系统,第1张

1 系统介绍

1.1 系统需求

新闻检索系统：定向采集不少于 4 个中文社会新闻网站或频道，实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene，Goose 等成熟开源框架。

1.2 系统思路与框架

本系统总体的实现思路如图 1 所示：

一个完整的搜索系统主要的步骤是：

对新闻网页进行爬虫得到语料库

抽取新闻的主体内容，得到结构化的 xml 数据

内存式单遍扫描索引构建方法构建倒排索引，供检索模块使用

用户输入查询，得到相关文档返回给用户

2 设计方案

2.1 新闻爬取

2.1.1 算法简述

该模块针对搜狐，网易，腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构，设计了不同的爬取模式。由于网站架构两两相似，以下选取两种类型的典型代表进行介绍：

（1）搜狐新闻

搜狐新闻除正常主页外，存在隐藏的列表式新闻页，如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。

（2）网易新闻

可以将网易新闻及腾讯新闻归结为一般类型的新闻主页，我们采用了自新闻主页开始的广度优先的递归爬取策略。注意到新闻的正文页往往是静态网页.html，因此，我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来，在爬取到一定量时，进行一次去重。

对于一些不是新闻的错分网页，容错处理即通过检查新闻正文标签

时会被剔除。

新闻正文页中我们重点关注内容，时间，评论获取。

2.1.2 创新点

实现了对新闻网页动态加载的评论进行爬取，如搜狐新闻评论爬取

未借助开源新闻爬取工具，自己实现了对新闻标题，正文，时间，评论内容，评论数目的高效爬取

2.2 索引构建

分词，我们借助开源的 jieba 中文分词组件来完成，jieba 分词能够将一个中文句子切成一个个词项，这样就可以统计 tf, df 了

去停用词，去停词的步骤在 jieba 分词之后完成

倒排记录表存储，词典用 B-树或 hash 存储，倒排记录表用邻接链表存储方式，这样能大大减少存储空间

倒排索引构建算法使用内存式单遍扫描索引构建方法（SPIMI），就是依次对每篇新闻进行分词，如果出现新的词项则插入到词典中，否则将该文档的信息追加到词项对应的倒排记录表中。

2.3 检索模块

2.3.1 检索模式

（1）关键词检索

查询即根据用户输入的关键字，返回其相应的新闻。首先根据用户的查询进行 jieba 分词，记录分词后词项的数量以字典形式进行存储。

完整的源码和详细的文档，上传到了 WRITE-BUG技术共享平台上，需要的请自取：

https://www.write-bug.com/article/3122.html

python爬虫就是模拟浏览器打开网页，获取网页中想要的那部分数据。利用爬虫我们可以抓取商品信息、评论及销量数据；可以抓取房产买卖及租售信息；可以抓取各类职位信息等。

爬虫：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

（推荐教程：Python入门教程）

通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

python爬虫能做什么？

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地，进而提取自己需要的数据存放起来使用。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

爬取知乎优质答案，为你筛选出各话题下最优质的内容。

抓取淘宝、京东商品、评论及销量数据，对各种商品及用户的消费场景进行分析。

抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。

爬取各类职位信息，分析各行业人才需求情况及薪资水平。

爬虫的本质：

爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

爬虫新闻分词网页数据

# 上一篇：python爬虫：带你了解爬虫应当怎么做

# 下一篇：只有ie浏览器支持css其他浏览器不支持