最新发布

# 2023-02-09
鸿蒙OS2.0九大新功能，详细玩机技巧
鸿蒙OS适配后，相比EMUI新增了九大功能！赶快保存或者手机搜索玩机技巧。一、HarmonyOs 桌面提供了服务卡片、大文件夹与小艺建议,让操作更便捷、桌面更美观。服务卡片:无需打开应用,可快速预览应用信息或使用常用功能。将不同
# 2023-02-09
HarmonyOs 网络安全配置，允许应用使用明文流量传输
"deviceConfig": { "default": { "process": "xxx", "directLaunch":
# 2023-02-09
华为三款新机上市：预装HarmonyOS系统，但不支持5G，3699元起
大家都知道现在的手机市场主要还以5G手机为主，但深受芯片限制的华为也不得不再把4G手机拿出来“炒冷饭”。今日零点，华为多款4G新机正式开售，分别是华为Mate40 Pro 4G、Mate40E 4G以及nova8 Pro 4G。在5G
# 2023-02-09
鸿蒙抄袭安卓？看这一篇就够了
01什么是 AOSP ？很多人都说鸿蒙是 AOSP 套壳，那么我们首先得明白什么是 AOSP？ AOSP 是"Android Open Source Project&
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
荣耀机型开启HarmonyOS 2内测，另有17款华为机型即将启动
目前，可以说华为自主研发的鸿蒙HarmonyOS系统正在如火如荼地开展升级及测试工作，而作为华为曾经的子品牌荣耀品牌的机型很多小伙伴都在期待获得HarmonyOS 2的测试，而最新消息来了，荣耀机型开启HarmonyOS内测了。根据最
# 2023-02-09
HarmonyOS技术特性
最近,随着华为的一批电子设备升级鸿蒙系统,鸿蒙系统的热度也逐渐升高。这里分享一下鸿蒙系统的定位及底层特性,让人们比较深入的认识一下鸿蒙系统。 HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。
# 2023-02-09
4月27日华为正式推送鸿蒙系统升级。鸿蒙OS系统你真的了解吗？
4月27日晚，华为向部分机型推送了鸿蒙0S系统小规模公测升级，据可靠消息称，华为将在6月推送大规模正式公测升级。很多人收到了华为Harmony OS的推送，根据各个机型的不同，更新包大小也不相同，有的是2.87 GB，有
# 2023-02-09
harmonyos是什么意思
harmonyos即鸿蒙系统的意思，正确写法为harmony os。harmony os鸿蒙系统是华为公司在2019年8月9日于东莞举行华为开发者大会（HDC.2019）上正式发布的操作系统。鸿蒙系统面向全场景的分布式操作，将人、设备、
# 2023-02-09
p50HarmonyOS新桌面有哪些功能？
HarmonyOS 提供服务卡片、大文件夹和小艺建议，让您把重要信息放在眼前，操作更快捷，屏幕也更个性化。P50手机系统为HarmonyOS 2，具体功能如下：状态栏：通过顶部状态栏查看手机状态、通知消息。大文件夹：无需展开文件夹，可一步打

[内附完整源码和文档] 基于python的新闻检索系统

2023-02-24 22:52:02Python018

[内附完整源码和文档] 基于python的新闻检索系统,第1张

1 系统介绍

1.1 系统需求

新闻检索系统：定向采集不少于 4 个中文社会新闻网站或频道，实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene，Goose 等成熟开源框架。

1.2 系统思路与框架

本系统总体的实现思路如图 1 所示：

一个完整的搜索系统主要的步骤是：

对新闻网页进行爬虫得到语料库

抽取新闻的主体内容，得到结构化的 xml 数据

内存式单遍扫描索引构建方法构建倒排索引，供检索模块使用

用户输入查询，得到相关文档返回给用户

2 设计方案

2.1 新闻爬取

2.1.1 算法简述

该模块针对搜狐，网易，腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构，设计了不同的爬取模式。由于网站架构两两相似，以下选取两种类型的典型代表进行介绍：

（1）搜狐新闻

搜狐新闻除正常主页外，存在隐藏的列表式新闻页，如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。

（2）网易新闻

可以将网易新闻及腾讯新闻归结为一般类型的新闻主页，我们采用了自新闻主页开始的广度优先的递归爬取策略。注意到新闻的正文页往往是静态网页.html，因此，我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来，在爬取到一定量时，进行一次去重。

对于一些不是新闻的错分网页，容错处理即通过检查新闻正文标签

时会被剔除。

新闻正文页中我们重点关注内容，时间，评论获取。

2.1.2 创新点

实现了对新闻网页动态加载的评论进行爬取，如搜狐新闻评论爬取

未借助开源新闻爬取工具，自己实现了对新闻标题，正文，时间，评论内容，评论数目的高效爬取

2.2 索引构建

分词，我们借助开源的 jieba 中文分词组件来完成，jieba 分词能够将一个中文句子切成一个个词项，这样就可以统计 tf, df 了

去停用词，去停词的步骤在 jieba 分词之后完成

倒排记录表存储，词典用 B-树或 hash 存储，倒排记录表用邻接链表存储方式，这样能大大减少存储空间

倒排索引构建算法使用内存式单遍扫描索引构建方法（SPIMI），就是依次对每篇新闻进行分词，如果出现新的词项则插入到词典中，否则将该文档的信息追加到词项对应的倒排记录表中。

2.3 检索模块

2.3.1 检索模式

（1）关键词检索

查询即根据用户输入的关键字，返回其相应的新闻。首先根据用户的查询进行 jieba 分词，记录分词后词项的数量以字典形式进行存储。

完整的源码和详细的文档，上传到了 WRITE-BUG技术共享平台上，需要的请自取：

https://www.write-bug.com/article/3122.html

需求：

从门户网站爬取新闻，将新闻标题，作者，时间，内容保存到本地txt中。

用到的python模块： import re # 正则表达式

import bs4 # Beautiful Soup 4 解析模块

import urllib2 # 网络访问模块

import News #自己定义的新闻结构

import codecs #解决编码问题的关键，使用codecs.open打开文件

import sys #1解决不同页面编码问题

其中bs4需要自己装一下，安装方法可以参考：Windows命令行下pip安装python whl包

程序：

#coding=utf-8

import re # 正则表达式

import bs4 # Beautiful Soup 4 解析模块

import urllib2 # 网络访问模块

import News #自己定义的新闻结构

import codecs #解决编码问题的关键，使用codecs.open打开文件

import sys #1解决不同页面编码问题

reload(sys) # 2

sys.setdefaultencoding('utf-8') # 3

# 从首页获取所有链接

def GetAllUrl(home):

html = urllib2.urlopen(home).read().decode('utf8')

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+'

links = soup.find_all('a', href=re.compile(pattern))

for link in links:

url_set.add(link['href'])

def GetNews(url):

global NewsCount,MaxNewsCount #全局记录新闻数量

while len(url_set) != 0:

try:

# 获取链接

url = url_set.pop()

url_old.add(url)

# 获取代码

html = urllib2.urlopen(url).read().decode('utf8')

# 解析

soup = bs4.BeautifulSoup(html, 'html.parser')

pattern = 'http://\w+\.baijia\.baidu\.com/article/\w+' # 链接匹配规则

links = soup.find_all('a', href=re.compile(pattern))

# 获取URL

for link in links:

if link['href'] not in url_old:

url_set.add(link['href'])

# 获取信息

article = News.News()

article.url = url # URL信息

page = soup.find('div', {'id': 'page'})

article.title = page.find('h1').get_text() # 标题信息

info = page.find('div', {'class': 'article-info'})

article.author = info.find('a', {'class': 'name'}).get_text() # 作者信息

article.date = info.find('span', {'class': 'time'}).get_text() # 日期信息

article.about = page.find('blockquote').get_text()

pnode = page.find('div', {'class': 'article-detail'}).find_all('p')

article.content = ''

for node in pnode: # 获取文章段落

article.content += node.get_text() + '\n' # 追加段落信息

SaveNews(article)

print NewsCount

break

except Exception as e:

print(e)

continue

else:

print(article.title)

NewsCount+=1

finally:

# 判断数据是否收集完成

if NewsCount == MaxNewsCount:

break

def SaveNews(Object):

file.write("【"+Object.title+"】"+"\t")

file.write(Object.author+"\t"+Object.date+"\n")

file.write(Object.content+"\n"+"\n")

url_set = set() # url集合

url_old = set() # 爬过的url集合

NewsCount = 0

MaxNewsCount=3

home = 'http://baijia.baidu.com/' # 起始位置

GetAllUrl(home)

file=codecs.open("D:\\test.txt","a+") #文件操作

for url in url_set:

GetNews(url)

# 判断数据是否收集完成

if NewsCount == MaxNewsCount:

break

file.close()

新闻文章结构

#coding: utf-8

# 文章类定义

class News(object):

def __init__(self):

self.url = None

self.title = None

self.author = None

self.date = None

self.about = None

self.content = None

对爬取的文章数量就行统计。

新闻分词模块信息索引

# 上一篇：go语言编译器有哪些官网

# 下一篇：c语言乘法计算