用python制作一个搜索引擎

2023-02-28 16:48:01Python011

用python制作一个搜索引擎,第1张

可能帮不上忙。但别的语言有现成的。用java 的 solr做搜索，索引，分词。只需要配置xml，不用写代码。然后加上前端页面搜索就完成了。用python的scrapy可以做爬虫。你的需求我感觉简单做，都不需要索引，直接查数据库。模糊查询还有一个java的nutch，几乎不用写代码，直接爬虫＋索引＋界面一套都实现好了，什么高亮，快照都有，直接用。不知道你能出多少钱？

十几万行吧

首先创建了一个容量为10的的布隆过滤器

然后分别加入 ‘dog’，‘fish’，‘cat’三个对象，这时的布隆过滤器的内容如下：

然后加入‘bird’对象，布隆过滤器的内容并没有改变，因为‘bird’和‘fish’恰好拥有相同的哈希。

最后我们检查一堆对象（’dog’, ‘fish’, ‘cat’, ‘bird’, ‘duck’, ’emu’）是不是已经被索引了。结果发现‘duck’返回True，2而‘emu’返回False。因为‘duck’的哈希恰好和‘dog’是一样的。

主要分割

主要分割使用空格来分词，实际的分词逻辑中，还会有其它的分隔符。例如Splunk的缺省分割符包括以下这些，用户也可以定义自己的分割符。

] ( ) { } | ! , ‘ ” *\n\n s\t &amp? + %21 %26 %2526 %3B %7C %20 %2B %3D — %2520 %5D %5B %3A %0A %2C %28 %29

搜索

好了，有个分词和布隆过滤器这两个利器的支撑后，我们就可以来实现搜索的功能了。

上代码：

Splunk代表一个拥有搜索功能的索引集合

每一个集合中包含一个布隆过滤器，一个倒排词表（字典），和一个存储所有事件的数组

当一个事件被加入到索引的时候，会做以下的逻辑

为每一个事件生成一个unqie id，这里就是序号

对事件进行分词，把每一个词加入到倒排词表，也就是每一个词对应的事件的id的映射结构，注意，一个词可能对应多个事件，所以倒排表的的值是一个Set。倒排表是绝大部分搜索引擎的核心功能。

当一个词被搜索的时候，会做以下的逻辑

检查布隆过滤器，如果为假，直接返回

检查词表，如果被搜索单词不在词表中，直接返回

在倒排表中找到所有对应的事件id，然后返回事件的内容

更复杂的搜索

更进一步，在搜索过程中，我们想用And和Or来实现更复杂的搜索逻辑。

上代码：

如何用python+jsp+mysql设计一个简单的垂直搜索引擎

__init__.py ：让 Python 把该目录当成一个开发包 (即一组模块)所需的文件。这是一个空文件，一般你不需要修改它。

manage.py ：一种命令行工具，允许你以多种方式与该 Django 项目进行交互。键入python manage.py help，看一下它能做什么。你应当不需要编辑这个文件；在这个目录下生成它纯是为了方便。

settings.py ：该 Django 项目的设置或配置。

urls.py：Django项目的URL路由设置。目前，它是空的。

wsgi.py：WSGI web 应用服务器的配置文件。更多细节，查看 How to deploy with WSGI

接下来，你可以修改 settings.py 文件，例如：修改 LANGUAGE_CODE、设置时区 TIME_ZONE

分词过滤器词表事件索引

# 上一篇：WORD是什么意思在电脑里有什么用？

# 下一篇：删除的照片在哪恢复

给您推荐相同类型的内容：

电脑怎么压缩图片
操作方法如下：操作设备：戴尔笔记本电脑操作系统：win10操作程序：PS cs61、首先在电脑上打开PS软件，在PS中打开需要压缩的图片。2、按快捷键把原图层复制，防止后面的操作会对原图层损坏。3、在上方工具栏中选择图像，点击图像大
电脑麦克风怎么使用
您好，方法：1、首先我没找到电脑左下角的开始菜单按钮并点击。2、在开始菜单页面，我们滑动页面找到以w开头的windows系统，然后找到控制面板，并点击进入。3、在控制面板也没让我们找到硬件和声音，并点击进入。4、在硬件和声音页面，我们找到最
做微信公众号，安卓手机css3,字体宋体加载不了,怎么解决？谢谢大家
打开手机中的“设置”，会进入手机相关的信息界面2点击最上方的“显示”后，找到“字体”选项并点击进入3进入“字体”选项后，点击“在线字体”4一般分为免费和付费的字体，直接选择安装即可END方法2：【使用无root的字体app】安装相关程
电脑开机报警是咋回事
电脑开机报警是硬件有故障，至于具体原因要根据警报音来判断：具体可以百度电脑开机警报音大全来对照。建议先排除硬件接触不良导致的。1、先拔掉键盘鼠标外设启动试试，问题依旧重新拔插一下显示数据线，各种电源线。2、有独立显卡显示数据线要连接到独立显
html制作网站怎么实现进入其他子网页
域名就是服务器用的、一个就足矣了、html是网页代码文件，放在服务器的、&lta href="adf.html"&gtsdf&lta&gt就可以跳过去了，前面加上你的域名访问1、新建一个
如何用python写脚本
以Python2.7操作为例：1、首先需要打开电脑桌面，按开始的快捷键，点击Python2.7如图所示的选项进入。相关推荐：《Python入门教程》2、打开之后，开始编辑脚本，脚本第一行一定要写上 #!usrbinpython表示该脚本
网页HTML入门教程和编译器有哪些值得推荐的？
1、w3schools：w3schools是一个免费的在线编程学习网站，它提供了很多关于HTML、CSS、JavaScript、SQL、PHP、Python、jQuery等的入门教程和参考手册，非常适合初学者学习。2、Codecademy：
买个家庭用的组装电脑大概多少钱啊？
具体看你需求。只是看看电影刷刷剧的话，一般2000以内都能解决。如果需要玩游戏，不是3A大作的话，大概3000左右。如果要玩3A大作或者有设计方面的需求，大概7000左右。如果是专业制图或者对电脑性能要求比较高的话，1W+.如果你是家用上上
电脑为什么总是自动断网？
电脑自动断网的解决方法具体操作如下：1.首先找到“计算机”，2.然后再计算机处点击右键，3.然后再点击“设备管理器”4.再然后点击“网络适配器”5.然后点击如图的适配器6.再点击“高级”设置7.再然后点击“连接速度和双工模式”8.最后将“
html格式的书怎么转换成TXT格式?
教你如何将常用的(chm和exe)格式的电子书转换成HTML格式，在转换成TXT格式首先要下载几个软件1. unEbookWorkshop_v1.42（最新的是3.0版本，暂时还没破解版本），可以帮你反编译.exe格式的电子书注意下载下
html中，路径前加“” 与不加“”有区别，请问是为什么？
区别就是选择的路径不同。因为加“”的意思是根目录下的绝对路径，不加“”的意思是当前目录下的相对路径。HTML字符可以用一些代码来表示，代码可以有2种表示方式。即字符代码（命名实体）和数字代码（编号实体）。拓展资料一、HTML超文本
电脑屏幕亮度如何调整
电脑显示屏怎么调整亮度有以下两个方法：方法一：在windows7操作系统中其实进入电脑设置电脑屏幕亮度选项也非常容易，从开始-控制面板，点击系统和安全，点击电源选项，拖动滚动条调节屏幕亮度即可，当然也有更快得方法，直接同时按住Win+X组合
电脑里要把自己的图片换成桌面壁纸怎么换
电脑里要把自己的图片换成桌面壁纸可在桌面背景中设置实现。1、在电脑桌面通过鼠标右键选择“个性化”。2、点击下方的“桌面背景”。3、点击图片位置后面的“浏览”。4、找到自己图片所在文件夹，点击确定。5、勾选自己需要设置为桌面的图片，然后点击
新笔记本如何分区
新笔记本如何分区1、win+x(窗口键+X键)打开菜单，选择磁盘管理2、在打开的磁盘管理上面我们发现有几个盘符，不要去管，找到那个容量数字最大的'硬盘，在上面单击右键，在弹出的菜单选择“压缩卷”3、在输入压缩空间
理解js中是原型链? 如何实现继承?
1.每个构造函数都有一个原型对象 2.每个原型对象都包含一个指向构造函数的指针 3.每个实例都包含一个指向原型对象的指针 4.查找方式是一层层向上查找直至顶层Object.prototype 1.原型链继承 2.借用构造
怎样让手机变成电脑这样做
1、首先将无线鼠标、无线键盘和蓝牙耳机的蓝牙开关开启。2、接着在我们的手机桌面上找到设置并点击它。3、然后点击蓝牙。4、接着点击开启蓝牙开关。5、然后点击我们所搜索到的设备。6、最后把所有的式蓝牙设备连接起来就可以了。这
手机的照片传到电脑上怎么弄？
如果您使用的是华为手机，以华为Mate 40手机为例：1、通过 USB 数据线连接手机和电脑。待电脑上的驱动程序自动安装完成后，点击此电脑（计算机），会出现以手机命名的盘符。2、从（手机）状态栏下滑出通知面板（可继续下滑），点击点击查看更多
笔记本电脑太老了导致好卡，应该换什么零件能让它提高速度？
导致电脑卡的原因有很多，可能是硬件问题也可能是系统设置问题，如果需要换零件提高速度，建议以下几点。接下来就说笔记本太卡几种比较好用的解决方法：1、清灰，出风口被灰尘堵死，散热不良，导致温度过高，性能降低。清理之后可以外加抽风器，降低温度提
苹果手机怎么投屏到电脑上
苹果手机投屏到电脑的方法如下：工具原料：iPhone13、ios15.2、快投屏2.1。1、打开电脑上的快投屏软件，然后确保需要投屏的电脑和手机在同一网络环境。2、然后从右上角下滑手机。3、进入后选择屏幕镜像。4、然后选择需要投屏的
golang中bufio包
一、介绍go标准库中的bufio 最近用golang写了一个处理文件的脚本，由于其中涉及到了文件读写，开始使用golang中的 io 包，后来发现golang 中提供了一个bufio的包，使用这个包可以大幅提高文件读写的效率，于是在网上
求电脑大型端游排行榜，有哪些比较靠前的？
电脑大型端游排行榜为：《逆水寒》、《剑侠情缘网络版叁》、《星际战甲》、《暗黑破坏神Ⅲ》、《刀塔2》，比较靠前的有《逆水寒》、《剑侠情缘网络版叁》、《星际战甲》。1、《逆水寒》《逆水寒》是由杭州网易雷火科技有限公司开发的一款武侠题材电脑客
删除的照片在哪恢复
想要恢复删除的照片，可以通过手机最近删除找回，但是大部分情况，都是我们已经彻底删除了手机照片，那么这个时候，我们就要借助第三方来完成数据恢复了。删除了的手机照片是可以恢复的，根据数据的删除和原理，被删除的手机照片其实还是存在于我们手机中的
学环境设计用什么电脑好-环境设计电脑推荐
大一新生已经陆续开学啦，有小伙伴们是环境设计专业的，想要购买一款电脑，预算在1w左右，其实环境设计专业的同学用的最多的就是设计？图片编辑以及渲染等操作，我为大家分享几款环境设计电脑推荐，欢迎前来查看。1.联想拯救者Y7000P
go语言支持开发桌面级应用吗？
go 可以开发桌面应用，但并不是很舒适。可以使用的GUI库有：1、goqt，LiteIDE作者出品，Go和QT的绑定，还未发布2、go.uik，纯Go实现的并发UI工具3、walk，Windows Application Library K
如何把酷家乐的视频引入css做背景图
video {position : fixedright : 0bottom : 0min-height:100%min-width : 100%z-index : -100}source {min-height:100%min-width
js 怎样获取周和日期的时间
&ltscript language="javascript"&gt这个方法将取得某年(year)第几周(weeks)的星期几(weekDay)的日期function getXDate(year,we
电脑上怎么下载我的世界
1、直接在应用商城里搜索“我的世界”，进入网易我的世界官网2、接着，点击立即下载端游按钮3、下载完毕之后点击安装即可完成安装4、启动客户端，找的合适的版本进行游戏5、下载完毕之后点击安装即可完成安装，启动客户端，找的合适的版本进行游戏。电
电脑给我们的生活带来什么便利
电脑给人们的生活很多方面都带来了方便，无论是科技，医学，教育，还是办公都里不开电脑。在生活中可以通过可以通过电脑来进行交流，可以足不出户的查看新闻，随时都可以观看自己喜欢的影片，可以用来学习购物等等。在教育方面它的作用也是比较大的，现在很
十万个为什么怎么下到电脑上来看
http:book.gougou.comsearch?search=%e5%8d%81%e4%b8%87%e4%b8%aa%e4%b8%ba%e4%bb%80%e4%b9%88&ampty=0&ampsortby=8&
电脑怎样开WiFi
目前，我们使用的电脑主要分为两种，一种是笔记本电脑，而另一种便是台式电脑。笔记本电脑连接WiFi时比较方便，只要点击右下角的信号符号进行连接便可以了。而台式电脑连接WiFi的步骤则要比笔记本多几步。台式电脑网络连接WiFi的方法步

推荐阅读

热门文章

最新发布

标签列表

用python制作一个搜索引擎

给您推荐相同类型的内容：