python倒排索引（Inverted index）

2023-02-26 02:23:01Python019

python倒排索引（Inverted index）,第1张

s = raw_input()

lines = s.split('\n')

dictlines = lines[:100]

mydict = {}

# read

for i,line in enumerate(dictlines ):

for word in line.split():

mydict.setdefault(word,[]).append(i + 1)

# print indices

for word in mydict.keys():

print "%s: %s" % (word,", ".join(map(str,sorted(mydict[word]))))

def andSearch(words_list):

global mydict

a = set(range(1,101))

for word in words_list:

a = a.intersection(set(mydict[word]))

return a

def orSearch(words_list):

global mydict

a = set([])

for word in words_list:

a = a.union(set(mydict[word]))

return a

# Query

index = 100

u = lines[index]

while index < len(lines):

words_list = u.split()

if ":" in u:

if words_list[0] == "OR:":

a = orSearch(words_list)

else:

if words_list[0] == 'AND:':

words_list = words_list[1:]

a = andSearch(words_list)

if not a:

print ", ".join(map(str,list(a)))

else:

print "None"

index += 1

大致思想就是这样。。。。。。。。

cdays-3-test.txt 内容:

1 key1

2 key2

3 key1

7 key3

8 key2

10 key1

14 key2

19 key4

20 key1

30 key3

读取某一简单索引文件cdays-3-test.txt，其每行格式为文档序号 关键词，现需根据这些信息转化为倒排索引，即统计关键词在哪些文档中，格式如下：包含该关键词的文档数关键词 =>文档序号。其中，原索引文件作为命令行参数传入主程序，并设计一个collect函式统计 "关键字<－>序号" 结果对，最后在主程序中输出结果至屏幕。

Python手写Lucene倒排索引小功能，这里为啥使用字典树来存储term呢？其实主要是为了节省空间，比如"app"与"apple"如果用哈希表来存储，则会分别存储"app"与"apple"，而如果使用字典树则只会存储"a,p,p,l,e"这5个字母，存储空间节省了一些，试想一下，如果terms很多的情况下，字典树的这种方式会节省很多的存储空间；当然在字典树中去查找一个term，通常会比在哈希表中查找term耗时，字典树的查找时间复杂度为O(len(term))。

字典索引关键词文档序号

# 上一篇：如何基于docker构建和发布Python应用程序？

# 下一篇：python设置文件权限答案全全给你奉上

给您推荐相同类型的内容：

如何在sublime Text 上安装自动补全插件jedi
首先当然要安装Sublime Text.不是吗然后进入正题，惊醒jedi的安装了，有以下两个方式:用组合键ctrl+shift+p,打开Package Control面板输入install package,进入面板Type jedi and
python服务器一个客户端转发到另一个客户端
服务器端创建2个soket对象分别绑定不同的端口用于和A,B连接，然后将recv到A的数据send给B。python实现一个客户端与服务端的通信 Socket对象方法: 服务端: 使用socket函数来创建一个socket对象,并设置一个
python16进制打印显示颜色
您问的是python16进制打印显示颜色吗？显示顺序：显示方式，前景颜色，背景颜色，顺序非固定，但尽量按默认书写方式，也可以在input中输出使用，格式：print33显示方式；前景颜色；背景颜色m33.0m'16进制，在
python中字典的值可以是中文吗？
可以是中文的......字符串的“值”需要加引号dic[u'姓名']=u'浙江'或者dic['姓名']=‘浙江’（推荐第一种写法，加 u''）方法如图：Pyth
python中button跳转下一页
python中button跳转下一页主要是通过一个按钮进行跳转，在点击该按钮时关闭当前界面，打开新界面。主要函数doClose 按钮触发的函数QU主要代码：import wximport pymysql,time,threadingfrom
python如何输入矩阵
使用numpy创建矩阵有2种方法，一种是使用numpy库的matrix直接创建，另一种则是使用array来创建。首先导入numpy：（1）import numpy（2）from numpy import *（3）import numpy a
python正则表达式怎么匹配多个数字
1. 首先 p.search(s) 只会找第一个匹配的字符串2. 其次 p.findall(s) 会记录匹配的组，而(19|20) 代表一个组，应该改成(?:19|20)以下代码可以满足你的要求：# -*- coding: utf-8 -*
python向类添加方法
设想一种情况，有一个类，随着应用需求的增加，类中方法需要不断增加。当然也可以用继承来拓展方法。但python其实可以直接向类中添加方法。主要实现方法是使用装饰器，对类进行方法添加。以下是python3中的实现：由于担心不同版本之间的 Py
python中ui是什么意思？
在 Python 中，ui 没有特定的含义。这可能是一个自定义的变量名，也可能是一个类、模块、函数或其他 Python 对象的名称。如果想确定 ui 的含义，需要查看它所在的上下文。例如，如果它出现在一个函数的参数列表中，那么可能是一个参数
pytorch中碰到的memory leak问题
最近碰到pytorch分布式训练时候，memory几乎线性增加，撑炸机器的问题。 pytorch中内存泄漏常见的原因大概是以下几点：有时候可能会遇到不同的问题，具体问题可以通过python的内存分析工具做分析（不过讲道理不是太管用
用Python预测「周期性时间序列」的正确姿势
公司平台上有不同的api，供内部或外部调用，这些api承担着不同的功能，如查询账号、发版、抢红包等等。日志会记录下每分钟某api被访问了多少次，即一个api每天会有1440条记录（1440分钟），将每天的数据连起来观察，有点类似于股票走势的
python pythonwin 无法保存文件
按图中的信息来看，就是你编辑器的默认编码不支持你文件里的特殊字符呗。在源文件开头加上# -*- coding: mbcs -*- 就行了。一般如果含中文字符的话，加# -*- coding: cp936 -*-或# -*- coding:
Python3.11为什么不显示行数？
win+r调出cmd命令窗口，输入:cd路径到python的安装目录pythonlibsite-packages。联网后，python -m pip install ipython(回车↙)或安装python -m pip instal
php和Python那个好学一点儿？
难易程度没有什么太大的差别，主要还是看个人爱好。1. python不是脚本语言，虽然他是动态解释的。他可以完成系统级的开发。 2. python是跨平台的，你可以运用python在mac,在linux，在win下，甚至是s60手机中开发软件
python数据统计分析
1. 常用函数库 scipy包中的stats模块和statsmodels包是python常用的数据分析工具，scipy.stats以前有一个models子模块，后来被移除了。这个模块被重写并成为了现在独立的statsmodel
python如何打印出列表的地址
python打印出列表的地址的方法：首先将列表的值赋值给变量li，使用id()函数可以获取到数据的地址那么用“print(id(li))”语句就可以打印出列表的地址了示例如下：li = [12, 54, 68, 35, 45]pri
python 引用
python引用有哪些？来和我一起解读一下吧~python不允许程序员用传值和传引用，可以选择选用“传对象引用”的方式，这种方式等同于将传值和传引用综合起来，如果函数收到的是一个可变对象的引用，就能修改对象的原始值，相当于通过“传引用”
python代码解读
1 [... for i in range(0, 40, 8)] 是列表生成式，range(0, 40, 8)相当于是 [0, 8, 16, 24, 32]，... 处对循环的 i 进行运算2 str[i:i+8] 截取 str 字符串的
八款常用的 Python GUI 开发框架推荐
作为Python开发者，你迟早都会用到图形用户界面来开发应用。本文将推荐一些 Python GUI 框架，希望对大家有所帮助。 Python 的 UI 开发工具包 Kivyhttps:www.oschina.
python中模块导入的方法
Python中模块导入的方法有import、from…import和import as三种。import可以导入整个模块，from…import可以只导入模块的指定部分，而import as则可以将模块重命名。拓展：此外，Python还支持
python中 r'', b'', u'', f'' 的含义
字符串前加 rr"" 的作用是去除转义字符.字符串前加 ff 的作用是表示在字符串内支持大括号内的python 表达式字符串前加 bb的作用是表示这是一个 bytes 对象，后
python 守护进程
一、守护进程的特性守护进程是一个在后台运行并且不受任何终端控制的进程（守护进程独立于所有终端，之所以脱离于终端是为了避免进程被任何终端所产生的信息所打断，其在执行过程中的信息也不在任何终端上显示。）二、守护进程的作用
python怎么进入编程界面
python怎么进入编程界面。电脑中打开python编辑器之后，代码少的情况下可以直接编程，代码多的情况下新建窗口后进行编程即可。在电脑搜索框中输入python进行搜索，在搜索结果中打开python编辑器。如果代码很少，比如只有一行的，可以
怎样用Python将图片转为矩阵？
1、点击键盘 win+r，打开运行窗口。在运行窗口中输入“cmd"，点击enter键，打开windows命令行窗口。2、在windows命令行窗口中，输入“python”，点击enter键，进入python的命令交互窗口。3、使用
使用python怎么获取京东网站cookie进行登录
# -*- coding: utf-8 -*-# !usrbinpythonimport osimport urllib2import urllibimport cookielibimport re import sysfrom bs
利用Python对天猫店铺销售进行分析.下
&ltp&gt相隔两个月，爬虫任务完成了。上次说道( 利用Python对天猫店铺销售进行分析.上 )，后续要完成四个功能，包括：&ltp&gt &ltp&gt在上一个任务完成之后，任务的
Python中不定长参数这样用对吗？def hh(w,**l,pu='d'): 为什么？
题主你好,一般来说, python函数中有两种形式的参数: 位置参数, 关键字参数.位置参数: 说白了就是在函数调用时必传的,你不给它赋值函数就运行不了.如:从拿上图例子来说, 在调用hello时,如果你只写个hello(),肯定会报错
Python 安装目录快捷方式
Windows 系统安装 Python 后，会在系统开始菜单中创建IDLE、 Python、Python Manuals、Python Module Docs 等快捷方式：如果不小心把以上文件夹内的内容删除后，可以如下路径去建立：
求Mac下Python路径的手动设置方法, 谢谢.
Mac 下Python 可以多版本的并存，并且python的目录也有好几个，不过总体来说，Mac 自带的有python 还是比较方便的Mac 系统自带的又Python ,可能Python版本需要更新，所以目录结构要了解下系统自带的Pytho
学java好还是python好？哪个有前途？
以下仅代表个人观点~分析了一波Java作为长期的编程语言霸主之一，其应用涵盖后台服务端、大数据、桌面应用等多个领域，主要领域当然是后台服务端，大部分企业对后台语言的首选还是Java，尤其是大型项目，Java相较于PHP，Python等语言

推荐阅读

热门文章

最新发布

标签列表

python倒排索引（Inverted index）

给您推荐相同类型的内容：