python 文本查找

Python034

python 文本查找,第1张

这个很简单哈,我用java写过类似的,python下没写过,但思路都是一样的,我说一下思路,供你参考一下:

【笨方法】”字符串截取“

基本字符串1=”abc123“

基本字符串2=”345aaa“

例如:目标字符串为:Today

is

a

good

day

aaa123目标字符串345aaa

那么:

获得基本字符串1的长度:len1=len(基本字符串1)

获得基本字符串2的长度:len2=len(基本字符串2)

---------------------------------------------------------------------

以len1长度开始截取目标字符串,以上面的例子为例,截取出来的应该为:

Today_

oday_i

day_is

ay_is_

y_is_a

等...........................

..............

当然这些都是一个循环就可以搞定,然后在这个循环里,对每次接触的字符串进行比对,如果找到与目标字符串形同的,则记下”索引“

开始进行下一步处理:截取本句剩下的部分,找到”基本字符串2“,然后记下其开始”索引“,那么两个”索引“之间的东东就是你想要的那个”目标字符串“,之后你想用它干什么都行...........

【超简单的方法】

会”正则表达式“吗?会的话,直接用正则吧,几句就出来了..........

给定一个或多个搜索词,如“高血压 患者”,从已有的若干篇文本中找出最相关的(n篇)文本。

文本检索(text retrieve)的常用策略是:用一个ranking function根据搜索词对所有文本进行排序,选取前n个,就像百度搜索一样。

结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]

对一篇文章分词、去停用词

对目录下的所有文本进行预处理,构建字典