【笨方法】”字符串截取“
基本字符串1=”abc123“
基本字符串2=”345aaa“
例如:目标字符串为:Today
is
a
good
day
aaa123目标字符串345aaa
那么:
获得基本字符串1的长度:len1=len(基本字符串1)
获得基本字符串2的长度:len2=len(基本字符串2)
---------------------------------------------------------------------
以len1长度开始截取目标字符串,以上面的例子为例,截取出来的应该为:
Today_
oday_i
day_is
ay_is_
y_is_a
等...........................
..............
当然这些都是一个循环就可以搞定,然后在这个循环里,对每次接触的字符串进行比对,如果找到与目标字符串形同的,则记下”索引“
开始进行下一步处理:截取本句剩下的部分,找到”基本字符串2“,然后记下其开始”索引“,那么两个”索引“之间的东东就是你想要的那个”目标字符串“,之后你想用它干什么都行...........
【超简单的方法】
会”正则表达式“吗?会的话,直接用正则吧,几句就出来了..........
给定一个或多个搜索词,如“高血压 患者”,从已有的若干篇文本中找出最相关的(n篇)文本。
文本检索(text retrieve)的常用策略是:用一个ranking function根据搜索词对所有文本进行排序,选取前n个,就像百度搜索一样。
结巴分词后的停用词性 [标点符号、连词、助词、副词、介词、时语素、‘的’、数词、方位词、代词]
对一篇文章分词、去停用词
对目录下的所有文本进行预处理,构建字典