python中nltk.parse_cfg是干什么用的 求例子

Python021

python中nltk.parse_cfg是干什么用的 求例子,第1张

Return the ``ContextFreeGrammar`` corresponding to the input string(s).

:param input: a grammar, either in the form of a string or

as a list of strings.

例子

import nltk

def parse(sent, grammar):

gr = nltk.parse_cfg(grammar)

parser = nltk.parse.ChartParse(gr, nltk.parse.TD_STRATEGY)

return parser.get_parse_list(sent.split())

没想到啥好方法!

可以把html读一遍,只取tag之间的

然后再parse这一部分文件

f = open('your_file.html')

start = False

for line in f:

if r'<!-- /CONTENT -->' in line:

print line.replace(r'<!-- /CONTENT -->','')

break

if start:

print line

if r'<!-- CONTENT -->' in line:

start = True

print line.replace(r'<!-- CONTENT -->','')

f.close()

大概意思如此,不过上面简单的代码如果遇到tag所在行有其他html代码,就忽略了,你可以改进下

(11月8日更新,已经改进过了,不过还是没有办法的办法,你等等看有没有高手有更高明的办法)

还有个问题就是,如果你要处理多个tag之间的,要多次遍历文件。