:param input: a grammar, either in the form of a string or
as a list of strings.
例子:
import nltk
def parse(sent, grammar):
gr = nltk.parse_cfg(grammar)
parser = nltk.parse.ChartParse(gr, nltk.parse.TD_STRATEGY)
return parser.get_parse_list(sent.split())
没想到啥好方法!可以把html读一遍,只取tag之间的
然后再parse这一部分文件
f = open('your_file.html')
start = False
for line in f:
if r'<!-- /CONTENT -->' in line:
print line.replace(r'<!-- /CONTENT -->','')
break
if start:
print line
if r'<!-- CONTENT -->' in line:
start = True
print line.replace(r'<!-- CONTENT -->','')
f.close()
大概意思如此,不过上面简单的代码如果遇到tag所在行有其他html代码,就忽略了,你可以改进下
(11月8日更新,已经改进过了,不过还是没有办法的办法,你等等看有没有高手有更高明的办法)
还有个问题就是,如果你要处理多个tag之间的,要多次遍历文件。