学术论文写作——Corpus

Python010

学术论文写作——Corpus,第1张

        语料库分析可分为在线查询和离线工具,off-line Corpus Analysis tools有AntConc和CORPUS,on-line 有美国当代英语语料库COCA: https://www.english-corpora.org/coca/ 。工具使用得当往往会达到事半功倍的效果,因此接下来对这两款工具的使用分别进行介绍记录。

        PatternBuilder是一款专门用于辅助编写正则表达式以方便词性赋码语料库检索的工具,可以很方便地编写复杂的正则表达式。

        PatternBuilder是自动生成正则表达式的工具,帮助用户从词性符码语料库中提取各种语言特征。该工具可以生成简单的表达式如方位名词(\S+_NNL2\s)或较复杂的结构的表达式如被动语态(\S+ VB\w*\s(\S+ [RX]\w+\s) \S+_V\wN\s),用户可以测试并保存自己编写的表达式。具体用法可见 梁茂成词性赋码语料库的检索与正则表达式的编写pdf 。

        用法示例如下图:

(1)显示赋码首字母,如名词以N开头、动词以V开头。

(2)包含特定赋码首字母的各种语言特征。

(3)用户自定义的各种语言特征,如被动语态等。

(4)显示所选语言特征的正则表达式,用户也可在此编辑表达式。

(5)按正则表达式检索语料库后的索引行,用以验证表达式的正误。

        同时,为了尽可能做到少有遗漏,我们在得到基本的表达式后常常需要进行更细致的分析和推敲。我们可以利用 PatternBuilder 的【Get (Pattern) 】按钮,在表达式中使用一个可选的(optional)组块。

1、索引工具

        单击File菜单,选择Open File(s).. 或Open Di..加载一个或多个要分析的文件,加载出来的文件会在主窗户的左边“Corpus Files”框里显示出来。

        在下方Search Term下的输入框里输入搜索词,单击“start”。以“work”为例,可以看到三个语料库中检索到了973条结果。这种结果是以KWIC(Key Word in Context)模式显示的。如果需要调整检索词两边显示的字符数,可以使用"Search Window Size"进行调整(调整完成后单击start重新检索)。

        除了检索整个词外,还可以用通配符进行高级检索。除了检索整个词外,还可以用通配符进行高级检索。

        我们还可以对检索的结果进行排序。使用Kwic Sort下的Level对检索结果排序,0是指该检索词,1L指检索词左边第一个词。2R指检索词右边第二个词。Level共有三级,可根据需要进行勾选。设置完成后单击“Sort”即可进行分类排序。

2、索引检索及定位

        单击“Advanced”,勾选“Use search term(s) from list below”。就检索下面框内的单词。可以手动输入多个单词,也可以直接加载一个txt词表用来检索。注意每个单词独立成行。设置完成后单击“Apply”。

        而高级设置中的“Use Context Words and Horizons”是指检索上下文词和该词出现的范围。例如,在Context Words中输入“with”,单击add添加,之后将该词出现的范围设置成“From 3L to 3R”。就可以看到work从左边数3个词到右边数3个词出现with的所有句子。

3、词丛 Clusters/N-Grams

        通过Clusters这一功能,可以把检索词及其临近的词生成一个列表,并且可以根据自身的需求进行排序分析。

        N元是什么呢?简单来说,N元指单词的N 元。比如,“This is a pen.”这句话中二元是”this is”, “is a”和”a pen”。三元则是”this is a”和”is a pen”。因此,一个大的文件将会产生大量的N 元。N-Grams与Clusters功能操作起来很像。

4、搭配 Collocates

        搭配功能,简单来说,可以生成检索词的有序的单词列表,用来查看搭配词与检索词相关性。

        由于搭配功能需在生成词单的基础上才可使用,因此会自动弹出生成词单的对话框,我们单击确定即可。

5、词单 Word List

        打开AntConc,加载语料库文件后,单击“Word List”选项卡,之后单击“Start”,即可生成词单。 在界面上方可以看到形符和类符的数量。所有的单词默认按照词频来排序,包含序号(Rank)、词频(Freq)、单词(Word)的统计信息。

        界面中有一列是Lemma Word Form(词型)。该功能的启用要加载词元列表(Lemma List)。在菜单栏“Tool Preferences”中的“Word List”中,可以在“Lemma List”中加载词元列表。

        在菜单栏“Tool Preferences”中的“Word List”中,可以对检索单词进行过滤。例如,输入“that”和“this”,选择“Use specific words below”,在词单页面仅能查看“that”和“this”的相关结果。若选中“Use a stoplist below”,则会在词单中排除“that”和“this”的相关结果。选择“Use all words”不会对结果产生变化。

6、实际例子

1)What is the word most frequently used at the immediate left/right of 'classification'?

https://www.english-corpora.org/coca/

COCA

Antconc

参考链接

1、 https://www.jianshu.com/p/3c7c178ddfcc

2、国科大学术论文写作

如下:

<<VCorpus>>

Metadata: corpus specific: 0, document level (indexed): 0

Content: documents: 1

$txt1

<<PlainTextDocument>>

Metadata: 7

Content: chars: 18

可以用RapidMiner, 用Update RapidMiner菜单项下载并安装Text processing构件包。使用process documents...构件可以做文本挖掘,处理中文时要将这些构件的encoding参数设置成GB18030(对于简体中文)。