什么是自然语言啊

Python011

什么是自然语言啊,第1张

广义的“语言”是任何一种有结构的符号系统。人类的语言、手势、体态,

器的指令、命令、程序,

排版时的格式说明,

公路上的交通图标……都属于这种广

义的

“语言”。其中,

最重要的两类语言,

自然语言和形式语言。

狭义的“语言”指“自然语言”,

即人类在其社会生活中发展出来的用来互相

交际的声音符号系统。现已发现数千种不同的自然语言。“自然语言理解”指的就

是使计算机来按照这种语言所表达的意义作出相应的反应的机制。

语言学上对语言有这样的层次划分:

第一层次是语音和文字,

即基本语言信号

的构成

第二层次是词法和句法(合称“语法”),

即语言基本运用单位的构成和组

合的形式规律

第三层次是语义,

即语言所要表达的概念结构

第四层次是语用,

即语言与语言使用环境的相互作用。一般说来,

人和计算机打交道,

目前是采用键

盘输入字符的方式,

但语音的文字方式由于语音和文字的识别的进展也已经开始进

入实用的水平

自然语言理解的关键,

仍然是文字进入计算机以后的词法和句法分

析、语义分析和语用分析。现在已经有一些计算机程序能在受限制的领域内“懂得”

英语等自然语言,

比如根据数据库里的信息回答问题或处理事务,

按照自然语言的

命令做一些简单的事情等等。要实现不限领域的自然语言理解,

目前在技术上还面

临很艰巨的挑战。

首先,

自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自

如,

但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机

可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来

的,

虽然为自然语言理解积累了宝贵的财富,

但那是讲给人的,

真正要让语言学知

识变成计算机上可操作的,

绝不是那么简单,

也不能那么模糊。这个目标的实现,

需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模

的基本建设,

绝不是一拍脑袋想出个“绝招”就能解决的。

其次,

自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,

有一字多音、一音多字的问题

在词法和句法层次上,

有词类词性、词边界、句法

结构的不确定性问题

在语义和语用层次上,

也有大量的因种种原因造成的内涵、

外延、指代、言外之义的不确定性。语言学上把这些不确定性叫做“歧义”。歧义

一般不能通过发生歧义的语言单位自身获得解决,

而必须借助于更大的语言单位乃

至非语言的环境背景因素和常识来解决。人类有很强的依靠整体消除局部不确定性

的能力和常识推理能力,

体现在语言上就是利用语境信息和常识消除歧义的能力。

使计算机获得同样强大的能力,

是从事自然语言理解的学者梦寐以求的目标。

另外,

自然语言不是一成不变的死的语言,

它在社会生活中发展,

在操不同语

言和同一语言的不同变体的人们之间的相互影响中变化。一个词、一个说法可能在

一夜之间突然流行起来

特殊的人群结构变化会导致新的语言或新的语言变体

(如

方言)

的出现。这些都要求理解自然语言的计算机程序要具有对外界语言环境的应

变能力。

最后一点,

自然语言是人们交流思想的工具。既然交流的是思想,

那思想本身

在计算机里的组织结构就显得格外重要。在人工智能里,

这就是“知识表示”的问

题。可以说,

在知识表示问题上的突破,

对于自然语言理解的进展将产生决定性的

影响。

在上述四个方面,

都有许多学者在勇敢地迎接挑战,

使计算机程序一步步地朝

着不限领域的自然语言理解的远大目标前进。善解人意的计算机系统一定会在不远

的将来造福人类。

和CV等领域的融合越来越密切,多模态研究成为热点。融合知识的预训练模型系统。多模态研究是未来重要的研究方向。

多模态研究之前主要是CV的研究者在研究,投的期刊会议大都是CV领域。从Image Caption到后来的Visual Commensense Reasoning,CV领域的很多任务其实都是多模态的,需要考虑自然语言文本等特征。

这些任务传统的解决办法主要是使用图像编码器(ResNet等),文本编码器(RNN等),再加上一些其他的技巧如注意力机制,模型的架构和思路没有很多突破。

从大规模预训练语言模型出现之后(BERT等),多模态研究迎来了新的发展热潮。基于Transformer架构的编码器具有强大的编码能力,近两年来很多关于多模态预训练的工作也开始展开。

多模态预训练模型也是基于多层Transformer架构,文本和图像一起输入模型,通过多头注意力机制让模型充分地学习文本和图像的关联依赖。模型(VL-BERT等)在多模态下游任务上也取得了SOTA的效果。

多模态预训练的工作几乎都是用来解决多模态任务的(或者说一些和自然语言有关的CV任务),很少有工作探索通过多模态预训练帮助自然语言处理任务。

EMNLP 2020复旦大学的一篇工作作出了一些探索《Unsupervised Natural Language Inference via Decoupled Multimodal Contrastive Learning》,通过解耦的结构,通过多模态数据的预训练,帮助解决自然语言理解任务。通过多模态数据帮助自然语言处理会是迈向大一统模型的必经阶段。

聊到多模态,就不得不提到OpenAI的几个工作(Image-GPT,CLIP,DALLE)。DALLE的效果惊艳,但仍然是基于Transformer结构的,采用自回归损失函数的预训练模型。DALLE通过使用单独的生成模型(VQVAE)帮助生成图像。

本质上和上面的多模态预训练模型没有架构上的突破,但是DALLE往前迈了一步,即可以直接通过自然语言生成图像。OpenAI进一步丰富了大家的想象力,结合多模态数据的自然语言处理必将成为未来发展的重要方向。

一、理论基础 首先,二者都以一种“模式假设”(patterning hypothesis)为前提和理论基础。其次,“理解性假设”(comprehensiveness hypothesis)也是二者的理论基础。但二者的理论基础不同之处也很多。Wordnet的一个较主要的理论基础是“可分离性假设”(separability hypothesis)即语言的词汇成分可以被离析出来并专门针对它加以研究。 Hownet的最重要的理论基础是它的哲学。其根本点是:世界上一切事物(物质的和精神的)都在特定的时间和空间内不停地运动和变化。部件和属性这两个单位在Hownet的哲学体系中占有着重要的地位,一个事物被视为是整体还是部件,可以因系统的不同而不同对待;而关于对属性的认识是:任何一个事物都一定包含着多种属性,事物之间的异同是由属性决定的,没有了属性就没有了事物。二、设计原理与方法 二者的建设方法最明显的相同之处就是自上而下的方法。具体来说,Wordnet是以同义词集合作为基本构建单位进行组织的。Hownet则是先提取义原,以它为基本构建单位进行组织的。虽然细节不同,但总的指导性建设方法还是相同的。具体的设计原理与建设方法上,两者的不同点就凸现出来了。 1、Wordnet 的基本设计原理是它的“词汇矩阵模型” 一个词汇矩阵从理论上可以用单词与其同义词集合之间的映射来表示。当某个词有多个同义词时,通常同义词集合足以满足差异性的要求。当然,同义词是词形之间的一种词汇关系,但由于这种关系在Wordnet中被赋予了中心角色。因此,同义关系的词被放在中,与其他被放进[]中的词汇关系的词区别开来。Wordnet是按语义关系组织,由于语义关系是多个词义之间的关系,而词义用同义词集合来表示,因此很自然地把语义关系看作为同义词集合之间的一些指针。 2、Hownet的基本设计原理是把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统。这是它与Wordnet的本质不同。Hownet的建设方法的一个重要特点是自上而下的归纳的方法。通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,据此建立完善的标注集。无论是义原的提取还是义原的考核与确定,在Hownet的建设中都是至关重要的并具有决定意义。三、描述关系的比较 1、上下位关系 这是二者都有的。Wordnet是词义之间的语义关系。Hownet的上下位关系由概念的主要特征体现,也具有继承关系。 2、同义关系 同义关系是二者都有的。Wordnet最重要的关系是同义关系。Hownet对于同义的定义与Wordnet相似,都采取了较宽泛的定义,只是Wordnet的同义关系是显性的,而Hownet的同义关系是隐性的。 3、反义关系 Wordnet对于反义关系采取了直接反义和间接反义两种关系都包括的方法。Hownet中的反义关系比Wordnet定义的还要宽泛,只要属性值一样就可以形成反义关系。四、目的与应用 1、目的 Wordnet一开始要建立一个词典浏览器,后来又发展成自足的词汇数据库和语义或义类的机读词典。而Hownet是要建立一个面向计算机的知识库,揭示多重语义关系网络,为自然语言处理系统的建立提供最终需要的知识库。 2、应用 由于二者都是为自然语言信息处理服务的系统,那么二者的应用有交叉。例如,二者都在进行意义排歧,语义分析,语料库语义标注,信息过滤和分类,机器翻译等方面有着十分广泛的应用。 两者又有自己独特的应用领域。例如,Wordnet由于许多国家都在它的基础上建立了词汇数据库,那么Wordnet就可以进行多国语处理的词汇转换。由于它的内部结构是以层次为主,所以可进行信息语义层次检索,还可以进行主题名义识别和图像检索等;而Hownet也有它自己的应用领域,如:基于Hownet的内部语义关系建立,语料库句法关系标注,信息检索系统自然语言接口。还有它关于汉语方面研究与应用的独特之处,如:它的信息过滤和分析系统都是双语的,可以进行事件角色语义特征的提取。把Wordnet和Hownet结合起来的典型应用要算基于两者建设的双语语义词典。五、小结 经过对Wordnet和Hownet的一番比较,可以看出二者虽然是两种系统,但把二者结合起来研究,找出各自的不足之处,对自然语言处理研究还是有一点帮助作用的。Wordnet的词语概念是够用,但关系方面不足以支持推理。Hownet恰恰就是这样一种推理的知识库。Wordnet可向Hownet吸取这一点。Wordnet几乎没有关于句法方法方面的标注。而Hownet作为一个面向计算机并借助于计算机建立的常识知识库,它在语义知识构建方面明显优于Wordnet,而且许多现在Wordnet正致力解决的问题,在Hownet中都不是问题。所以在面向自然语言的信息处理方面,Hownet要优于Wordnet。当然Wordnet的研究人员也从来觉得这是一个“完工”的项目,Wordnet仍在继续发展中。