七、自然语言的习得

前面我们讨论了语法习得的运算本质是抽象,而自然语言正转录和逆转录的过程是演绎,所以自然语言语法习得的关键是建立具体的语义结构信息到具体句子结构信息的映射。这样自发的抽象就会生成抽象语义结构信息到抽象句子结构信息的映射,也就是语法映射。

人类自然语言的学习有两个阶段:空白积累阶段和持续积累阶段。空白积累就是婴儿学习一门语言的状态,是没有任何自然语言基础下对自然语言的习得过程;持续积累就是在有一定语言基础时持续学习一门语言的状态。

空白积累阶段最大的困境在于,如果没有任何语言基础,我们难以建立语义信息结构到句子信息结构的对应,因为个体根本听不懂一个表达——不知道表达的句子结构对应怎样的语义结构。但语法的习得根源于这种对应的形成。为创造具体的语义结构到表达结构的对应需要经历两个阶段:

在第一个阶段,幼儿需要先习得对象和属性层的概念对应怎样的词汇。只要这些概念和对应的语言同时以极高关注度出现在意识流,就可以建立猜想的对应关系。我们在孩子面前晃动一个苹果,不断重复说“苹果”,正是为了让苹果的概念和语言读音同时以高关注度出现在孩子意识流中。形成的猜想可能是错的,但随着时间的累积,正确的猜想频次强度会凸显出来。

在第二个阶段,幼儿会尝试用先天的语法映射去把最简单的语义结构转为表达,比如通过按顺序读出一个事件中的元素来表达一个事件,此时幼儿的父母会猜想幼儿想要表达的语义,用正确的表达去确认。这就创造了具体语义结构和具体句子结构的对应,抽象就能发挥作用,形成语法映射的猜想。

我们可以看到,空白积累阶段需要严格的条件,且形成大量错误的对应,需要在大量样本支持下才能让正确的对应显现出来,所以空白积累阶段语言习得的进展是非常缓慢的。但到了持续积累阶段,语言的习得速度将有极大提升。持续积累阶段出现了两个新的语言习得机制:

其一,如果已有语法映射存在,智能体就能通过模糊匹配知道一种和已有语法不完全一致的表达对应怎样的语义,这样就创造了具体句子结构信息到语义结构信息的猜想映射。这种方式使猜想映射的样本量快速增长,从而为抽象过程收敛到正确的语法映射提供了样本支持。这个过程不仅仅能使智能体快速纠正不正确的语法,还能积累对较为具体语义信息的个性化表达的语法,熟悉对某一类人群特有表达习惯的语法。

其二,当有一定的语言基础后AI就能够通过互动去询问一个不熟悉的词汇的含义,比如“文化是什么意思”;能在不确定的情况下,换一种表达方式去确认对方表达的语义;能够理解他人对自己错误表达的纠正,这个纠正包含了错误词汇的使用或是错误的语法。