- 大语言模型:原理、应用与优化
- 苏之阳 王锦鹏 姜迪 宋元峰
- 609字
- 2024-12-18 17:06:22
1.2 大语言模型
大语言模型是一类基于超大规模神经网络的语言模型,其参数规模远远超过传统语言模型,并且使用自监督学习(Self-Supervised Learning)在大量未标注文本上进行训练,有些大模型还和人类的意图进行了对齐(Alignment),具备通过自然语言和人类进行交互的能力。大模型具备强大的通用任务能力,可完成多种场景的复杂任务,在很多任务上甚至可以达到人类的智能水平。
大模型的训练目标与传统语言模型的训练目标是相同的,都是使模型在特定的上下文中预测下一个词的准确率越来越高。为什么大模型能够具有传统语言模型完全无法媲美的能力呢?核心在于海量的参数和训练数据使大模型可以学习到人类语言的语法和语义,以及大量的真实世界中的常识。训练大模型的海量语料可以看作现实世界的映射,而基于这个映射训练出来的大模型被视为对现实世界的高质量的压缩表示(Compressed Representation),压缩表示可供人们提取现实世界的信息。大模型预测下一个词越准确,代表大模型的能力对现实世界的还原度就越高,进一步反映了大模型的理解能力就越强。
OpenAI的研究人员曾用一个例子生动阐述了大模型的上述特点。假设大模型阅读了一本侦探悬疑小说,其中有各种各样的人物、纷繁复杂的事件以及多条神秘隐晦的线索。当大模型读完书中揭示答案前的所有文字后,我们让大模型对如下句子进行下一个词的预测:“罪犯的名字是____”。这个词预测的准确率越高,说明大模型对文本的理解和推理能力越强大。所以,看似简单的“预测下一个词”任务可以在训练大模型上产生惊艳的效果。