- 自然语言处理:原理、方法与应用
- 王志立 雷鹏斌 吴宇凡编著
- 1800字
- 2025-02-16 15:44:32
1.2 本书章节脉络
全书共11章,每个章节联系紧密,并且配套相应的原理与案例。笔者建议初学者按顺序阅读,这样能有效地建立起一套完备的基于深度学习的自然语言处理学习体系。接下来,笔者就图1.1所示的学习路线给各位读者介绍一下本书的知识体系。

图1.1 全书架构
第1章导论分为4部分内容:自然语言处理的定义、基于深度学习的自然语言处理、全书章节脉络及自然语言处理的算法流程。第1章是全书的总起章,将会给每位读者重点介绍本书每个章节的核心技术。
第2章Python开发环境配置介绍了本书使用的操作系统与编程环境,即Linux操作系统下的Python开发环境搭建。与此同时,第2章还介绍了算法开发的常用工具与当前比较流行的Docker容器技术的使用。
第3章自然语言处理的发展历程按时间顺序介绍自然语言处理领域发展过程中比较经典的模型与思想。第3章从最简单的人工规则处理自然语言开始,逐步迈向机器学习处理更加复杂的任务,最后到利用深度学习技术推动当前自然语言处理任务的发展。
第4章无监督学习的原理与应用是整本书的精华所在,笔者将会给读者详细介绍自然语言处理领域跨时代的语言预训练模型BERT,并配套相应的案例,以帮助读者掌握深度学习与自然语言处理相结合的重点。更进一步,笔者以本章为基础,衍生出第5~11章,帮助读者更进一步地了解预训练模型BERT如何处理当前自然语言处理任务及掌握使用BERT模型的实践能力。
第5章无监督学习进阶则是基于第4章的深入探索,着重介绍生成对抗网络与元学习的知识。读者可以从中体会生成对抗网络中的博弈之美,学习到一个崭新的处理问题的思路,与此同时,也能在元学习的知识中学会如何利用少量样本完成“一次学习”甚至“零次学习”。
第6章预训练是BERT预训练模型诞生的关键章节,讲解如何生成一个预训练模型,以及如何利用海量的无标注数据甚至脱敏数据生成一个性能优秀的预训练模型。
第7章文本分类是当前业界研究的重点,其对舆情分析、新闻分类与情感倾向分析等应用场景都有着至关重要的影响。预训练模型很大程度地提升了自然语言处理模型的泛化能力与准确性。本章将以分类任务为切入点,讲解如何利用预训练模型构建自然语言处理分类模型技术。另外,本书后续章节的自然语言处理下游任务的案例代码将基于第7章的案例代码进行改写,案例代码具有很强的复用性与解耦性,学习成本非常低,力图帮助每位读者快速提升自然语言处理技术的实践能力,并基于当前的代码框架进行二次拓展,完善自然语言处理的知识体系。
第8章机器阅读理解是一种计算机理解自然语言语义并回答人类一系列问题的相关技术。该任务通常被用来衡量机器自然语言理解能力,可以帮助人类从大量文本中快速聚焦相关信息,降低人工信息获取成本,在文本问答、信息抽取、对话系统等领域具有极强的应用价值。随着深度学习的发展,机器阅读理解各项任务的性能显著提升,受到工业界和学术界的广泛关注。同时,第8章配备了相应的机器阅读理解代码案例,帮助读者掌握如何从海量文档中抽取出符合问题的答案片段的技术。
第9章命名实体识别是一种识别文本中预先定义好类别的实体技术。命名实体识别技术在文本搜索、文本推荐、知识图谱构建及机器智能问答等领域都起着至关重要的作用。近年来,随着深度学习的快速发展,命名实体识别技术的准确性也得到了很大的提升,因此,第9章配备了相应的命名实体识别实践,以帮助读者掌握该热门技术。
第10章文本生成是一种可以利用既定信息与文本生成模型生成满足特定目标的文本序列的技术,其主要应用场景有生成式阅读理解、人机对话或智能写作等。当前深度学习的快速发展同样推动了该项技术的蓬勃发展,越来越多可用的文本生成模型诞生,提高了自然语言处理领域的效率,服务智能化社会。第10章同样配备了文本生成的相应实践,以帮助读者更好地理解该项技术,并使用它来完成相应的任务。
第11章损失函数与模型瘦身是基于模型优化的重点章节。损失函数可以为神经网络提供很多实用的灵活性,它定义了网络输出与网络其余部分的连接方式,也决定着模型设计各项参数的收敛速度,甚至在特殊的数据分布下,如样本不均衡的长尾分布、训练样本少的冷启动问题,以及数据集在脏、乱、差的带噪学习中,特殊的损失函数能发挥出让人意想不到的作用。另外,随着深度学习的模型层次结构越来越深,模型含有的神经元常常数以亿计,这给模型线上部署的高响应要求带来了极大的阻碍。为此,本章将介绍相应的模型压缩技术,以满足模型线上部署高响应且性能消耗较小的要求。