- 揭秘大模型:从原理到实战
- 文亮 江维
- 595字
- 2025-04-17 18:46:10
本书结构
本书共分为12章,内容涵盖大模型的全链路。
第1章概述大模型的发展历史以及ChatGPT的智能来源——数据压缩理论。
第2章详细介绍传统语言模型,包括循环神经网络(RNN)、长短期记忆(LSTM)网络、门控循环单元(GRU),并介绍大模型的基础结构——Transformer。本章将通过一个机器翻译的案例演示如何利用Transformer完成自然语言处理的任务。
第3章介绍OpenAI GPT系列大模型。本章从GPT-1到GPT-4逐步解析GPT系列大模型的原理和特点。
第4章介绍清华大学通用预训练模型——GLM。本章分析GLM的技术原理,并介绍如何对GLM模型进行微调。
第5章介绍Meta开源大模型——Llama。本章分析Llama的技术原理,包括预训练数据、模型结构和优化器等,并介绍其改进版本Llama 2。
第6章介绍大模型参数高效微调方法,即如何通过训练少量参数来实现可与全参数微调媲美的效果。
第7章介绍大模型指令微调方法,即如何通过指令微调让大模型更好地理解人类的意图。
第8章介绍大模型训练优化方法,即如何通过混合精度训练和并行训练等技术提高大模型的训练速度。
第9章介绍大模型推理优化方法,即如何通过推理优化提高大模型的推理效率和生成质量。
第10章介绍AIGC和大模型结合的方法,即如何将AIGC应用到大模型中。本章将重点介绍流行的Stable Diffusion模型,包括其技术原理及其应用场景。
第11章介绍大模型和推荐系统结合的方法,即如何利用大模型为推荐系统赋能。
第12章介绍构建私有大模型的方法,即基于开源的大模型,在自己的数据上进行微调,让大模型具备新的能力。