封面
版权信息
作者简介
内容简介
推荐序一
推荐序二
推荐序三
前言
第1章 AI与大模型时代对基础架构的需求
1.1 我们在谈论AI时,到底在谈论什么
1.2 机器学习算法初窥
1.3 一元线性回归算法剖析
1.4 机器学习算法对计算机硬件的特殊需求
1.4.1 机器学习算法的核心运算特征
1.4.2 使用CPU实现机器学习算法和并行加速
1.4.3 机器学习算法的主力引擎——GPU
1.4.4 机器学习算法的新引擎——TPU和NPU
1.5 本章小结
第2章 软件程序与专用硬件的结合
2.1 GPU并行运算库
- APP免费
2.2 机器学习程序的开发框架
- APP免费
2.3 分布式AI训练
- APP免费
2.4 本章小结
- APP免费
第3章 GPU硬件架构剖析
- APP免费
3.1 GPU的总体设计
- APP免费
3.2 Nvidia GH100芯片架构剖析
- APP免费
3.3 其他Hopper架构的GPU
- APP免费
3.4 本章小结
- APP免费
第4章 GPU服务器的设计与实现
- APP免费
4.1 初识Nvidia DGX
- APP免费
4.2 Nvidia DGX A100的总体设计
- APP免费
4.3 Nvidia DGX A100 CPU与内存子系统的设计
- APP免费
4.4 Nvidia DGX A100 PCI-E子系统的设计
- APP免费
4.5 Nvidia DGX A100 NVLink子系统的设计
- APP免费
4.6 其他辅助子系统的设计
- APP免费
4.7 本章小结
- APP免费
第5章 机器学习所依托的I/O框架体系
- APP免费
5.1 Magnum IO的需求来源
- APP免费
5.2 Magnum IO的核心组件
- APP免费
5.3 服务器内部的GPU互通
- APP免费
5.4 跨服务器节点的GPU通信
- APP免费
5.5 RDMA的两种实现
- APP免费
5.6 GPU对存储的访问
- APP免费
5.7 Magnum IO所依赖的其他支撑技术
- APP免费
5.7.1 DPDK(Data Plane Development Kit,数据平面开发套件)
- APP免费
5.7.2 DPU(Data Processing Unit,数据处理器)
- APP免费
5.7.3 MPI Tag Matching
- APP免费
5.8 本章小结
- APP免费
第6章 GPU集群的网络设计与实现
- APP免费
6.1 GPU集群中RoCE计算网络的设计与实现
- APP免费
6.2 GPU集群中存储与业务网络的设计与实现
- APP免费
6.3 GPU集群中带外管理监控网络的设计与实现
- APP免费
6.4 GPU集群中网络边界的设计与实现
- APP免费
6.5 本章小结
- APP免费
第7章 GPU板卡级算力调度技术
- APP免费
7.1 基于虚拟化技术的GPU调度
- APP免费
7.2 基于容器技术的GPU调度
- APP免费
7.3 本章小结
- APP免费
第8章 GPU虚拟化调度方案
- APP免费
8.1 Nvidia的GPU虚拟化调度方案
- APP免费
8.1.1 API Remoting与vCUDA
- APP免费
8.1.2 GRID vGPU
- APP免费
8.1.3 Nvidia MIG
- APP免费
8.2 其他硬件厂商的GPU虚拟化调度方案
- APP免费
8.2.1 AMD的SRIOV方案
- APP免费
8.2.2 Intel的GVT-G方案
- APP免费
8.3 云厂商与开源社区基于容器的GPU虚拟化调度方案
- APP免费
8.3.1 TKE vCUDA+GPU Manager
- APP免费
8.3.2 阿里云的cGPU
- APP免费
8.3.3 腾讯云的qGPU
- APP免费
8.4 本章小结
- APP免费
第9章 GPU集群的网络虚拟化设计与实现
- APP免费
9.1 基于SDN的VPC技术:网络虚拟化技术的基石
- APP免费
9.2 云负载均衡:机器学习网络的中流砥柱
- APP免费
9.3 专线接入、对等连接与VPC网关
- APP免费
9.4 SDN NFV网关的实现与部署
- APP免费
9.4.1 基于virtio-net/vhost的虚拟机部署NFV
- APP免费
9.4.2 基于SRIOV的虚拟机部署NFV
- APP免费
9.4.3 使用DPDK技术对NFV加速
- APP免费
9.5 本章小结
- APP免费
第10章 GPU集群的存储设计与实现
- APP免费
10.1 程序与系统存储——分布式块存储
- APP免费
10.1.1 块存储的业务需求
- APP免费
10.1.2 集中式块存储与分布式块存储
- APP免费
10.1.3 分布式块存储的故障恢复
- APP免费
10.1.4 分布式块存储的性能优化
- APP免费
10.1.5 分布式块存储的快照与回滚
- APP免费
10.2 海量非结构化数据存储——分布式对象存储
- APP免费
10.2.1 入门级对象存储的首选:Ceph
- APP免费
10.2.2 开源海量对象存储:Swift
- APP免费
10.2.3 商业化对象存储:大型公有云对象存储私有化
- APP免费
10.2.4 未来之星:MinIO
- APP免费
10.3 AI训练素材存储——分布式并发高性能存储
- APP免费
10.3.1 开源大数据存储鼻祖:HDFS
- APP免费
10.3.2 业界对HDFS的改进
- APP免费
10.3.3 长青松柏:Lustre
- APP免费
10.4 本章小结
- APP免费
第11章 机器学习应用开发与运行平台的设计与实现
- APP免费
11.1 微服务平台
- APP免费
11.1.1 Kubernetes:微服务基础能力平台
- APP免费
11.1.2 Spring Cloud:Java系专属微服务平台
- APP免费
11.1.3 Istio:不挑开发语言,只挑部署架构
- APP免费
11.1.4 商业化微服务平台:兼顾各类需求的选择
- APP免费
11.2 中间件服务
- APP免费
11.2.1 消息中间件
- APP免费
11.2.2 缓存中间件
- APP免费
11.2.3 数据库(数据中间件)
- APP免费
11.3 应用日志服务
- APP免费
11.4 本章小结
- APP免费
第12章 基于云平台的GPU集群的管理与运营
- APP免费
12.1 云运维平台
- APP免费
12.1.1 硬件基础设施管理
- APP免费
12.1.2 系统监控与告警平台
- APP免费
12.1.3 CMDB
- APP免费
12.2 云运营平台
- APP免费
12.3 云审计平台
- APP免费
12.4 本章小结
- APP免费
第13章 服务机器学习的GPU计算平台落地案例
- APP免费
13.1 需求来源:自动驾驶模型训练
- APP免费
13.2 总体设计——基于云原生的高性能计算
- APP免费
13.3 计算需求分析与设计实现
- APP免费
13.4 存储需求分析与设计实现
- APP免费
13.5 网络需求分析与设计实现
- APP免费
13.6 本章小结
- APP免费
后记
- APP免费
封底
更新时间:2024-07-24 13:40:09