- 跨数据中心机器学习:赋能多云智能数算融合
- 虞红芳等编著
- 1829字
- 2023-12-06 16:40:21
1.1.2 国内外发展现状
1.学术界的模型训练速度竞赛
截至目前,越来越多的企业在其数据中心内搭建起了大规模的计算机集群,通过分布式机器学习解决大规模机器学习训练问题。国内外大规模分布式机器学习集群发展现状如图1-4所示。2017年,META和IBM使用256个Tesla P100 GPU的计算集群,分别实现了1h和50min的ResNet-50模型训练[25-26],相比单卡NVIDIA M40 GPU需要的14天[20],训练加速336~403倍。同年11月,荷兰国家超级计算和电子科技研究所(SURFsara)与日本首选网络公司(Preferred Networks)将集群规模扩展至1024个GPU节点,进一步将训练时间缩短到42min和15min[27-28]。如此加速效果也可以借助CPU计算集群实现,如UC Berkeley的研究团队使用2048个Intel Xeon系列CPU,在ResNet-50和AlexNet[29]模型上分别取得了20min和11min的突出表现[20]。
图1-4 国内外大规模分布式机器学习集群发展现状
2018年,腾讯机智再次取得突破,使用1024个Tesla P40 GPU,训练ResNet-50模型只需8.7min,训练AlexNet模型只需4min。在进一步将集群规模扩展到2048个GPU节点后,训练ResNet-50模型的时间再次缩短到6.6min,扩展性可保持在97%~99%[30]。同年11月,索尼宣布刷新ImageNet数据集训练ResNet-50模型的新纪录,在2176个Tesla V100 GPU的计算集群上实现3.7min完成训练[31],随后又在3456个GPU节点的更大规模集群上实现2min完成训练[32],创下人工智能训练速度的世界纪录。一个月后,谷歌推出1024个TPU(每秒万亿次浮点运算)的大规模专用计算集群,训练图像吞吐率可达每秒百万张,完成ResNet-50模型训练仅需2.2min[33],非常接近索尼2min的记录。
2019年,商汤科技发布最新成果,通过一系列分布式优化技术在512个Volta GPU的计算集群上获得410~434的加速比,ResNet-50模型的训练时间7.3min接近腾讯机智2048卡并行的6.6min,同时AlexNet模型的训练时间1.5min刷新索尼3456卡并行的2min的世界纪录[34]。人工智能训练速度的世界纪录屡屡被刷新,分布式机器学习功不可没,其加速性能可见一斑。
与此同时,国内很多学术机构都开始建立属于自己的人工智能算力集群。鹏城实验室湾区网项目首期开通深圳市大学城节点、前海核心节点、鹏城实验室节点、国家超算深圳中心节点、福田节点、龙华节点六个数据中心节点,旨在为网络体系结构、网络协议、5G核心网、工业互联网等试验与应用示范提供科学装置与基础设施[35]。之江实验室南湖总部的数据中心是目前国内科研机构中规模最大的算力中心之一,将整合智能超算、智算集群、类脑计算、图计算等算力资源,算力可达10 EFLOPs[36]。这些大规模的计算资源支撑起了如今很多前沿的学术研究和高端智能产品,更加凸显出分布式机器学习技术的巨大价值。
2.产业界的商业实践
分布式机器学习并不是为了刷新ImageNet的训练时间记录而存在的,而是旨在为业界实现PB级数据量训练奠定算力基石。在该领域,国外经过近20年的发展,已经建立起较为成熟的理论体系和系统架构,在学术界、工业界都得到了成功的应用。例如,在军事应用上,分布式通用地面站系统是美军接收、处理和分发传感器信息的情报、侦察与监视系统,能提高系统性能并确保与其他系统的互操作性,能有效处理任务规划、情报信息发布、多源情报融合和情报应用分发等任务。
分布式机器学习在国内起步相对较晚,但在国家“十三五”规划等政策的支持下,该领域在已有的比较完备的技术和理论的基础上迅速发展,正在追赶国际先进水平。例如,仅在2016年的“双十一”当天就产生了10.5亿条交易,蚂蚁金服的交易峰值达到每秒12万笔。针对PB级训练数据的挑战,阿里集团和蚂蚁金服推出超大规模分布式机器学习系统“鲲鹏”,在“双十一”和交易风险评估等现实应用中展现出了巨大的应用价值[37]。百度飞桨的分布式训练技术支持千亿级稠密参数模型的训练[38],是百度搜索引擎、百度翻译、百度地图、文心语义理解平台等产品的核心驱动力之一。这些成果的相继出现标志着分布式机器学习正受到国内外互联网巨头的高度重视。
虽然分布式机器学习对计算集群的性能要求很高,但它离个体研究者并不遥远。如今,人工智能计算越来越多地成为云计算上的典型任务。如表1-1所示,国内四大云计算巨头相继推出GPU云服务器和超级计算集群的租赁服务,满足个体研究者租赁临时算力,并行加速机器学习模型训练的需求。然而,对于个体研究者而言,租赁GPU集群的费用仍然相当高昂。在2019年,华为推出Atlas 900人工智能计算集群,包含1024个昇腾(Ascend)910处理器,ResNet-50训练时间仅59.8s[39],再破索尼3456 Tesla V100 GPU集群的2min记录,登顶全球第一。可见,定制的人工智能处理器性能不一定亚于通用型高性能GPU,使用昇腾芯片集群代替GPU集群是一个可行的解决方案,能够帮助个体研究者节省大笔的租赁费用。
表1-1 四大智能算力云平台可租用计算集群的规模、配置与费用一览
注:表中费用数据源于2022年5月的各平台官网,因年份和具体硬件配置而不同,仅作参考,不具有比较意义。