3.3 人工智能算力基础设施

计算力是智能的重要来源,高效能的AI算力也是智能技术群的重要组成部分和未来智能化变革的核心要素之一。杨立昆(Yann LeCun)认为,深度学习的反向传播技术默默存在了数十年,只有在计算硬件大发展之后才得以发出奇光异彩,就是新的芯片和硬件架构将AI带出低谷。未来,同样的事情还会发生。

从历史经验看,人工智能发展与算力紧密相关。早在人工智能的第一次热潮期,美国麻省理工学院就编写了ELIZA智能问答系统,日本早稻田大学也发明了配有摄像头和麦克风装置的WABOT-1机器人原型。然而由于视觉识别和听觉识别需要的数据处理计算量太大,当时的计算力无法满足,这些技术也就无法实用。近年来,在深度学习和并行计算能力的共同支撑下,视觉识别和语音识别才得以走向成熟落地。

在以深度学习为代表的智能计算主流范式下,AI算力还具有不同于传统算力的显著特征。深度学习需要大量使用矩阵运算,通过开发专用的处理器专门处理矩阵运算的各类基本操作,作为采用串行操作的通用处理器的协处理器,通过并行加速提升智能运算速度,专用智能加速芯片成为建造高效能人工智能算力的关键支撑。

从近两年国际上有影响的前沿模型算法和具有里程碑意义的AI系统来看,当前人工智能主流技术创新表现出大算力的典型特征,基于深度学习的人工智能创新突破越来越依靠强大的计算力。

在深度学习这一技术路线上的方法创新活跃,基于深度学习的人工智能模型的规模和复杂度飞速增长。2015年微软的ResNet做到152层,2016年商汤科技做到1207层,现在很多团队已经在使用达到上万层的深度神经网络。神经网络深度的增加带来表达能力的进一步拓展和突破,但同时也带来模型复杂度的飞升,越来越需要更为强大算力支撑。超大型的模型往往需要大规模的AI算力集群作为运算基础。

近年来在深度学习发展的新领域,也普遍具有大计算量特征。比如2018年谷歌发布BERT预训练语言模型基本版本具有上亿参数,能力强大一点的模型参数规模就要数十亿,谷歌曾用16个TPU集群(一共64块TPU)在33亿文本的语料上预训练一个BERT模型,一共花了约4天时间,成本高达28万人民币,而如果普通研究团队在8块P100 GPU上做可能需要1年。GPT-3模型已经达到1750亿参数规模;而深度强化学习也比深度学习计算量还要大通常1个数量级;AutoML自动机器学习需要通过迭代运算实现深度学习网络设计自动优化,对计算量的需求也更为庞大。

在典型任务突破方面,世界多个人工智能研究团队在不完全信息博弈任务上都取得了一些里程碑式的进展。2019年,由微软亚洲研究院开发的麻将AI系统Suphx成为首个在国际知名专业麻将平台“天凤”上荣升十段的AI系统;由Facebook人工智能实验室和卡耐基梅隆大学研究人员设计的一款程序在一系列六人无限制德州扑克比赛中击败了全球顶尖选手。通过Dota、麻将、德州扑克、星际争霸这些不同的游戏场景,人工智能展示了在开放信息博弈等复杂任务下的巨大潜力,同时这些进展背后都依靠大模型大数据大计算的支撑。2019年OpenAI Five以2∶0的战绩战胜Dota2职业战队TI8冠军OG,OpenAI一共使用了256块P100 GPU和12.8万块CPU核心进行训练。

根据OpenAI统计,从2012年至2019年,深度学习模型计算所需计算量已经增长了30万倍,大算力也成为未来全球人工智能前沿创新的重要驱动力量。

人工智能企业巨头不断加大AI算力投入。苹果、谷歌、微软、亚马逊、Facebook等人工智能巨头依托现有云计算平台,投入大量资金升级建设AI算力中心。谷歌设计的Cloud TPU是一种云端硬件加速器,旨在优化加速使用TensorFlow编程的机器学习任务,单个Cloud TPU的计算能力达到180万亿次浮点运算,具备64GB的高带宽内存。谷歌使用Cloud TPU建设了支持大规模AI训练的企业AI算力集群。IBM与英伟达及美国能源部合作共同建立了两座新的超级计算机,其中美国能源部下属橡树岭国家实验室的Summit,借助GPU等新型计算芯片的加入,成为世界上最强大的超级计算机。Summit共部署了超过27000个Nvidia GPU芯片:一方面显著提升了整体算力;另一方面可支持机器学习和神经网络计算,以应对越来越庞大的AI计算新需求。

对于学术界很多团队,耗资十几万甚至几十万配备几块GPU只适合对小规模的模型进行研究。尽管很多领军企业也通过其云计算平台提供了租用GPU等AI算力的服务选项,但大部分公有云平台并非为运行人工智能算法而设计,网络设计、体系架构和软硬件协同方面都并非最优,多采用分割租赁方式提供1~8块GPU的小规模算力,无法满足AI大规模训练所需的高效能计算需求,只能用于教学和简单科研。

“要想富,先修路”同样适用于智能化变革。算力是AI时代的重要基础设施,充分有效利用算力是人工智能加速发展的重要推动力。建设更多软硬件一体化设计的大规模AI算力中心,在算力效能和成本方面形成比较优势,必将有利于提升人工智能学术研究活跃度,让更多学术团队和中小企业有条件开展最前沿的算法模型研究,缩短算法模型研发训练周期,加速技术创新。