- 跨数据中心机器学习:赋能多云智能数算融合
- 虞红芳等编著
- 2050字
- 2023-12-06 16:40:23
1.2.1 产业发展背景及需求
在人工智能等关键应用的需求牵引下,2020年3月4日,中共中央政治局常务委员会会议强调“加快5G网络、数据中心等新型基础设施建设进度”,随后,工业和信息化部印发《新型数据中心发展三年行动计划(2021—2023年)》(以下简称《行动计划》),旨在加快建设高技术、高算力、高能效、高安全的新型数据中心[128]。《行动计划》指出,要加快建设京津冀等八个国家枢纽节点,按需建设各省新型数据中心,灵活部署城市内边缘数据中心,加速改造升级“老旧小散”数据中心,逐步布局海外新型数据中心,打造云边协同的边缘数据中心集群及应用,满足全国不同类型的算力需求,支持我国数据中心产业链上下游企业“走出去”。为响应国家号召、满足产业需求,各大企事业单位积极推动新型数据中心建设,构建以新型数据中心为核心的智能算力生态体系。2022年2月,“东数西算”工程全面启动实施,在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等八地启动建设国家算力枢纽节点,并规划了十个国家数据中心集群[129]。2022年4月,全国新开工项目25个,数据中心规模达54万标准机架,总算力超过每秒1350亿亿次浮点运算[130]。
在产业界,由于业务规模的持续扩张、业务范围的不断扩大,以及行业对云计算需求的急剧增长,各大云服务提供商也在积极建设新型数据中心。截至2022年,阿里云在全球27个国家及地区运营着84个可用区(一个可用区是一个或多个物理数据中心的集合),包括乌兰察布、张北、南通、杭州、河源五大超级数据中心,不久后还将在中国建设10座超级数据中心。腾讯云在中国、亚太、美洲、欧洲共计27个地理区域运营着71个可用区,在中国有清远、贵安七星、天津、上海青浦、重庆五大超级数据中心。百度智能云在北京、保定、阳泉、西安、武汉、南京、苏州、广州、中国香港等地建设有40余个可用区,其中百度云计算(阳泉)中心是新型数据中心的典型案例。华为在贵安、乌兰察布南北两地布局了两大云数据中心,同时在京津冀、长三角、粤港澳地区布局了三大核心数据中心。这些新型数据中心不仅满足企业自身和行业用户对大数据存储、智能云边计算、高速网络互联等服务的需要,也为附近地区的用户提供数据就近存储、服务就近访问的优质服务。
这些多地域广泛分布的新型数据中心在就近服务用户、降低服务延迟、提高用户体验的同时,也不可避免地面临数字和算力资源分散等客观限制。一方面,对于数字资源,边缘用户数据就近存储在该地区的数据中心,形成数字资源异地存储的局面。若将这些离散大数据集中迁移到一个数据中心,则庞大的数据流量很容易溢满通信资源有限的广域网络,影响其他通信业务的正常传输,并且迁移如此大量的数据也需要漫长的传输时间,对中央数据中心的入口网络和存储容量都提出了极大的挑战。另外,数据隐私和主权的相关法律法规也约束了用户数据的传输行为。2016年,欧盟通过《通用数据保护条例》(General Data Protection Regulation,GDPR)[131],规定“个人数据应受到合理的安全保护措施之保障,以防止丢失或未经授权的访问、破坏、使用、修改或披露数据等风险”。2021年,中华人民共和国第十三届全国人民代表大会常务委员会第三十次会议通过《中华人民共和国个人信息保护法》[132],明确规定“任何组织、个人不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息;不得从事危害国家安全、公共利益的个人信息处理活动”。这些法律法规严格约束数字信息的跨主体共享和出入境传输,在为传统的集中式数据处理带来限制和挑战的同时,也为更安全的离散数据隐私计算迎来了巨大的发展机遇。
另一方面,尽管新型数据中心的算力算效已经得到空前提升,但是业界仍不满足于单独的数据中心的局限算力,希望融合异地多中心的算力资源,打造覆盖全国的一体化超强算力基石。为此,《行动计划》指出,要支持国家枢纽节点内新型数据中心集群间的网络直连,促进跨网、跨地区、跨企业的数据交互;同时推动边缘数据中心之间,边缘数据中心与新型数据中心之间的组网互联,促进云、数、网协同发展。2021年,国家发展改革委等部门研究制定《全国一体化大数据中心协同创新体系算力枢纽实施方案》[133],要求政府部门和企事业单位整合内部算力资源,对集群和城区内部的数据中心进行一体化调度,实现进一步打通跨行业、跨地区、跨层级的算力资源,构建算力服务资源池的愿景。这一系列举措将有力推动异地数据中心互联互通,构建数据中心、云计算、大数据一体化的新型算力网络体系。对此,中国移动表示,将对接国家“东数西算”部署,深化顶层设计,完善全网算力服务资源池、网络互联互通等规划建设方案;在骨干传输网络转型方面,将依托“4+3+X”数据中心布局,按需部署网络节点、增设直连链路、调整组网架构,实现移动云中心节点间全互联组网。
面向地域分散的多数据中心对融合离散大数据和云网算力的迫切需求,跨数据中心分布式机器学习应运而生,旨在提供异地多中心的分布式协同数据挖掘能力,攻克跨数据中心训练加速等核心关键技术,突破数据中心之间的数据屏障和通信壁垒,为政企研用户提供高性能的跨数据中心联合数据挖掘平台。