自“东数西算”工程概念首次提出一年多以来,以打通“数”动脉、织就全国算力一张网为目标,中国政府凭借强大的基础设施建设能力,高效推进整体工程,取得了斐然成绩:
从算力基础设施看,我国基础设施算力规模达到 180EFlops,位居全球第二。(数据来自《中国综合算力指数(2023 年)》)
从网络基础设施看,围绕算力枢纽节点的网络设施加速构建,三大通信运营商纷纷加快了连接东数西算枢纽节点的400G全光网络建设。截至 2022 年底,国内各省份平均互联网省际出口带宽达到 51Tbps,年增速超 21%。
从平台能力建设看,算力协同能力逐渐增强,据统计目前全国已发布或建设 10 余个算力调度平台。尤其是基础电信运营商均发布或建设了,实现算力+网络+能力多要素的智慧算网大脑平台。
从应用场景看,东数西算、东数西存、东数西渲、东数西挖等应用场景逐步落地,算力网络基础设施,正在以其独特的优势,推进着数字经济的发展。
算力网络基础设施的硬件建设已取得了长足的进展,而如何用好这张算力网络,服务好东数西算工程,让更多企业享受到数字化基础设施的红利,仍面临着4个方面的挑战:
资源运营效率低,未能发挥西部算力规模优势,降低算力使用成本国家建设东西部八大数据中心枢纽,从物理层面提供了可调度的大批算力资源,但数据中心有固定地理位置的不可移动性,其分散运营的现状,无法形成规模效应。发挥多个数据中心的联动和合力优势,从调度层面实现算力真正的融通和流动,算力的全局最优供给和统筹管理能力仍有待提升。无法分散运营的现状,无法形成规模效应。
场景及底层算力耦合度高,通用化平台能力不足,企业的场景应用需进行针对性适配改造,相关技术门槛高和系统改造代价大,导致能够参与东数西算红利的企业数量少。
目前主要集中在大规模、大任务计算类的场景,尤其是智慧算力为主的大型计算,如渲染、模型训练等。但此类场景的算力需求在整体算力需求中的占比不高。对于大量小规模、通用类算力场景支撑少。
场景落地对网络带宽的要求高,“西算”对于“东数”企业的吸引力不足当前东数西X场景主要采用大力飞砖的模式,利用超大的带宽将数据传输到西部进行集中运算。带宽要求高,传输成本也高,带来的是成本价格高。尚不能对大颗粒算力任务进行拆分,高效识别哪些“东数”可传输到“西算”,从而减少传输数据,降低数据传输成本。
应对挑战,需要利用算网大脑构建算网编排调度“软实力”来提升资源运营能力水平,通过关键4点的建设,进一步推进东数西算工程的普惠化、规模化。
以资源的并网统筹管理为发力点,解决海量、低成本算力资源供应问题
算力资源的体量,奠定了东数西算是否有足够的算力可调,而算力资源的异构融通,则决定着东数西算的效果好坏。目前国家在东西部建设8个算力枢纽节点和10个数据中心集群,还有大大小小的超算智算中心,解决了算力资源体量的问题。但算力的建设主体有多方:城市政府、各大运营商、超算中心等科研机构、互联网厂商等,这些算力架构存在差异,各自独立运营,需要通过以下能力打造实现并网和融通调度:
不同层级的算力并网能力。运营层并网,以转售第三方算力为主,通过订单转发实现并网;产品层并网,基于自有和外部算力自行定价,通过与第三方平台对接实现并网;逻辑资源层并网,需提前预占资源,利用与云平台开放的API服务对接实现并网。物理资源层并网,利用原生技术对物理资源进行直接管理,实现资源及产品的自主运营。
多类型算力的自动接入能力。针对不同算力类型、不同厂商的算力管理平台,实现算力的自动化对接和纳管,包括运营商和互联网厂商的通用算力、各大主体大力建设的智算算力以及国家和部分互联网厂商参与建设的超算节点。
异构算力的统一度量能力。针对不同类型的算力以统一的计算单位进行度量,以满足客户相同需求如何计算不同算力供应方应提供的算力数量。
统一的资源模型管理能力。提供统一的资源管理模型,实现对异构算力资源的统一管理和展示,为算力调度提供基础。
以通用化调度框架能力为驱动点,驱动应用探索东数西算带来的业务红利
东数西X,将东部的数据调度到西部算力中进行存储、渲染、计算或者训练。从宏观解决方案上分析,有两种实现途径。其一,应用自行进行数据的调度。例如:渲染类的应用,在西部租用算力资源,构建渲染服务能力,租用连接东西部的专属网络通道,将其在东部的数据传递西部进行渲染。其二,建设一个适用普遍应用东数西X需求的调度框架,提供数据便捷上传入口,帮助用户实现东西部数据高速通道连接,让用户和应用“无忧西算”。
通用调度框架建设,核心点在于:
算力网络基础设施接入和纳管能力。框架实现对西部海量异构资源、东西部的核心传输网络资源、及东部分布式接入网络资源这一基础设施的接入、纳管和调度;
分布式的接入能力。制定分布式接入软终端的统一协议,按需动态实现软终端的近源部署,让应用可以随地接入调度平台;提供不同形式的算力服务形态,如:裸算力、算力服务等,让满足普遍应用的算力使用需求;
需求解构和调度能力。调度框架可根据用户的需求,从性能和安全隔离等纬度调度最优传输通道;从西部海量算力池中,从性能、价格、使用率等纬度,调度最优算力。
以代价感知的智能调度引擎为突破点,让资源调度更加合理智能
通用化调度框架将用户需求和算力搭建了桥梁具备了东数西算的基础,还需一个智能引擎科学计算调度的成本和代价,智能化决策哪些东部数据需要传输到西部计算、调度哪些算力参与计算等,从而评估出同等收益下代价最优的调度方案。
调度任务按业务逻辑拆分。动态感知东西部算力资源情况,按不同的计算任务类型进行子任务的拆分,例如科学计算、算法训练、视频渲染、数据存储等,形成多个聚类的调度子任务;
多种评估维度的调度方案生成。以能耗、成本、性能、类型、安全等维度,组合出多种调度方案,并对每一种调度方案的算力代价及配套的网络传输代价进行计算;
构建代价感知算法,从多种调度方案中决策出最优者。代价感知算法会对备选的每一个调度方案,按算力成本、能耗、算力性能、网络性能及安全性进行归一化评估,能够让用户的需求,得到最优的资源匹配,满足计算要求的情况下,获得成本最优的调度方案。
以无损压缩、数据切片、云际计算等关键技术为增长点,让数据在东西部间流转更加高效、成本更低
海量的算力资源及通用化调度框架是东数西X的基础,但要让东数西X能进一步提升效益,需要通过技术手段降低数据从东部到西部流转的效率。可利用数据要素,数据切片、在网计算等技术,让数据传输更高效。
数据无损压缩技术,让数据传输占用更小的通道带宽。数据压缩,能够在有限的网络带宽中,传输更多的用户数据,无论是需要冷数据存储的东数西存、大数据集训练的东数西训,还是大视频渲染的东数西渲,都能大幅降低传输带宽的负载,同时,无损压缩确保在数据传输时不丢失任何原始数据信息,算网大脑调度框架,辅以较为成熟的Deflate等无损压缩技术,能够有效地减小数据的大小,提高数据传输的效率。数据切片多通道技术,让数据传输更高效和安全可靠。数据切片,可以将一条传输通道,划分成并行的多条逻辑通道,针对用户的算网资源需求从目标计算数据间的耦合度、数据运算时的串并行关系、数据运行的时效要求等纬度进行分析,将数据进行切片拆分成多个小的算网需求,调度到不同的通道中进行传输。例如:时效要求高、运行顺序靠前的数据,可通过独享带宽通道优先传输。时效要求低、运输顺序靠后,数据切片利用共享、低速率的通道进行传输。
云际计算技术,让数据分布式调度计算资源进行运算。在数据切片技术的基础上,使用云际计算计算,根据切片的计算要求和通算、智算、超算的能力特征,在全网范围内调度适合的算力资源,将数据分布到不同的节点进行计算,实时进行计算过程的二次数据传输调度,最后进行结果整合汇总和回传。
除此以外,还可以利用在网计算,存算分离等技术,进一步提升东数西算的整体效率。
2023中国移动全球合作伙伴大会期间,浩鲸科技正式发布智算时代下的新一代算网大脑BICN2.0。可以协助各大运营商,持续提升和优化算网大脑在算网编排层的核心能力,不断构建通用化的平台能力,降低场景应用门槛,降低使用成本。让更多单位、企业、个人能够使用到算力网络这一基础设施,享受东数西算工程这一政策红利。