中国联通山东省分公司,山东 济南 250001
迈过农业时代、工业时代、信息时代,人类进入了以数据为关键生产要素、算力为核心生产力的数字经济时代,算力成为支撑数字经济向纵深发展的新动能,数据量的爆发式增长对数据中心的算力、对数据中心之间的承载网络提出了更高要求。
背景分析
随着AR/VR、元宇宙、工业互联网等新型数字应用的发展,网络需要具备云网资源精准感知、全局实时智能调度控制、大带宽低时延高可靠传输能力,现在的ICT融合技术侧重于解决云网的自动编排,采用软件定义和虚拟化技术、实现云网资源的灵活调度和统一管理。
国家出台的“东数西算”规划主要是在数据中心布局层面进行完善,初步计划到2023年底,国家枢纽节点算力规模占比超过70%。“东数西算”工程规划中,东部节点定位于满足实时算力需求;西部节点定位于承接全国范围需后台加工、离线分析、存储备份、平台互联网等非实时或时延不敏感算力需求。大量高度实时性的业务则通过各区域或城市的数据中心、边缘计算模块承担。
算力服务对承载网络的需求主要体现在超大带宽、低时延、高可靠、安全性、灵活性方面。
关键技术
一、大带宽
“东数西算”工程规划中东部DC以服务本区域算力需求为主,西部DC以服务全国算力需求为主,西部DC预计出省带宽在70%以上。当完成“东数西算”规划的机架数时,预计骨干网的传输带宽将达到现有运营商骨干带宽的3倍左右,东西部的骨干网带宽将达到2000T以上。随着西部承接算力比重逐步增加,东西向骨干网带宽将以远高于骨干网平均增幅的速度增长。
二、低时延
时延是影响用户对算力服务体验的关键参数之一,不同类型的算力服务对时延的要求差异较大。根据时延需求可将业务分为热业务(低时延业务)、温业务(时延相对敏感业务)、温冷业务(时延不敏感业务)、冷业务(时延不敏感、数据读写频度极低)四个层级。热业务对时延要求在10ms以内,占比5%-10%,这类业务一般部署在边缘算力设施;温业务对时延要求在30ms以内,占比55%-60%,这类业务可部署在边缘算力设置或区域数据中心集群内;温冷业务对时延要求在100ms以内,占比20%-30%,冷业务对时延要求在100ms以上,占比10%,这两类业务均可部署在西部数据中心。
随着东西部间网络优化,网络传输时延可进一步缩短,这样将会有更多业务采用“东数西算”,从而催生更多的创新服务模式,如多云协同、存算分离、云边协同等。
表1 不同类型业务对时延的要求
业务分类 | 时延 | 业务部署建议 | 业务占比 | 典型应用/服务及算力需求占比 |
热业务 | <10ms | 城域部署 | 5%-10% | 金融交易、AI推理、直播、游戏、工业控制、低时延物联网、车联网等; |
温业务 | <30ms | 区域部署 | 55%-60% | 政务网站、智慧城市、协同办公、部分工业互联网等; |
温冷业务 | <100ms | 东数西算 | 20%-30% | 异地容灾、视频转播、医疗影像、基因测序、大数据、云会议等; |
冷业务 | >100ms | 东数西算 | 10% | 数据备份、归档、门户浏览、社交、邮件、电商、AI训练等 |
优化时延的应对措施:
1、优化网络架构
国内通信网络长期以来形成三层骨干网架构:
核心层:以几个大区(北京、上海、广州、武汉、成都、西安、沈阳、南京等)为中心组成核心层,核心层采用全网状互联方式,实现核心层节点间直连。
骨干层:骨干层以省会城市及部分重点城市为主,分大区连接核心节点。跨省的业务通过核心节点转接。
接入层:各个地市的业务先上联省内骨干节点,再通过骨干层和核心层进行业务的转发。
这种架构可提高网络资源的效率,在成本、资源利用效率与业务性能优化(时延、带宽等)间实现平衡。随着互联网业务的高速增长,以及业务对时延要求越来越高,目前国内运营商普遍以骨干层节点间直连的方式,推动网络扁平化,缩短业务转接的跳数和路由长度。
但“东数西算”工程的多个集群都不是骨干节点,上述架构下,业务访问这些枢纽节点必须要绕转到省会骨干节点转接,业务传输的路径大大增加,时延也增加。通信网络应进行网络架构的调整,以优化业务访问国家枢纽节点的路径和时延。包括:
(1)骨干层网络围绕国家枢纽节点组网,增加国家枢纽节点间的直连通道。
(2)打破按省组网的传统,东部四大区域围绕区域内的国家枢纽节点优化地级市访问枢纽节点的网络结构,如京津冀区域内的城市应围绕张家口和呼和浩特两个国家枢纽节点优化区域内的网络;长三角地区应围绕芜湖、苏州、嘉兴、青浦优化区域内网络;大湾区围绕韶关优化区域内网络。
2、优化光缆路由,缩短业务时延
长期以来西部地区的业务量较小、距离东部城市远,导致西部的光缆路由少,尤其是几个西部地区的国家枢纽均在地市级城市,而骨干光缆网络围绕大区中心、省会城市组网,难以保证西部国家枢纽到东部地区的路由最优、时延最短。因此应结合网络架构调整,围绕国家枢纽节点,以提高网络可靠性、降低业务访问时延为目标:
(1)将国家枢纽节点作为骨干光缆网的核心节点,丰富和优化国家枢纽节点的光缆路由,实现国家枢纽节点间直连路由最短,每个国家枢纽至少有3个完全分离的光缆路由以保证网络可靠性。
(2)聚焦京津冀、长三角、粤港澳、成渝等算力核心区域,实现区域内城市到国家枢纽或集群的最优接入;打造区域内、重点城市间低时延圈,实现京津冀区域内8ms、京津冀核心2ms、长三角区域内8ms、环沪3ms;大湾区域内4ms、主要城市间2ms;成渝区域内4ms,主要城市间3ms的时延目标。
光缆长度是造成传输时延的主要因素之一,每1000公里长度的光纤的传输时延约5ms。通过优化光缆路由,可进一步缩短业务时延。
三、高可靠
“东数西算”工程推动数据中心的集约化发展、多云或云边算力协同等新型算力服务的部署,网络或算力服务的故障对数字经济日常运营的影响越来越大、越来越明显。
对网络可靠性的要求主要包括网络无故障、网络无丢包、网络无突发拥塞、故障快速自愈、网络性能确定(路由、时延、宽带等)等方面。“东数西算”的一些业务场景,如多云协同、存算分离、业务远程集约化部署等,将本属于数据中心内部的网络连接,或者城域、区域内的连接,扩展为长途传输连接。通常数据中心内部网络的可靠性远高于长途网络的可靠性,因此“东数西算”应用场景将对长途网络可靠性提出更为严苛的要求。通信网络可从以下几个方面提高网络的可靠性:
1、减少网络故障,以及出现故障时网络能够快速自愈
在“东数西算”场景下,数据传输的距离越长,理论上发生故障的概率更高,因此降低故障发生的概率,提高故障时的恢复效率、故障修复效率是提高网络可靠性的关键。采用大数据和人工智能技术是实现网络故障隐患预警、故障快速定位和修复的主要技术方向,需要运营商深度将大数据和人工智能技术与网络技术结合,提性能分析、故障预警、故障定位的效率和实时性,实现网络实时自愈、故障高效处置,这也是近年来运营商的网络运营智能化的主要攻关方向。
部署多层次的网络快速自愈机制是降低网络故障影响,提高网络服务可靠性的主要方案。OMSP是光网络分段物理层保护机制,能够无条件实现光层线路分段对所有业务的快速保护(业务恢复时间在50ms以内),但该机制要求每个线路局向都有2个物理隔离的光缆路由,成本较高。基于协议的业务层恢复机制在故障情况下需要进行协议的会话和恢复路径的计算,恢复时间达到200ms以上(比如光网络的ASON、WSON恢复机制,IP网络的FRR机制等),远不能满足“东数西算”业务对网络自愈性能的要求。SR技术推动IP网络高可靠恢复技术的发展,比如SR TI-LFA能力预先计算各种故障场景下的业务备份路径,当出现故障时,业务可在50ms内完成恢复,不需要额外的协议。但该机制还是在业务层进行保护,当业务较多时,难免出现几条业务竞争网络资源,影响业务性能。多层次的网络自愈机制存在,在故障发生时多种机制同时启动,造成业务的多次切换,反而降低了业务的可靠性,因此多重保护恢复机制的协同是需要研究的重要课题。
2、加强业务规划和差异化保障能力
正常情况下,网络物理层的误码率设计指标为1e-12,几乎不会因为网络传输造成丢包。但在IP网络中,网络突发信令风暴等事件、流量的突发,会造成网络突发拥塞,导致网络丢失一些报文或者转发时延增长。在网络故障情况下,业务自动恢复机制启动,也会造成局部路由上网络拥塞,引起网络丢弃一些报文或者转发时延增长。为此,需要创新网络业务规划和流量调度机制,SDN管控技术与人工智能技术深度结合,可以保障高等级业务在网络拥塞和故障情况下的优先转发、高性能转发。比如:
(1)IP网络和光网络协同业务规划,提供差异化的业务保障,对高品质业务,可采用光传输网络直接提供,为客户提供专享通道。
(2)IP网络部署切片技术,不同等级的业务在不同切片中承载,避免业务相互干扰。
(3)部署QoS差异化业务保障机制,在特定场景下保证高等级业务的优先转发。
四、低成本
“东数西算”工程将推动东西向长途传输需求高速增长,但长途传输费用是IDC产业和互联网、云服务产业中的主要成本之一,客户采用“东数西算”模式部署业务,势必带来长途传输需求大量增加,企业运营成本也因此提高。为推动“东数西算”工程实施,《全国一体化大数据中心协同创新算力枢纽实施方案》中专门提出要“降低长途传输费用”,提出要建立新型的互联网交换中心降低互联的费用。为此,运营商一方面需要采取措施多方面降低网络建设和运营成本,从而降低网络带宽租用成本;另一方面需要通过智能管控系统提供按需开通、按需动态调整带宽等灵活、实时、以小时或天为单位的短租网络连接服务,扩大市场空间、提高网络利用效率,降低长途传输费用。
五、智能管控与编排
“东数西算”工程,将推动打造一批算力高质量供给、数据高效率流通的大数据发展高地。跨网、跨地区、跨企业的算力高效调度,需要智能、感知、灵活、确定的高速网络支撑,网络需要基于算力和网络的全局资源视图,根据网络部署状况进行全局的编排调度。运营商及大型云服务商和互联网公司一直在研究和推动网络智能管控与调度技术,“东数西算”工程的实施对网络的智能管控和统一协同调度服务能力提出了更高要求。
(1)智能高效提供差异化路由。“东数西算”工程实施,将带动大量的东西向专线业务需求,包括长途入云业务、云间协同和数据传输业务等,对现在以东部为主、以三大区域经济圈为主的网络业务分布模型带来较大冲击;各种应用对时延、带宽等主要网络参数的要求不同,需要长途网络支持基于应用需求的跨域跨网络可编程能力,网络管控系统能够基于多种网络参数,选择和提供面向需求的差异化路径和服务。例如,随着行业信息化和数字化转型的深入发展,对于运营商的网络能力提出了更高的要求,因此需要解决跨域专线业务开通周期长、配置复杂度高的问题,实现跨域政企专线一键式开通、带宽一键式调整的能力,满足行业客户的多样化需求。
(2)提升网络智能化运营服务能力。随着“东数西算”工程的发展,将逐步出现多云协同、云边协同、存算分离、分布式云计算等复杂业务场景,这些云间协同服务要求网络能够智能、自动、实时感知应用,并基于需求提供灵活、实时、可靠的全局可编程的调度和协同服务。
总结和展望
进入算力时代,对通信运营商而言机遇与挑战并存,首要的是做好信息基础设施服务商,构建开放、灵活可持续的传递算力的网络。打造云管边端协同能力、网络弹性敏捷能力。发挥以5G为代表的接入网络覆盖和体验优势、长期运营积累的边缘局房数量和质量优势、网络云化后的计算资源富余优势。
参考文献:
[1] 东数西算研究报告,中国联通研究院,2022年7月
[2] 确定性算力网络白皮书,紫金山实验室,2022年
[3] 曹畅,算力网络发展与展望,中国联通网络技术研究院, 2022年