中国铁路呼和浩特局集团有限公司信息技术所 内蒙古自治区呼和浩特市 010000
摘要:近年来,随着铁路信息化建设的发展,铁路信息系统已深入各类复杂的铁路业务场景。现有的铁路信息系统管理分散、资源不均衡、响应不及时等问题日益突出,传统的铁路信息系统体系架构已不能满足铁路各业务领域日益增长的业务处理需求。物流领域作为典型的物联网业务场景,将快递扫描业务上云,实现了边缘侧扫描校验、云上综合调度的协同策略。云边协同技术结合云计算和边缘计算各自的优势,既能应对大数据、长周期业务,又能实现快速响应、自动决策,为铁路信息系统提供了新的架构方案。
关键词:铁路信息系统;云边协同;微服务;容器编排;边缘计算
引言
铁路信息化经过数十年发展,取得了显著成绩,铁路信息系统在运输组织、安全生产、客货服务、经营管理、建设管理等领域发挥着重要的支撑作用,已成为铁路各单位、各部门不可或缺的重要手段。近年来,随着铁路主数据中心的投入使用、铁路云计算平台的应用以及“互联网+”行动计划的推进,铁路信息技术(IT,InformationTechnology)环境日趋复杂,由中国铁路信息科技集团有限公司(简称:国铁集团信息中心)承担运维服务的信息系统资源数量正在成倍增长。
1铁路信息系统运维现状
近年来,随着铁路主数据中心的投入使用和铁路云计算平台的应用,铁路信息化已经进入云计算时代。从企业数字化转型和信息技术环境演变的角度来看,云计算和移动互联网应用的快速发展,导致铁路企业传统的内外部网络边界模糊。虽然云计算和移动互联网应用为铁路信息技术创新提供了强大动力,但也带来了额外的挑战、复杂性和风险。传统信息系统运维工作的范围主要包括:服务器管理(操作系统级,如重启、脱机)、软件包管理、代码在线和离线、日志管理和分析、监控(系统和服务的区分)和告警、流量管理(分发、传输、降级、限流等),以及一些日常优化、故障排除等。典型的企业云环境通常包括多个平台的组合,如私有云、离云物理机和离云虚拟化,以及来自不同供应商的产品。云上与云下、内部与外部网络、跨平台系统交互与集成,都加剧了IT环境的复杂性和互联性。由于各种容器和开源框架的引入,信息系统的运维进一步扩展到容量管理、弹性伸缩、安全管理、故障分析与定位等方面。如果企业信息系统的架构设计不够健壮,系统中的任何一个小故障都可能导致企业信息系统的整体性能下降、下降,甚至造成业务中断。因此,实施高效的信息系统运维管理成为中铁集团信息中心防止停机和业务中断的关键,主要涉及三个任务:(1)优化企业信息系统和业务流程,为业务发展提供更多的创新支持和扩展能力;(2)提高企业信息系统运维水平和能力,加快对业务中断和系统故障的应急响应能力,减少事故造成的经济损失;降低了维护成本,实现了信息系统运维的标准化、自动化和高效化。为此,迫切需要研发一套铁路it智能运维管理系统,能够全面支持运维单位高效实施基于人工智能(AI,artificialintelligence)的信息系统运维自动化技术,通过细粒度运维数据采集和智能分析,模拟运维工程师的故障处理操作,实现故障自动识别和用例自动执行,甚至对已部署的自动化用例进行评估和改进。AI运维工程师除了可以自动完成大量的人工运维操作外,还可以自动识别故障、优化系统设置、排除系统缺陷、规避系统隐患、高效处理故障,大大降低系统风险。
2铁路信息系统云边协同技术体系
2.1应用协同
应用协同通过中心云应用管理模块和边缘应用管理模块协作,拆分铁路应用的云边能力,综合优化铁路应用。铁路信息系统的各个应用以镜像形式集中存储在中心镜像仓库中,通过应用分发管理,统一决策是否分发到边缘云;边缘云上拥有自己的边缘镜像库,负责接收从中心镜像仓库下发的应用镜像,以镜像分发的形式间接实现应用分发。中心云和边缘云都可借助各自相应的应用编排管理模块和生命周期管理模块,将应用镜像实例化成容器对象,在云和边同时提供铁路应用服务。
2.2资源协同
资源层涉及铁路站段各种边缘设备的管理,如智能摄像头、联网雷达、车载Wi-Fi等。资源协同提供底层的硬件抽象,降低上层应用开发难度,提供了全域调度和网络加速能力,使边缘资源利用率显著提升。资源协同主要涉及3类技术:(1)硬件抽象,Docker叠加Kubernetes构建一套标准化边缘计算平台,通过插件框架(DevicePluginFramework)的形式,保障如安检仪、闸机等联网硬件统一的抽象开发接口;(2)全域调度,应用可灵活定义的策略实现云边资源的动态调度,保证服务层和应用层性能最优;(3)全域加速,构建全域的Overlay网络,实现各节点的优化寻址和动态加速,为基于服务质量和确定性时延的调度策略打下基础。
3铁路IT智能运维管理系统的技术架构
为适应当前铁路信息系统虚拟化、云化的发展趋势,研发了一套铁路IT智能运维管理系统,为铁路信息系统智能运维提供统一的集成管理工具。系统采用B/S架构,运维人员可通过客户端访问系统功能。它支持在x86服务器上运行,可以部署在虚拟化和云环境中。各功能模块支持横向扩展和集群部署。保证了系统的高性能和高可靠性。(1)数据服务层:完成运维数据的存储、处理和分析,包括从监控对象采集到的原始运维数据,以及分析处理后的运维监控指标数据。为了保证较高的数据存储和处理性能,除传统数据库外,还使用了文档数据库MongoDB和ElasticSearch非关系数据库;MongoDB用于存储配置数据、事件数据、工单数据等。对于数据结构灵活的数据,使用ElasticSearch存储监控指标、日志、运维知识等需要高效检索的大容量数据;对于系统中访问频率较高的运维数据,采用Redis数据缓存,提高数据访问响应的及时性。运维数据的处理和分析主要通过Spark实现。基于历史运维数据,采用智能算法实现对各监控对象运行状态的趋势预测。(2)业务应用层:完成运维指标数据的相关性分析和智能分析,提供运维数据可视化显示和运维统计报表,支持灵活的告警分类调度策略,将不同级别和类别的告警分配给最合适的运维人员,通过轮班调度和自动升级机制,组织高效的梯级团队(包括运维管理人员和一线、二线、三线运维人员),为用户提供异常检测、故障分析和运维服务。为辅助决策等运维服务提供有力支持,建立7×24小时应急响应机制。
结束语
云边协同技术在铁路信息系统的应用,对于动态拓展业务、适应市场变化、实时决策发布、提升安全水平都有重要意义。为推动云边协同技术在我国铁路行业应用实施,提升铁路信息系统服务水平,应借鉴其他行业云边协同应用的经验,结合铁路业务自身特点,总结适应铁路系统的云边协同应用方案。
参考文献
[1]王家军,余林太,董臣超等.铁路运行信息系统开发设计及功能介绍[J].河北冶金,2019,No.278(02):71-75.
[2]王彰忠.当前铁路计算机网络安全建设措施[J].中小企业管理与科技(下旬刊),2019,No.567(02):22-23.
[3]赵贵普,曹秀稳.企业铁路安全管理信息系统的探讨[J].数字技术与应用,2019,37(02):205+236.
[4]陈海平.铁路规划与运量分析?GIS?系统探析[J].铁道运输与经济,2019,41(02):65-70.
[5]陈琳.铁路计算机信息系统安全与防护[J].电子技术与软件工程,2019,No.149(03):194.