水利信息化系统故障快速定位方法分析

(整期优先)网络出版时间:2024-06-06
/ 3

水利信息化系统故障快速定位方法分析

梅养杰

中国电建集团华东勘测设计研究院有限公司  311100

摘要:随着信息技术飞速发展和水利工程数量逐渐增多,水利领域的信息化管理已成为行业主流趋势。这些系统通常广泛覆盖多元业务领域与各式硬件设备,大大增加了系统的复杂度,面对系统故障或数据异常,传统排查手段往往既耗时又耗力,且难以确保定位精确,影响了运维效率与服务质量。鉴于此,本文聚焦于水利信息化的背景下,对软件系统故障的快速定位方法展开研究。在介绍一种相对基础的软件系统故障定位方法的基础上,探讨了机械学习、神经网络模型的应用。

关键词:软件系统;水利信息化;故障;快速定位方法

引言:近年来,水利行业信息化要求要求越来越高,即使软件系统不断地升级更新,故障仍不可避免。传统的故障诊断方法以人工为主,效率低且无法保证诊断质量。面对这一情况,研究软件系统故障快速定位方法显得尤为重要。

1软件系统故障定位方法

1.1故障现象的初诊断

在处理软件系统故障前,技术人员采用5W2H方法分析问题。即需要分析故障现象是什么样的、故障是什么时候发生的、故障为什么会出现、哪些位置形成了故障、需要消耗多少资源、怎么解决问题。故障现象的初诊断要求技术人员熟悉软件系统的整体功能,并能够进一步分析故障影响。

在初诊断故障现象后,可进行应急恢复,旨在加快响应速度,从而增强软件系统整体的可用性和稳定性。故障应急操作具有多样化的特征,包括通过服务重启来应对性能下降或异常、通过应急扩容处理资源不足的问题、通过优化SQL处理数据库繁忙的问题等。

在有条件的情况下,可在保存当前系统场景后再制定故障应急操作。例如,在抓取数据库快照文件后再杀进程。

1.2快速确定故障原因

处理软件系统故障最为基础的是确定故障原因。

第一,分析故障的形成是否具有偶发性、可重现性。在处理故障问题时,故障现象是否具有可重现性至关重要,若可以重现,则说明该故障现象一定存在解决方法或是工具,并且技术人员也能够明确故障原因,常见的可重现的软件系统故障通常是因为服务异常等操作导致的。具有偶发性的故障现象,表明其出现概率极小,排查难度相对较高,定位故障原因时需要保障故障期间现场信息充足。

第二,分析软件系统是否进行过相关变更。变更有可能会导致故障的形成,在明确故障现象后,若发现变更,则可以从变更的角度定位故障原因。

第三,分析故障现象是否可缩小范围。因很难全面排查故障发生的原因,所以,在定位原因时分析其是否可缩小范围,通过将故障问题范围进一步缩小,提高故障排查效率。

第四,其他分析角度。除了上述内容外,在快速定位故障原因时,也需要分析是否拥有足量的日志,是否存在CORE\DUMP文件等。针对重大的软件系统故障,需要启动紧急处理流程,快速地召集相关人员,详细地描述故障现状,说明系统的逻辑流程,陈述想法并进行排查等。

1.3建立故障定位模型

有效的软件系统软件定位方法,可借助算法模型明确故障。首先,需要明确被测试程序以及内部不同可覆盖语句,假设这些语句中都存在≥1个可被执行的测试用例[1]。当某个测试用例被执行后,将执行结果收集到一起。针对单个测试用例,既存在成功测试用例,又存在失败测试用例。既存在覆盖语句的用例,又存在未覆盖语句的用例,最终整理形成合集。

1.4应用故障定位技术

1.4.1 Tarantula定位技术

Tarantula定位技术通过计算程序语句的可以定位故障,公式形式:

1.4.2 Ochiai 故障定位技术

Ochiai 故障定位技术与Tarantula定位技术类似,也是通过计算怀疑度定位故障,其计算公式为

1.4.3 技术的综合应用

基于Ochiai 故障定位技术与Tarantula定位技术提出一种新的故障定位方法,经试验证明,故障定位效果更佳。首先是建立模型矩阵,其次计算语句的怀疑度,之后获得结果。

2基于机械学习的水利信息化软件系统故障快速定位方法

2.1技术路径分析

水利信息化软件系统的故障快速定位功能,应具备数据监测、自动分析、自动诊断以及提供建议等功能。在监测到异常数据后,启动自动分析功能,通过快速分析数据传输链路定位和诊断故障,并提供诊断结论、处理建议等[2]

以某水利工程的信息化软件系统为例,利用各类型传感器装置采集数据信息,并利用通信设备、传输设备等采集到的数据传输到调度中心,由调度中心进行分析和储存,然后再将信息作用到各专业业务系统中。

基于此,可将水利信息化软件系统故障快速定位方法的技术路径总结为以下几点,包括分析传输链路以及流向、确定网元告警采集方法、明确告警关系、建立二叉决策树、设立推理机制。基于机械学习二叉决策树的水利信息化软件系统故障快速定位方法如图1所示。

图1基于机械学习二叉决策树的水利信息化软件系统故障快速定位方法示意图

2.2基础模块

基于机械学习二叉决策树的水利信息化软件系统故障快速定位方法其基础模块包括网络结构、网络控制及数据采集、网络能力与数据交互模块、故障精准定位方法等。

第一,网络结构模块。无线网、承载网、核心网都是目前常见的三种5G网络[3]。在未来5G网络接入点部署密度将会更高,大概率会超过现有部署密度的10倍。承载网具有层级多、结构复杂等特点,对故障精准定位有着很高的要求。

第二,网络控制及数据采集模块。该模块借助SNMP等接口方式,采集数据资源,使得系统具备采集服务。

第三,网络能力与数据交互模块。该模块类似于数据库,负责统一存储数据,尤其是与故障精准定位相关的数据资源,比如拓扑关系、阈值告警等。

第四,故障精准定位。该模块明确了故障精准定位方法步骤,如图2所示。

图2故障精准定位方法的步骤流程示意图

2.3构建二叉决策树

2.3.1确定网元告警采集方法

软件系统网元告警采集方法具有多样性的特征,分别是SNMP Trap、SNMP Get、阈值告警、隐性测量告警。

第一,SNMP Trap具有高度的及时性,通常情况下,可在5s内利用网元完成告警收集、处理和实时上报。第二,SNMP Get的操作若过于频繁,网元设备的负荷会受到影响。所以,需要根据轮询周期设置告警时延,通常情况下轮询周期多为5分钟。第三,阈值告警因设计对性能指标的观察,所以,存在告警延时,通常情况下多为5分钟。其原理是设置阈值,若性能指标不在阈值范围内,则进行告警。常见的阈值告警如CPU利用率告警。第四,与前面提到的三种告警采集方式不同,预测测量告警及时性相对较差。主要是通过测量实现对部分网元问题的告警采集。从某个角度讲,隐性测量告警与前三种告警采集方式形成了互补效应。常见的隐性测量告警如基于RFC2544的性能测量等。

网元告警采集方法采集的数据包括设备、板卡、端口的资源数据,网络链路关系、包括单板异常等在内的设备告警,包括CRC误码等在内的链路告警,包括LDP状态在内的协议告警以及包括接口环回等在内的其他告警。

网元告警采集服务在获取相关数据后,会将其入库储存,归一化管理告警。

2.3.2明确告警关系

第一,分析和明确数据流向关系,根据分析结果建立与业务数据相对应的链路映射关系表,并详细记录各数据链路上的数据信息,包括但不限于设备名称、部署方式、上下链路关系。序列化处理和储存数据,使其成为精准定位故障的基础信息之一。以某个水利工程的信息化软件系统为例,针对传感器,采用了单节点部署方式,选择了单链路,其上联1号LCU设备;接入交换机与集控接入交换机A建立映射关系,采用双节点部署方式,选择双链路,上联集控核心交换机A和B两个设备。

第二,在建立链路关系的基础上需要建立针对每个阶段的监控项。例如,确定传感器的监控项为故障开关量信号;确定采集设备的监控项为整机在线状态、模块开关量信息;确定服务器的监控项为服务器在线状态等。通过每个类型设备对应的监控线,能够为后续决策树判断推理奠定基础,同时也能够简化其处理逻辑。

第三,根据水利信息化软件系统的基本特征明确告警信息的基本特征,如层次性,不同层级告警信息不同。为避免出现告警信息混淆问题,可通过设置关联告警配置的方式进行过滤,减少衍生告警事件,突出真实且重要的告警事件,从而避免出现告警风暴等。

2.3.3建立二叉决策树

第一,遵循基本原则。在建立二叉决策树时,需要设置告警优先级。如先上层设备告警,后下层设备告警;先设备告警后板卡报警再端口告警;原生告警、物理告警要优先于衍生告警、逻辑告警等。

第二,二叉决策树是机器学习中的一种预测性模型,反映对象属性与对象值的映射关系。每个节点对应着一个对象,每条分岔路径对象属性,每个叶节点对应该路径所代表的对象值。常见的决策树节点有三种,一种是使用矩形框表示的决策节点,一种是使用圆圈表示的机会节点,一种是使用三角形表示的终结点。

在建立二叉决策树时,首先是计算,获得关于样本分类所需的期望信息,之后是根据特征属性完成计算,明确增益熵值。最后是代入,将水利信息化软件系统的实际阶段代入到建立的二叉决策树模型中。在这个环节中,需要增加设备类型属性以及重构分析样本,完成概率熵值的计算并分析信息增益值等[4]

2.4设立推理机制

结合水利信息化软件系统数据链路的基本特征设立有效的推理机制。

第一,提取和收集数据特征。推理机根据任务指令收集关键数据,并分析采集值,通过与阈值或故障定义条件相对比,调用推理模型分析数据状态,定位故障。第二,确定推理过程。在该环节,涉及序列化数据的调用。推理机根据业务数据与数据链路之间的映射关系调动训练库,完成计算,获取增益值,并通过重组排序,确定故障的先后顺序。之后利用二叉决策树模型进行分析和判断,完成每个阶段的故障定位,并获得故障现象的初诊断结果。在获得结果后,进行关联查询,找出对应告警的解决方案。通过与工单系统联动,形成附加解决方案的故障工单。第三,根据微服务思想,按照各种类型的告警监控项,在结合二叉决策树模型的基础上,编写具有可行性、可操作性的推理过程。

3基于神经网络模型的水利信息化软件系统故障快速定位方法

近年来,人工神经网络技术飞速发展,应用前景广阔。将其应用到信息化软件系统故障快速定位中,不需要建立精准的数学模型和诊断推理规则,便可有效地处理非线性问题,并按照设定准则自学习。

3.1一般性神经网络

神经网络多采用分布式数据存储模式,模型下的拓扑结构与权值之间呈现出近似于非线性系统的关系,具备平行运算、泛化和容错能力。基于神经网络模型的故障快速定位方法的应用备受关注,较为常见的是BP神经网络。该模型最大限度地降低了误差平方和。在水利信息化软件系统故障快速定位设计中应用该模型,需要根据问题、系统等选择出类型合适的网络。

3.2多层网络

基于多层网络的故障诊断系统,在一定程度上能够提高神经网络的学习效率和运行可靠性。每个子网负责不同的任务,同时也只接收与自己相关的输入,也就是说,每个子网只负责发送任务的一部分,之后通过整合各子网的运算结果,获取最终的故障诊断结果。这种方式提高了模型的计算速度。

3.3模糊神经网络

模糊神经网络是神经网络与模糊逻辑相结合的产物,包括输入层、模糊化层、规则节点层和输出层五个层级,主要是通过自适应学习样本数据,提取可以描述故障状态的参考模型,经过在线比对特征后确定最终正确的故障诊断结果。应用模糊网络模型可以解决存在于故障征兆与故障原因之间的一些不确定因素,成功解决难题,将其应用到水利工程信息化软件系统故障快速定位方法设计中,可以实现对控制对象、传感器等的故障诊断和预测。

结论:为满足水利工程信息化需求,技术人员需要从软件系统设计上入手,优化故障诊断与定位设计,应用有效的故障诊断技术,并基于机械学习、神经网络模型等设计水利信息软件系统故障快速定位方法,实现故障的快速定位和高效处理,保障水利工程稳定运行。

参考文献:

[1]舒美智.一种有效的系统软件故障定位方法[J].工业控制计算机,2021,34(05):85-86.

[2]文帅川,周波,秦海燕.基于二叉树算法的5G承载网故障定位方法及实践[J].移动通信,2020,44(10):25-33.

[3]刘天山,胡露骞,夏天,李萌萌,彭取,谈震.基于二叉树算法的水利信息化系统故障快速定位方法研究和实践[J].中国农村水利水电,2022(8):121-127

[4]杨敏.5G支撑网告警数据的故障定位方法[J].移动通信,2022,46(12):120-128.