电网GIS平台运维管理提升研究

(整期优先)网络出版时间:2021-07-09
/ 2

电网 GIS平台运维管理提升研究

李呓瑾 2. 宁浩宇

云南电网有限责任公司信息中心

摘要:电网GIS平台已在公司范围内进行推广应用,由建设期进入运维期,随着功能深化应用,版本升级、数据安全防护等日常运维作业事项频繁开展。结合电网GIS平台运维管理的实践中,参考国际化项目管理知识体系,从GIS平台运维的实际情况出发,总结良好的管理实践、原则、过程、工具和技术。

本文主要从解决运维账号权限过大、运维作业工单应用场景不规范、异常处理流程未标准化三个方面的内容开展论述。不断提升系统运维管理水平。

关键词:GIS平台、运维管理、权限、异常处理

引言

电网GIS平台是南方电网公司的重要信息系统之一,GIS平台已在全公司范围内稳定运行,随着业务要求的不断提升、系统环境要求的不断提高、信息化程度的不断深入,对系统版本升级、软件咨询服务和数据库安全防护、功能优化调整、数据处理等日常运维工作需求不断增加。本文着重从解决运维账号权限过大、运维作业工单应用场景不规范、异常处理流程未标准化三个方面的问题开展论述。不断总结工作经验,提升系统运维管控水平。

  1. 运维管理提升研究

    1. 运维账号权限过大

目前存在运维账号权限过大的问题,运维账号具备操作系统管理员的权限,能够在无变更作业工单情况下使用巡检工单登录服务器开展变更作业,此安全隐患应及早消除。通过权限管控作业范围,规范化作业人员合规操作。

  1. 新增应用运维虚拟机,应用运维人员一人一账号,并授予不同帐户或角色为完成各自承担任务所需的最小权限,并严格限制默认帐户和特权账户的访问权限,在它们之间形成相互制约的关系权限最小化并强制限制密码有效期,保存账户密码时采取保密性措施。

  2. 开通应用运维虚拟机与应用系统服务器间最小需求的网络策略,满足应用运维所需的服务健康检测与用户咨询服务需求即可。

  3. 配置文件同步工具,将日志文件从应用服务器准实时同步至应用运维虚拟机,满足应用系统运行巡检与问题排查处理的需求即可。

  4. 应用巡检与平台巡检作业范围割接,应用巡检的工作范围包括系统功能检查、系统运行状态检查工作;平台巡检的工作范围包括操作系统运行状态检查、服务器资源检查工作。

  5. 利用作业工单管控平台的运维监控、审计回放功能加强应用运维账号的自动化监控水平,作业过程中一旦发现运维账号开展超出作业范围的操作,即刻将告警信息发送至监管人,对不规范行为进行审查纠正。

    1. 运维作业工单应用场景不规范

应用运维与平台运维绝不是互相孤立的工作,通常是主体责任与非主体责任的结合,高效协同的合作才能顺利的开展任务。应用系统的变更作业涉及到操作系统、中间件、应用容器等,因此需要应用运维人员作为主体责任人,平台运维人员作为非主体责任人,互相监管、相互协助,高水平的完成作业计划。因此非常有必要划分RASCI矩阵,明确相关责任人在工作的牵头(Responsible)、批准(Accountable)、配合(Support)、咨询(Consulted)、知情(Informed)角色与责任,以保证对角色和期望的明确划分,使协同作业更加高效。

作业工单明确申报作业范围,细化作业内容至具体文件路径、中间件、应用程序等,并对作业情况进行自动化监控,监管超范围作业或遗漏工作事项的情况发生。如果出现作业工单超出作业范围或遗漏工作事项,由自动化监控系统进行记录并告警,作业完成后在作业总结中补充说明并由监管人审查,确认作业计划成功且完整的执行。

    1. 异常处理流程未标准化

在运维管理制度中已经建立符合当下需求的异常告警制度与异常管控制度,但是应用系统种类繁多,出现的异常情况各不相同,需要针对系统间的一致性与差异性建立适用范围相对广阔的异常处理流程。并且在应用运维人员处理异常事件的过程中处理人往往凭借个人的知识经验为依据开展异常处理,因此异常处理的效率与流程因人而异,缺少标准化异常处理流程。虽然异常出现的场景存在成千上万种可能,但是总有部分异常具有相似性,因此异常处理流程也存在相似性,所以应对高风险、影响大的异常建立规范的、标准化的处理流程。借助GRAI复盘法可以使标准化异常处理流程动态循环优化,适用范围更加广阔,保持持久的旺盛生命力。使用频次非常高的协同场景可能发生的异常事件具有典型性及急迫性,所以研究过程中以一体化GIS平台与生产管理系统间配网设备台账移交协同场景、一体化GIS平台与营销管理系统间低压用电客户装拆协同场景中可能发生的异常为研究对象,分析标准化异常处理流程。

在现阶段异常告警制度中,问题还没有发展为异常事件的情况下,最初往往只是收到告警短信,如果事态恶化超过异常阈值则升级为异常事件。告警短信分为两类:超时告警与失败告警(告警短信的生成机制不做论述)。首先是告警短信处理策略:超时告警短信对应用系统功能几乎无影响,只作为示警。非常短暂的一次性超时告警可以忽略;短时间内多次出现的超时告警应该高度关注,加入应用巡检待办任务清单并在2小时内响应2天内解决。无论失败告警短信出现频次多少都应该开展排查,因为任何失败都有可能影响系统健康稳定运行,这是一项必须高度重视的工作。非常短暂的一次性失败告警应在1小时内响应1天内解决;短时间内多次出现的失败告警应该在30分钟内响应8小时内解决。

当异常事件发生时,处理异常事件相关人员的权与责应按照RASCI矩阵进行分配,每个应用系统的RASCI矩阵中相关人员是不同的,并且每个角色还可以存在AB角。而且可能异常表象发生在甲系统,随着异常处理工作的开展,发现异常是乙系统引起的,那么就应该切换至乙系统的RASCI矩阵开展工作。异常处理流程:R角色应首先向A角色、I角色汇报发生异常,并且需要S角色、C角色参与配合自己开展工作;然后R角色与S角色进行沟通,取得配合开展工作的承诺并交代S角色的任务;Rectangle 537 异常处理工作开展过程中,可以向C角色寻求帮助;R角色判断是否由本系统引发异常,若是本系统引发异常,那么继续由R角色牵头开展异常处理,若为乙系统引发异常,应立刻向A角色、I角色汇报,转为乙系统的R角色牵头开展异常处理;处理过程中遭受挫折或取得进展或定时汇报或其他必要情况下,R角色均应及时与A角色沟通,保障异常相关人员知情权;异常结束后,应规范化填报异常管控报告,如实报告异常类型、异常产生的影响、异常处理过程、引发异常的根本原因、异常是否根本解决、是否需要开展后续整改优化工作等内容。异常处理工作采用PDCA循环方法,不断提升异常处理能力,减轻异常引发的不良影响,将异常发生的风险降到最低。

  1. 结束语

经过一体化GIS平台运维管理提升,运维人员作业规范化,运维作业工单应用场景规范化,异常处理流程标准化,当前的应用系统运维过程导致异常显著减少,建议推广应用至其它信息系统运维管理工作中。


参考文献:


[1]美国项目管理协会(Project Management Institute ).项目管理知识体系指南(PMBOK指南):第六版[M].北京:电子工业出版社,2018

[2]甘志鹏,李金凤.基于改进责任矩阵模型的跨部门职责链设计[J].人力资源管理,2011(12):72-73


1.李呓瑾(1991.3.22),女,汉族,云南昆明人,云南电网有限责任公司信息中心。研究方向:信息系统运维。

2.宁浩宇(1994.6.25),男,汉族,云南昆明人, 云南电网有限责任公司信息中心。研究方向:信息系统运维。