基于软硬件资源池的负载均衡与自动化交付研究

(整期优先)网络出版时间:2017-01-11
/ 2

基于软硬件资源池的负载均衡与自动化交付研究

摆小军张烜吕娜刘权

(国网新疆电力公司信息通信公司新疆乌鲁木齐830000)

摘要:目前,在软硬件资源池应用的基础上,为提升资源池使用率,增加业务虚拟机的可用性、可靠性及快速部署等。为避免单点故障,同时达到资源自动交付的功能,进行以下两方面研究:资源池平台业务负载;“云计算”自动化交付单元。

关键词:软硬件资源池;云资源管理“云计算”自动化交付单元;单点故障

1现状分析

1.1资源池平台业务负载

目前,资源池平台涉及到了绝大部分的生产中心业务,主要包括目录服务、数据资源管理工具、数据交换、企业服务总线、统一权限管理平台、非结构化平台、海量历史/准实时数据管理平台、统一车辆管理平台、电网GIS地理信息服务平台、统一企业门户、电网统一视频监控平台、人资管控系统、远程培训、凭证协同系统、员工报销系统、财务管控系统、生产移动作业系统、资产全寿命评估决策、输变电状态监测系统、电力交易市场系统、电能服务管理平台、一体化缴费接入管理系统、营销分析与辅助决策系统、营销稽查监控系统、营销业务应用系统、用电信息采集系统、IMS信息运维综合监管系统、TMS通信管理系统、干部人事管理系统、经济法律管理系统、IAS、内网网站、内网邮件、ERP业务审计、农电管理系统、运营监测(控)信息支撑系统等系统。

当前,大部分业务应用没有负载均衡策略,单台的虚拟机是在单台主机及单台存储上,虽然计算资源可以通过VMwareHA实现高可用性,但是存储以及虚拟机自身的宕机都会造成单点故障,因此,业务应用必然会受到影响,甚至会出现应急检修重新部署业务应用的情况,这不仅会影响业务本身,还会影响公司信息化服务水平,从而降低电网公司的企业形象。

1.2“云计算”自动交付单元建设

目前,公司已完成了软硬件资源池平台的建设工作,为了推进公司“云计算”建设,公司积极开展相关工作,完成了“云计算”的基础环境搭建,解决了计算资源调用问题,总部云资源管理平台已实现自动化交付单元的建设,公司针对现有环境,制定建设方案,实现了公司侧的自动化交付单元功能。

2解决方法与成效

2.1资源池平台业务负载设计方案

对于资源池平台中可能出现单点故障的业务系统,通过负载均衡技术部署出多个业务应用节点,并通过在多个集群、多个服务器、多个存储上分布这些业务应用节点来全面实现业务应用的负载均衡,避免平台中可能出现的集群、主机、存储等单点故障隐患。

如图1-1所示,虚拟化集群内业务存在多个节点,分布在不同集群、主机和存储上,这样软硬件资源池能在实现HA、DRS基础上,达到了业务应用全面负载均衡的效果,保障业务可用性、可靠性、连续性等。

2.2业务应用节点

当前的软硬件资源池平台中,并非所有业务都部署在多个节点上,当业务应用服务器只有一台时,通过与业务负责人沟通,将业务应用部署在多台服务器上并通过负载均衡设备消除单点故障的隐患。

2.3集群负载

当业务区域只有一个集群且业务应用服务器在集群内存在多个节点时,通过集群内主机、存储负载的方式实现业务负载均衡。

当业务区域存在多个集群时,通过将业务服务器分布在不同集群的方式,手动迁移虚拟机将应用瓶颈分配到多个集群,从而更大程度上避免了由于计算资源出现故障导致整个集群瘫痪,以致业务不可用的问题。

2.3.1主机负载

对于主机计算资源,通过集群DRS策略建立规则,使业务服务器每两台分布开,即业务服务器中每两台遵循分布在不同主机的策略,实现主机DRS负载均衡,避免主机单点故障。集群DRS策略如图1-2所示。注:采用业务服务器每两台分布的方式,是考虑到有些业务服务器较多,如若全部制定分布策略,当部分主机同时宕机时,会出现策略失效问题从而影响到业务服务器。

2.3.2存储负载

存储方面,通过手动迁移(重定位)的方式(由于存储DRS会占用太多的流量,不考虑使用),使业务服务器每两台服务器分布在不同的存储空间中,避免存储单点故障。具体如图1-3所示。

3“云计算”自动交付单元实施

总部云资源管理平台建设目前已经趋于成熟,并相继开放自动化交付单元等第二功能。将资源使用方和供给方进行解耦,资源需求单位专注所属资源的申请、使用、查看、回收等面向业务的简单操作,而资源的供给方则专注于资源池整体的容量管理、资源交付、运行管理等面向技术的专业化的运维工作。

虽然总部云资源管理平台第二功能已经完善,但现有的软硬件资源池平台并不能实现其功能,为了实现这第二功能,需要网省公司对现有环境做相应调整,在保障自身平台架构的基础上整合资源,从而能快速将软硬件资源池平台集群、主机、存储接入到云资源管理平台中并提供可用的网络环境来实现自动化交付功能。为此,公司针对现有软硬件资源池平台,制定了以下建设方案。

3.1主机

为实现自动化交付单元,首先要完成软硬件资源池平台集群及主机接入工作,其中包括:按照集群命名规范命名集群名称,明确标明集群所属数据中心、功能区、等保级别、池类型、管理单元节点,调整集群内宿主机数量保持在15-25台之间等。

公司目前已经将软硬件资源池平台中主机全部接入到云资源管理平台,并且全部按照规范定义了集群名称,如下图所示:

3.2存储

自动化交付单元中申请的资源最终都会写入到存储中,因此,需要存储接入工作。公司在软硬件平台每个集群中提供至少2T的存储来给云资源管理平台自动化交付单元功能使用,并且按照规范命名这些存储,如下图所示:

3.3网络

为方便云资源管理平台自动化交付单元功能的使用,公司为总部云资源管理平台提供了每个区域的网络地址,并保证网络的连通性。具体如下图所示:

3.4自动化交付成果

为了验证功能,公司通过云资源管理平台申请了一台虚拟机资源(如图2-4所示),云资源管理平台根据审批完成的工单内容在软硬件资源池平台中自动部署了一台虚拟机XJ-wisdom1(如图2-5所示),且所有过程加起来不超过30分钟,大大减少了运维人员的工作量以及运维难度,同时更加推进了公司“云计算”建设的步伐。

4总结

通过公司对资源池平台业务负载实施以及“云计算”自动化交付单元实施工作的积极推进,一方面避免了公司软硬件资源池平台中可能存在的单点故障,同时推进了公司“云计算”的建设实施工作,使公司软硬件资源池平台深化应用又迈进了一步。