(国网内蒙古东部电力有限公司敖汉旗供电分公司内蒙古赤峰市024300)
摘要:安全态势感知的基本原理是将当前时刻采集的网络中全部的关键节点的信息,对网络当中存在的被攻击的迹象和违反安全策略进行检查,并通过统计的方法对电力信息网络的当前安全态势进行描述。
关键词:电力信息网络;安全态势感知;分类器;
当前,电力信息网络的安全态势的判断的准确性不高;针对这一问题,在机器学习的基础上提出了一种安全态势的感知方法,这种方法是在分类器中引入现场检测设备记录的数据,进而得到电力信息网络的感知结果。经实验验证,此电力信息网络的安全态势感知方法的感知精度较高。
一、基于量子遗传算法和球向量机的电力信息网络
1.数据预处理。电力信息网络的实时性要求相对比较高、地域的跨度也比较干,网络安全监测数据的精确性将直接影响电力信息网络的正常运行,通常情况下,通过在旁路镜像布置探针的方法实现对网络的安全监测,也就是说将网络的复制镜像布置在电力信息网络的外网出口,随后通过探针从中抽取实时数据的过程。电力信息网络系统需要的数据就是对全部探针收集到的数据的汇总。电力信息网络系统的工作原理是通过基于球向量机和量子遗传算法学习训练历史数据,获取电力信息网络的判断模型,随后,通过此项模型实现对电力信息网络的在线监测。在维持原先样本类别分为的状态下,把事先收集的样本依据2:3的比例随机划分到修正样本集与训练样本集当中,修正样本集的作用是实现对电力信息网络系统判断模型误差的修正,训练集的作用是用在球向量机和量子遗传算法的训练获取临时分类器的过程当中。将样本集划分为修正样本集和训练样本集的优势在于全部样本集之间并不存在所谓的交集,有效提高了分类器的推广能力。
2.球向量机和量子遗传算法模型。球向量机和量子遗传算法模型的核心分类器是球向量机,量子遗传算法是一辅助工夹具,作用是实现对球向量机训练模型中存在的误差的修正。在球向量机和量子遗传算法的模型当中通过量子遗传算法提供的训练参数,利用球向量机可以获取临时的分类器,随后通过修正样本集来期望测试获取的临时分类器,如果该分类器没有达到期望值,就需要采用量子遗传算法获取新的训练参数,提供给球向量机获取新的临时分类器,直到临时分类器的期望值达到预定期望值为止。
二、量子遗传算法与球向量机的基本原理
1.量子遗传算法的基本原理。量子遗传算法是在量子计算和遗传算法的基础上实现的,和传统的遗传算法相比,量子遗传算法中的染色体用量子位编码来表示,其种群进化是通过染色体与量子旋转门的交叉实现的,所以,量子遗传算法具有收敛速度快、种群规模小以及不容易陷入局部极小值的优点。某个量子为具有1和0这两种状态,那么m个量子位就具有2m种状态,因此,量子遗传算法的种群规模较小,假设状态Si的概率幅为Ci,那么状态矢量就可以用2m个Si的状态的叠加来表示,具体见公式(1):
公式(2)当中的△θ取决于量子遗传算法的收敛速度,收敛速度越快,△θ的值越大,但是倘若△θ的值过大会使得量子遗传算法的种群比较容易出现早熟的现象。
2.球向量机和相关参数的选择。提出了球向量机。传统的向量机的基本原理是通过核函数将欧式空间当中的分类问题映射为Hilbert空间当中的凸二次规划问题,随后对这个凸二次规划问题通过迭代逼近的算法进行求解,这个求解算法的运算时间主要集中在求解凸二次规划问题上,而球向量机把传统向量机的凸二次规划问题变换成对几何当中的最小闭包球进行计算,通过对几何当中的最小闭包球问题就可以实现对球向量机的求解。假设实验过程中选择的样本集的规模用t表示,将几何当中的最小闭包球问题引入到标准向量机的求解过程当中,算法的空间复杂度以及时间复杂度就和样本集规模没有直接的关系。通过量子遗传算法对分类器进行训练的时候,选取的训练参数的科学性和合理性将直接影响分类器的分类精度。在实现分类器训练的过程当中,需要对三个训练参数进行寻优处理,这三份训练参数分别是:损失函数参数、核函数的核宽参数以及惩罚银子,具体情况见表1。
表1需要进行寻优处理的三个训练参数
传统的向量机当中的这三个训练参数是通过K-折交叉验证法实现对其的选取的,然而,在实际的操作实验当中,此办法会突出的表现出耗时比较长以及盲目性比较强等不足之处,在对海量样本或者高维数据样本进行分类的时候,此交叉验证算法需要的训练时间比较长,这会在很大程度上影响训练器的实用性。
三、实验及系统实现
1.实验数据集。实验选用KDDCup9910%数据包,其中共包含“Normal”类正常行为记录和“DoS”、“R2L”、“U2L”、“Probe”等4类网络威胁记录共计494021条,每条记录样本均包含42维数据字段,其中前41个特定字段定义了记录的不同特征,最后一个字段定义了记录所对应的类别标示。在保持原始数据类别比例结构不变的情况下,随机抽取60%数据296413条做训练样本集,再用剩余的40%数据197608条做修正样本集,详细抽取情况见表2。
表2实验样本集
2.基于BVM-QGA的SSA方法可靠性实验为充分验证本文方法的实用性,设计实验如下:选取BP神经网络(BPNN)、QGA优化的BPNN、标准SVM(C-SVM)这3种目前较常见的SSA方法做为横向对比算法。Gauss函数如公式(3),其中xˆ为核函数中心,为函数的宽度参数,控制函数径向作用范围。相比较于其它线性核函数、多项式核函数,Gauss核函数具有局部作用特性强的特点,即当x远离核函数中心xˆ时函数取值缩小,直至趋近于0。
=0.4,QGA的适应度函数F曲线。适应度函数F在第650代左右基本趋于稳定,最终修正样本集总体准确率高于92%,即最后的适应度函数值小于适应度函数的阈值θ。(1)基于BVM-QGA的SSA方法准确率超过92%的期望目标。从SSA整体性能上衡量实验结果,其可信度较高,能达到预设期望值92%,这得益于QGA动态地搜索BVM最优训练参数,使得SSA判断模型最大限度地降低了误差;但其误报率和漏报率仍有改善余地,一方面因为实验样本集源于KDDCup99数据集,其自身存在数据坏点和噪声,另一方面,BVM对于小类别样本的不敏感性也造成了较高的漏报率和误报率。(2)其他横向比较方法在准确率方面并不理想,分析原因:BPNN和C-SVM2种方法因选用默认训练参数,未使用任何参数优化手段,不可避免其易陷于局部极小点、权重和阈值选取困难等固有弱点,从而导致其SSA判断模型出现提前收敛降低了分类精度;BPNN-QGA方法通过QGA动态搜索最优训练参数,一定程度上提高了SSA判断模型的精度,但其分类方法仍为神经网络,精度仍有待提高。综上所述,基于BVM-QGA的SSA方法在判断精度方面优于目前常见几类算法。
3.SSA系统实现.目前基于BVM-QGA的SSA方法已在国网公司某信息外网监测系统中取得实际应用,通过较长时间的连续运行状况表明该SSA方法较为可靠。图1为该SSA系统的部署情况,虚线为其监测边界。
图1安全态势感知系统部署情况
基于球向量机和量子遗传算法的电力信息网络安全态势感知系统,在通过向量机对样本集进行询量的过程当中通过量子遗传算法动态的对最优训练参数进行搜索,该算法在很大程度上改善了电力信息网络安全态势感知系统的判断模型的精确度,这两种算法的结合补救了先前电力信息网络安全态势感知系统当中的分类器准确程度不高、训练参数选取比较困难的问题。
参考文献
[1]王东海.电力信息系统网络安全态势在线评估框架与算法研究.2017.
[2]郑建锋,贾伟红.面向大规模网络的安全态势实时量化感知模型.2017.