智能用电数据的采集与预处理

(整期优先)网络出版时间:2019-08-18
/ 2

智能用电数据的采集与预处理

桑捷

国网太原供电公司030012

摘要:智能用电网络是一种随着智能电网的发展而形成的用户侧物理信息系统,它以能量信息网关为数据传输中心节点,通过智能终端连接各种用电设备而形成,具备本地计算、数据通信、远程控制和自治等基本功能。基于需求侧响应而构建的智能用电网络,能够有效提升配电网的安全、经济运行水平,实现配电网的智能化。

关键词:智能用电网络;数据质量;数据预处理;聚类算法;

1智能用电网络的系统架构

智能用电网络具备对用电终端电器的监测与控制、并对终端负荷进行能效管理、参与电网优化运行的三个主要功能。智能用电网络主要由智能插座、信息能量网关、数据处理服务器和云端大数据服务器等组成。智能用电网络的系统架构如图1所示。

数量众多的智能测控终端是整个智能用电网络的底层数据采集部件,可以实现电压、电流、功率等电气量及设备开关状态的高精度采集,具有低待机功耗及智能无线传输自组网的特点。智能终端采集的遥测、遥信数据由ZigBee无线通信网络传输到能量信息网关,并通过能量信息网关获得智能用电云平台的遥控、遥调指令。目前微型智能终端的待机功耗在控制在300毫瓦以内,采用基于事件驱动的数据采集和通讯机制,及改进的数据实时压缩技术,可使智能用电网络的终端数据采样时间缩短到100ms。

能量信息网关基于内嵌Linux系统的芯片搭建,是连接智能测控终端与智能用电云平台的动态数据交换单元,具有上下行数据传输和本地计算功能。通过串口与内置ZigBee通信模块实现信息交互,通过以太网或无线公网与智能用电云平台进行通信,分别实现智能终端遥测、遥信数据的上行传输,及智能用电云平台遥控、遥调数据的下行传输。

汇集到智能用电云平台的用电负荷数据,通过进行数据分析和挖掘,可对用电终端设备进行能效评估、状态评价及故障检测,从而提高用户终端的供电可靠性,并实现用电设备的节能降耗,还可进行电力用户用电行为特征分析、用电负荷预测与用电模式优化,从而全面提升用户用电体验,提高用电能效,实现需求侧管理与运行优化。用电数据的有效分析和挖掘,能够有效提升配电网的用电安全水平、能效管理水平和智能化水平,提高用户用电满意度,实现电网与用户之间能量和信息的双向互动,实现电力资源的优化配置,实现分布式新能源的有效消纳,及满足电动汽车随机接入的用电需求。

2采集数据的标准化

智能用电云平台中进行数据分析与挖掘的各种机器学习算法,如神经网络、支持向量机等,对数据的异常值非常敏感。数据预处理主要是消除异常数据对算法模型的影响,使经过数据清洗、数据特征调节等方法预处理后的数据表示更适合于负荷分析及预测算法。

智能用电网络中的异常数据产生的原因较多。首先,智能测控终端的损坏和异常,可能会导致采集数据缺失。其次,线路维护或者安检等配电网的正常活动可能会导致用电数据缺失,而用电数据本身从测控终端到用电云平台的数据传输也有可能导致数据异常。

异常数据包括离群值、噪声、偏差等,智能用电网络中的异常数据分为两类即数据突变和数据缺失。电网上的事故或事件会导致用电数据突变,以及毛刺数据即多个负荷数据点的突然增加或减少。丢失的数据通常是因为在数据收集过程中,测控终端产生故障,或者数据文件的传输过程中的数据丢失,会使得记录的数据为NULL或者为0,使得这些数据偏离真实负荷数据。

采集和传输过程中的数据缺失和数据突变,会使得智能用电数据产生空缺值、出现噪声数据、出现不一致数据,不利于后续的数据分析与处理。因而在智能用电云平台,需要对采集的用电数据做相应的数据预处理。

聚类算法能从大量含噪声、模糊、随机数据中提取出正常数据,用电数据的聚类还可直接挖掘出负荷模式,得到用户用电模式,有利于提高后续负荷分析算法的精度,因而聚类算法较适合于智能用电网络中用电数据的预处理。

聚类算法自身对异常数据也较为敏感,用电数据中的异常数据可能会影响负荷聚类的效果,产生错误的分类,所以有必要在前端对用电数据进行标准化处理,同时数据标准化也利于提高智能用电网络中的数据传输速率。

数据标准化处理也就是数据的归一化,将数据归一化以后,很多数据分析算法都能够发挥最佳的效果。归一化的数值对于聚类算法而言,可以均衡化不同用电指标尺度,避免采集数据由于数量级差别过大对聚类结果的影响,可以消除用电数据量的大小对聚类分析中距离的影响,更加注重用户用电模式的特征信息。

用电数据的归一化是将智能终端的采集数据和输出数据变换到[0,1]区间内,常使用下列的变换式:

式中,xmaxxmax和xminxmin分别为采集数据集合中负荷数据的最大值和最小值,xixi为实际的负荷数据,为归一化后的用电数据。

3基于空间密度聚类的用电数据预处理

DBSCAN算法是一种基于密度的空间聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的空间数据集中发现任意形状的聚类。

DBSCAN算法的主要思想是:只要临近区域的密度(数据点数目)超过某个阈值,就把它加到与之相近的类中,一般而言,高密度的数据点区域被低密度的数据点区域(通常认为是噪声数据点)所分割。因此,DBSCAN算法可过滤噪声点数据,自动识别任意形状的类簇,较适合智能用电云平台数据的聚类分析。

图2给出了DBSCAN算法的流程,说明如下。

(1)输入:包含n个对象的数据库,半径Eps,最少簇数目MinPts。

(2)输出:所有生成的簇,达到簇密度要求。

(a)从数据集中任意选取一个点p,并对其进行区域查询;

(b)如果p是核心点,则寻找所有从p密度可达的点,最终形成一个包含p的簇;

(c)否则,p被暂时标注为噪声点;

(d)访问数据集中的下一个点,重复上述(a)-(c)的过程,直到数据集中所有的点都被处理。

聚类算法通常选择调整兰德指数(adjustedrandindex,ARI)作为定量评价指标,ARI的基础是兰德指数(randindex,RI),RI的表达式为:

以500个采集点、噪声均值为0、方差为0.05的数据集,分别测试K-均值算法与DBSCAN算法的聚类效果。图4给出两种算法的ARI评价指标结果,由图可见DBSCAN完美地自动实现了受噪声污染、复杂形状数据集的期望聚类。

4结束语

在总结智能用电网络的数据采集与数据传输特点,分析智能用电云平台对用电数据的数据质量要求的基础上,本文提出了将智能用电网络采集数据进行归一化数值处理,然后进行DBSCAN聚类运算的用电数据预处理方法。采集数据在智能用电云平台前端的归一化处理可均衡化不同用电指标尺度,提高聚类算法的聚类效果,聚类算法能从大量含噪声、模糊、随机数据中提取出正常数据,并可直接挖掘出负荷模式,得到用户用电模式,有利于提高后续负荷分析与处理算法的运用效果。相比常用的k-均值算法,DBSCAN算法可自动判断聚类簇的数量,更好的检测数据“噪声点”,识别形状复杂的数据集,提升智能用电云平台用电数据的数据质量,为后续用电大数据的分析与预测工作,奠定了良好的基础。

参考文献

[1]张素香,赵丙镇,王风雨,等.海量数据下的电力负荷短期预测[J].中国电机工程学报,2015,35(01):37-42.