电力文本数据挖掘现状及挑战

(整期优先)网络出版时间:2019-09-19
/ 2

电力文本数据挖掘现状及挑战

党倩1郭芳琳2吴天宇3郁文龙4

1.国网甘肃省电力公司信通公司甘肃兰州730000

2国网甘肃省电力公司信通公司甘肃兰州730000

3甘肃同兴智能科技发展有限责任公司甘肃兰州730000

4国网信通亿力科技有限责任公司甘肃兰州730000

摘要:随着智能电网建设的全面展开,以及电力信息通信与电网企业经营管理的深度融合,电力数据出现爆发性增长。这些数据中隐藏着丰富的关系到电网安全稳定经济运行的信息,因而成为电网企业宝贵的数据资产。电力大数据虽已成为当前热点研究对象,然而每年只有少量的数据被挖掘利用,因此电力数据挖掘是智能电网发展迫切需要研究的前沿领域。

关键词:电力文本;数据挖掘;现状;挑战

1电网中的文本类型

在智能电网运行过程中,会产生大量的数据信息,并存储在数据库中。具体来说,电网中的文本类型主要包括以下内容。一是资产配置信息,主要涉及电力设备,涉及设备参数、名称、采购厂家等。二是票据,可以分为工作类和操作类,但它们有很多相似之处,所以通常可以分为同一类。工作票是指上级下达的指令和设备检修过程中的具体操作步骤,必须作为检修人员在操作过程中的基本依据。同时,经营者必须遵守票据的基本规则。操作票属于操作人员,主要是调整设备操作方式应遵循的基本依据,可以起到许可证的作用。三是日志,主要是设备检修后需要记录,并详细记录故障特征和检修过程。日志通常以文本的形式存在,主要包括时间、设备状态、故障原因等方面的信息。

2电力文本数据挖掘关键技术研究现状

2.1电力文本预处理技术

电力本体字典的构建是指将电力词汇分别按照同义、近义、反义、上下位、整体-部分等本体关系进行组织,并存储在数据库中以供查询、调用。构建电力本体字典前,首先要构建电力文本语料库,如选择各类电力设备的缺陷、消缺、检修、试验等记录或报告,也可以选择企业颁布的与电力设备相关的导则、标准,还有电力企业的各种工单、工作票、操作票等;然后结合已有的外部通用字典,采用基于统计的分词模型,如采用基于隐马尔科夫模型、条件随机场模型等,对语料库进行分词,并基于词频对分词结果进行排序;最后依靠具有电力领域专业知识的人员对专业术语、通俗用语、名词堆砌的词串和短语词汇等进行修正,并按照同义词集、整体-部分关系、实体-属性关系等构建本体字典。需说明的是,本体字典的构建不会是一次完成,而是随着新语料库的增加,会有补充或修订。电力本体字典的构建是必须的基础工作,其质量关系着后续电力文本挖掘的科学性。

文本分词技术可分为3类:基于本体字典的分词技术、基于统计规律的无字典分词技术以及二者的结合。本体字典的建立可以大大提高分词的准确性与停用词的识别效果。基于统计规律的无字典分词技术虽可以减轻建立字典的负担,但准确性难以保证,分词后需进行词性标注。词性既可以是名词、动词等,也可以根据挖掘需求自行定义,例如文献中的大部件、小部件、属性、程度,以及文献中的实体、缺陷现象、定性缺陷程度、定量缺陷程度等。词性标注的本质是分类问题。将电力文本切分为一个个词汇后,除了有用的电力词汇,还会出现人名、地名、符号等停用词,可根据实际挖掘需求去除待处理文本中的停用词。

2.2电力数据挖掘方法

电力文本在经过预处理与表示环节后,转化为计算机可以处理的结构化数据,从而可以利用结构化数据挖掘方法进行数据挖掘。数据挖掘方法有很多,常见的有各种机器学习方法。

基于机器学习方法,可以根据学习模式将机器学习分为有监督学习、无监督学习、半监督学习,是否有监督取决于训练数据是否有标注,有标注的文本可以应用于分类问题,无标注的文本可以应用于聚类问题。根据学习方法,又可以将机器学习分为传统机器学习和深度学习等。传统机器学习算法有逻辑回归、隐马尔科夫方法、支持向量机方法、K近邻方法、贝叶斯方法以及决策树方法等;深度学习算法有深度置信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等。其中,由循环神经网络变种而来的长短时记忆网络,由于加入了长期记忆机制,在处理长序列时具有优势,因而适用于长文本的挖掘。

3文本挖掘技术在电力缺陷文本中的应用

3.1电力缺陷文本的特点及挖掘需求

在电力文本挖掘领域,已有一些针对电力缺陷文本的应用。电力缺陷文本来自于电网企业日常运维记录,一般包括计算机可直接处理的格式规范、语义清晰的内容,如缺陷设备编号、名称、缺陷发现时间、缺陷等级等;也包括计算机难以理解的文本,主要为缺陷详细描述,如“2号主变冷却器风扇有异响”“有载分接开关呼吸器硅胶变色2/3以上”。缺陷描述由现场工作人员记录,可能存在一些不规范或错误需要进行更正。此外,缺陷描述包含的内容通常较为丰富,一条文本可能包含多条缺陷信息,每一条缺陷信息包含着缺陷发生部件、现象及程度等缺陷特征,因此需要进行缺陷分离、特征抽取、关系挖掘等研究。

3.2缺陷文本错误识别与质量提升

缺陷文本常常存在各种原因造成的质量问题,如描述不完整、有歧义等,若将这些存在质量问题的记录作为有效文本进行挖掘,会造成挖掘结果偏差。因此需采用适当的方法对缺陷文本进行质量评价,对质量较差的历史文本进行质量提升,对新录入文本给出改进建议,从源头上保证文本质量,对确保后续文本挖掘效果具有重要意义。

邵冠宇等进行了卓有成效的研究。通过对大量实际缺陷文本的分析,首先总结出电网设备缺陷文本容易出现的不完整、不具体、冗余度过高等问题。然后,定义了缺陷文本质量的评价指标,并提出了基于“层次-自适应灰色关联分析法”的评价方法。接着,基于潜在狄利克雷分布方法,结合国家电网公司的缺陷分类标准修正文本。针对新录入文本,利用文本质量评价方法进行质量问题提示,利用词向量映射方法给出修正建议,保证新录入缺陷文本的质量。其算例表明,历史缺陷文本在修正后其文本质量得分有较大提升,新录入文本存在的质量问题能被准确识别并给出修正建议。

刘梓权等则提出了基于知识图谱的缺陷文本错误识别方法。首先利用现有电力设备缺陷记录语料库,通过实体抽取、属性抽取、共指消解、关系抽取、关系筛选等步骤,构建出电力设备缺陷知识图谱;然后基于缺陷知识图谱,采用图搜索方法识别不同类型的缺陷文本错误并给出提示;最后通过算例分析表明,基于知识图谱的缺陷文本错误识别方法各项评估指标均优于其他人工智能学习方法,并且运行效率能满足工程应用。

3.3缺陷严重等级自动分类

电力设备缺陷的严重程度常分为紧急、严重、一般3类,不同等级缺陷有不同的消缺时间要求,因此缺陷文本的准确分类非常重要。人工对缺陷文本进行严重等级分类,不仅效率低,而且由于主观因素和经验差异,准确性难以保障。

基于one-hot词袋模型,实现了文本的向量化,然后基于KNN(自主区间搜索K最近邻)算法,将待归类的缺陷文本与缺陷文本库中已归类的缺陷文本进行对比,找到最相近的文本,然后将待归类文本归入最接近文本的一类。算例验证了基于KNN算法对文本进行分类的可行性。

基于卷积神经网络的电力设备缺陷文本分类模型。首先以大量经过文本预处理的电力设备缺陷文本为语料库,训练出每个词的词向量表示,词向量的各个维度代表通过神经网络语言模型学习到的词的语义特征。然后参考电力设备用语规范,对同义词的词向量进行合并。接下来构建卷积神经网络分类器,以准确标注缺陷等级的文本为训练数据,构建以缺陷文本为输入、以分类等级结果为输出的电力缺陷文本分类模型。算例展示了该模型在分类效果上的显著优势,为电力文本分类提供了有效手段。

结论

目前,电力文本数据挖掘研究已引起重视,但还面临着挖掘需求不明确、挖掘效果难以达到预期的困扰,已取得的研究成果还远远不足以支持智能电网和资产管理的发展,因此迫切需要有文本挖掘应用成果来示范和引领,启发出更多的电力文本挖掘需求,吸引更多人员参与电力文本挖掘技术及应用的研究中,促进电力文本挖掘理论与工程应用的蓬勃发展。

参考文献:

[1]邱健,王慧芳,应高亮.文本信息挖掘技术及其在断路器全寿命状态评价中的应用[J].电力系统自动化,2019,40(6):112-117.

[2]蔡荣言.数据挖掘技术在电力企业中的应用研究[J].管理方略,2018,12(18):128-129.