国网山西省电力公司信息通信分公司 山西省太原市 030021
摘要:随着信息资源的日益增多,目前那些较为成熟的大型通用搜索引擎无法满足从事电力事业的人员只搜索电力信息的需求,因此,一种针对指定电力客户需求、指定电力人群以及指 定电力领域的基于电力信息单一领域的搜索引擎便之诞生了,其能够为人们提供一些具备特定价值的信息以及有关的服务。为此,笔者对数据挖掘的概念进行了阐述,同时对基于数据挖掘的电力信息分类及搜索技术进行了探讨,可供参考。
关键字:数据挖掘;电力信息;分类;搜索技术
目前电力网络日益复杂,电力资源日益庞大,信息资源量爆炸性增长,传统的信息获取方法已经无法完成信息获取任务,从事电力工作或者需求相关电力知识的人员已经体会到从海量多元的信息世界中获取到自己最需要信息的困难,所以他们越来越需要一种可以有较高满意度的快速高效搜索方案。现在比较成熟的大型通用搜索引擎有Google,Baidu等,但它们有时不能满足电力工作者只针对电力信息的搜索,检索结果常常存在信息分类过于粗旷、显示顺序不符合用户需求、反馈量很大、精度也不高等问题,为此迫切需要研究出一种专门针对电力信息资源的,基于数据挖掘的搜索方案。
1.数据挖掘技术简介
信息化时代的到来,使得电力企业的数据信息在不断的增长,大量的数据积累在电力系统的相关平台上,需要进行有效的分析和处理。数据挖掘技术是指利用相应的数据挖掘算法和其他工具,在大量的、复杂的数据中寻找到具有有用价值的数据信息,同时也可以发现数据信息之间的关联和相关规则。数据挖掘具有较为丰富的挖掘算法和不断完善的数据挖掘工具,数据挖掘包含着多种算法,每一种算法对应着不同的需求和应用场景,通过利用这些数据挖掘算法,就可以很好地获取到所需要的数据信息。
数据挖掘技术的方法多种多样,常用的技术方法有决策树、关联规则、神经网络、遗传算法、统计分析方法等。
数据挖掘技术是云储存功能和云数据挖掘的有效结合,数据挖掘技术是对各项工作操作步骤逻辑和规则的结合,提供了适合的数据算法模型、输出模型以及数据格式的转换计算方法。
数据挖掘的过程主要由三个阶段组成:数据准备阶段、数据建模(数据挖掘)阶段、模型应用阶段。数据准备阶段又可以分三个子步骤:数据集成、数据收集和数据预处理。(1)数据集成是指从多个数据源(文件、数据库)中提取整合数据,并对数据进行处理,解决语义模糊性,清除脏数据、空数据等。(2)数据选择是指根据数据挖掘的目的选择需要挖掘的数据集合,进而缩小需要挖掘处理的数据范围,提高数据挖掘的质量和效率。(3)数据预处理是研究数据的质量,为进一步的分析做准备,并确定将要进行的挖掘操作的类型。
2.数据挖掘下的电力信息分类及搜索技术
随着大数据时代的来临,数据以极快的速度增长,形成了文本数据、图片以及声音视频等多媒体数据在内的海量数字资源。电力企业也不可避免地面临着大数据信息浪潮的冲击。因此有必要研究数据挖掘下的电力信息分类及搜索技术。
2.1需求分析
随着智能电网的持续建设,电网运行特性愈加复杂,数据规模日趋扩大,传统的定制化查询已经不能够有效满足用户对数据的感知需求,主要体现在以下四个方面:
信息随需共享。面对多样的查询需求,传统的定制化查询需要由专业的系统开发人员通过代码级开发实现,工作量大、周期长,不能满足用户及时获取的要求;(2)海量数据查询。电力业务大数据环境正在形成,数据量正迅速膨胀并变大,数据类型逐渐多样化,数据价值密度不断降低,信息检索愈发重要,查询性能已成为制约检索发展的瓶颈,例如查询页面响应时间、并发访问能力等;(3)信息资源开发。智能电网的关键是坚强平台和先进技术的灵活协调,尤其是信息资源的按需聚合与自主协同等科学技术问题。广义上讲,信息检索是信息资源开发的基础技术,涉及多源数据的分析加工和价值提纯,能够有效地存储、表达、组织及查找用户所需的数据。因此,深化搜索引擎的内涵,拓展搜索技术的外延刻不容缓;(4)支持电力信息通信平台。当前信息通信基础设施正在从集中模式向动态组织、广域可重构方向快速发展。
2.2应用目的
首先用户需要将要查询电力信息问题的关键词或自然语言描述输入表中,同时对问题具体所属的领域加以选定,这样该搜索方案将依据相似度计算将这个问题迅速地定位到某个或多个领域,并将用户所需要的信息或有关信息从相关领域中找出,进而使检索的速度实现极大的提升;其次倘若用户未对问题具体所属领域加以选定,那么就必须遍历所有领域的电力专业词库来实施搜索。
2.3应用过程
建立电力信息数据仓库
先对各种电力信息源数据进行搜集;再对所搜集到的电力信息源数据进行管理、整理并分类保存;最后对电力信息源数据加以应用,以发挥其特定功能。
(3)系统架构设计
电力搜索层,提供面向电力系统管理(早会报、设备查询、日志查询等)的电力搜索服务。在检索结果反馈上,云计算搜索基于B/S架构,采用富客户端技术进行信息展现。搜索平台层,供给搜索效劳的操作接口,包含信息发布与提交、信息索引和信息查询等。信息的发布与提交采用了自动与被迫相结合的方式:一方面经过抓取器查询文件目录和数据库,在发现数据改变的情况下对改变数据进行处置;另一方面对于微博等体系的提交信息进行自动索引树立。搜索引擎底层,关注于各类数据的索引和存储,在数据索引设计上,结合Map/Reduce并行框架与搜索服务器分片(Shards)技术,使用Map/Reduce并行框架将任务请求发送到多个数据源进行索引信息的提取,对提取的索引信息按照规则进行切分,形成多份切分(Shards)并分别存储在分布式的索引服务器中。
(4)具体功能设计
在基于云计算的电力搜索引擎系统架构中,采用集中化部署思路设计远景系统方案,形成多个数据中心的物理集中和逻辑统一的整体视图。数据中心按“大集中”方式形成“物理分布,逻辑集中”的云服务中心,各级电力业务管理部门、业务部门的所有业务都是通过云终端方式获得服务,以一级索引部署为例,采用两级索引结构,通过对数据源进行内容分析和收集,形成分布式环境下各数据中心的一次内容索引库,然后将一次索引处理成便于检索的索引倒排文件,形成采用集中部署方式的二次目录索引库,各级搜索引擎的搜索请求按照“就近服务”原则访问各个一次索引库进行服务反馈,而全网的搜索请求需要通过远程服务接口上传至电力业务管理部门,并基于二次索引库进行统一的请求响应和服务管理。
3.结束语
基于数据挖掘的电力信息分类及搜索系统可以显著提升搜索效率及搜索成功率,还能够减少数据库的损耗,有助于搜索引擎系统运维管理成本的控制,为电力企业的工作人员提供更为优质的搜索服务。电力企业需要认识到基于数据挖掘的电力信息分类及搜索系统的重要性,加强技术研发,提高电力企业的数据管理及开发水平,有助于电力企业的可持续发展。
参考文献:
[1]杨丽萍,张希翔,孟椿智,谢瑞浩.基于 Elasticsearch 的大数据搜索引擎在电力企业的应用研究[J].数字技术与应用,2017,(12):63+65.
[2]李杰.面向电力主题的搜索引擎研究[D].中国石油大学,2014.