电费回收风险预测的大数据方法应用仲慧陈丹丹裔宁吴浩然

(整期优先)网络出版时间:2019-05-15
/ 2

电费回收风险预测的大数据方法应用仲慧陈丹丹裔宁吴浩然

仲慧陈丹丹裔宁吴浩然

国网江苏省电力有限公司镇江供电分公司江苏镇江212000

摘要:电费回收管理一直是供电企业的工作重点,且是供电企业经营活动中最为重要的环节之一。长期以来,供电企业一直采用先用电后缴费的市场规则,因此存在电费回收周期长及催费措施落后等隐患,使电费回收逐渐成为困扰电力企业的一大问题。为了解决此问题,各电力公司纷纷提出了各种行政管理手段和技术手段,并建立了基于客户风险的电费回收策略,以防范电费回收风险。

关键词:电费回收;风险预测;大数据;应用

一、主要方法

(一)最优变量分组方法

变量分组是将分类变量的某些类别合并以降低其基数,或者将数值型变量分段将其转换为分类变量的过程。变量分组的方法是基于决策树模型的分裂找到最优的分组方案,通过合并变量的类别使得预测力指标最大化,即首先以使某预测力指标最大为原则找出最优的二元分割点,然后在每个子类别中重复上一步骤,当达到最大分组个数时停止分割。

(二)WOE证据权重转化方法

将分类变量转化为数值型变量,以降低建模程序的复杂性,同时可以将Logistic回归模型转变为标准评分卡格式,以利于后续模型结果的解释及应用。对于某分类自变量的第i组,WOE的计算式如下。

其中,ix为某组分类自变量,ip和iq分别是x中第i类在目标变量Y中的响应个数占总体响应个数概率和未响应个数占总体未响应个数概率,in和*n均表示个数值。信息值表示的是当前这个组中响应的客户和未响应客户的比值和所有样本中这个比值的差异。WOE越大,信息值越大,这个分组里的样本响应的可能性就越大。经过WOE转换,将分类变量转化为数值型变量,同时不影响原始分布。

(三)逻辑回归方法

逻辑回归是一种研究二分变量Y与一系列影响因素nx之间关系的多变量分析方法,是在线性模型基础上的进一步发展。其一般形式如下:

其中,P是变量Y发生的概率,取值为0~1,β为模型建立后得到的自变量系数。逻辑回归模型的计算速度快,结果显性化且拟合效果好,目前在大数据、机器学习、经济学等领域得到了广泛应用。

二、模型构建与应用

(一)建设思路

首先,对数据进行加工和处理,对于相关性较强的指标,保留部分即可,同时创建衍生变量,为建模做好数据准备。其次,对数据进行初步的探索性分析,通过对欠费用户的用电特征分析、用电趋势分析、渠道偏好分析等相关描述性统计进行分析,形成初步建设思路,为选取指标做准备。再次,选取相关指标,建立指标体系。按照逻辑回归模型的入模要求,进行聚类分析、关联分析和主成分分析,目的是在降低入模变量维度的同时获得各个指标权重,并通过变量内部分类和WOE权重转化等方法进行数据转化,以适应模型建模的数据要求。最后,对模型进行训练和检验,通过模型评估进行评价,重复训练获取最佳模型。

(二)数据准备

以2017年1—6月某市区目标客户数据作为基础数据,以2017年7月和8月是否产生违约金作为目标变量,开展模型训练。基础数据主要包括如下几种。

基本属性:用户编号、供电单位、抄表段号等。

用电数据:用户分类、行业分类、供电电压、合同容量、负荷程度等。

用电行为:用电量、电费、违约金金额,欠费次数、计费次数等。

缴费行为:缴费方式、缴费变更次数等。

(三)指标体系构建

模型建设。基于R软件运用逻辑回归算法实现欠费风险预测分析模型。对于分类指标,通过IV值筛选预测力高的变量进入模型。对于连续性指标,计算变量间的相关系数矩阵,将相关系数大于0.5的指标结合IV值进行筛选。经过筛选,最终进入模型的指标有21个。对各指标进行最优分组处理和WOE证据权重转化,构建逻辑回归模型,并对结果进行量化输出,给出评分卡得分。经验证,模型通过拟合优度检验,且各变量系数在0.05水平下显著。表4展示了部分影响力较强的指标系数,截距项为-4.13。

模型效果。根据模型命中率、覆盖率和提升度3个维度画出模型效果评估图,随着高风险用户得分阈值的增大,命中率和提升度逐渐增高,覆盖率逐渐降低。覆盖率和命中率交叉点的位置为收益平衡点,即在交叉点处,考虑营销成本的情况下,可以达到收支平衡,在交叉点左侧,命中率高于覆盖率,在考虑营销成本的情况下,投入更少的资金可以获得更好的收益;在交叉点右侧,命中率低于覆盖率,在考虑营销成本的情况下,想要获得更好的收益(效果)需要更多的成本(措施)。

因此,在考虑营销成本的情况下,建议将评分卡得分在90分以上的客户定义为高风险用户,此时的命中率为22.8%,覆盖率为4.1%,提升度为15.4。在不考虑营销成本的情况下,建议将评分卡得分在70分以上的客户定义为高风险用户,此时的命中率为11.4%,覆盖率为26.3%,提升度为7.7。同时将2017年7月和8月数据作为试验集,通过模型验证,得到如下结果:将90分以上的客户定义为高风险用户,在考虑营销成本的情况下,此时的命中率为21.3%,覆盖率为3.6%,提升度为13.9;在不考虑营销成本的情况下,命中率为11%,覆盖率为25.4%,提升度为7.5,与训练集得到的结果基本一致。

三、电费风险主要技术

(一)数据采集

为了获得用户信息的数据、电费信息的数据,系统采用的技术方式主要有以下两种Kafka、Sqoop,两种技术的结合使得数据得到支撑。

Kafka是采用分布式方式读取用户消息的系统,其主要形式为高吞吐量。Kafka与Hadoop结合统一,并行加载处理线上消息和离线的消息,同时还运用集群机为用户提供实时的消费状况。所以,本文将运用Kafka技术及时订阅应收电费消息和欠收电费消息。

Sqoop利用自身工具的功能特点,交换移动基础架构Hadoop和关系型数据库中的数据。它是一种运用元数据模型的工具,类似于ETL,判断出数据类型,在确保数据类型安全处理的状态下,将原始数据从数据源转出,传输到Hadoop中去,安全方便快捷。Sqoop具备分割数据集的功能,同时还具备创建子任务系统来处理每个模块的功能,进而同时传输大量数据。所以,本文利用Sqoop技术的这些功能,读取并整理用户信息、预收电费信息的离线数据。

(二)基于多维数据设计电费催收系统

具体而言,在系统设计中,我们将采用下述方法该系统功能:第一,使用分布式数据存储技术,采集并接入海量异构数据,进而支持流式数据采集处理,支持对海量异构数据进行高效访问存储计算功能,不仅能够快速读取结构化数据,也能够读取半结构数据、非结构化数据存储。具体而言对于结构化数据,支持关系型数据模型和星型模型等存储方式。具体使用中,可以尝试使用列存储和行存储技术,支持压缩,支持二级索引;第三,使用分布式计算,多台服务器并行处理,计算性能随着机器数目增加而线性增加。具体而言,使用SQL语句分析结构化数据,对非结构化数据支持使用Mapreduce计算框架,

四、结论

在实际工作中,客户拖欠电费、拒绝缴纳电费等现象时常发生,这对于我国电力现代化建设是非常不利的。因此,电力企业要积极运用新技术和新手段来加强对电费回收工作的管理和控制,不断完善电费回收工作管理机制,确保电费能按时全额回收,为客户提供更加优良的服务。

参考文献:

[1]曾鸣,王鹤,等.供电公司电费管理中心建设的若干问题探讨[J].电力需求侧管理,2018,10(3).

[2]程瑶,钱亚森,等.供电企业实施电费回收的措施及应注意的问题[J].电力设备,2018(22).