郭晓雨李玥
(吉林大学)
摘要:在如今这个社会,计算机科学的应用已经渗透到了经济生活中的各个方面,并大幅度地提高了我们生活的质量和办事的效率,促进了经济的快速增长。尤其是对于银行业来说,每天都面对着众多的数据,来自客户的,来自社会的或者是来自市场的,这些数据如果没有被合理的采集与分类,可能就会形成一定的“数据垃圾”,对银行业来说不但没有用处,更是一种负担,因此“数据挖掘技术”的出现很好的解决了这一难题并且被应用在了银行的信用评级,客户交流,监管等许多方面,并且取得了十分不错的效果。
关键词:数据挖掘技术商业银行信用评估
一、数据挖掘技术的综述
数据挖掘过程实际上就是从大量的,不完全有效的,有噪点的,或者模糊的,随机的数据库中识别出有效的,有用的信息的过程,这一过程可以涉及到众多学科,是一门交叉型新兴学科。同时,不像SQL仅仅将数据进行规整,数据挖掘技术是对查询的内容进行模式的总结和内在规律的搜索,以此来寻求因果与预测未来。
实际上,数据挖掘都是要运用某种特定的工具来实现的,因此对数据挖掘工具的选择也是至关重要的,数据挖掘工具一般分为两种:专用型和通用性。通用型数据挖掘工具是最被广泛运用的,也占有最大的市场,因为可用于大部分的数据,因此操作比较方便,专用型数据挖掘工具则是针对某种特定的挖掘过程,特殊的数据,在选择数据挖掘工具的时候要着重考虑这种工具对于此问题的处理能力和工具可以产生的模式种类的数量。
二、银行业中对个人信用评级体系的建立
商业银行的经营状况与其所承担的风险是息息相关,因此对其客户进行评级在这之中显得至关重要,从客户的收入,历史信用记录,职业,家庭等方面进行综合的考虑来估计其贷款偿还的可能性,如果客户的风险过大,那么这个客户所带来的负收益的可能性就会大于其正收益的可能性,银行就可以对是否接受这名顾客的业务进行评估,而影响个人信用评级的主要因素有如下:
1.个人收入:个人收入是银行对个人信用评级的关键要素,但是并不仅仅限于当事人当前的收入的多少,收入的稳定性和对未来收入的预测也是一项考量标准。
2.家庭:因为在借款人没有能力偿还还款的时候,家庭成员有很大的可能性为其还款,同时家庭的整体的教育环境也影响着借款人的道德修养和对法律的了解程度,简介影响着贷款人还款的可能性。
3.个人财产状况:当借款人流动资产不足以偿还贷款的时候,其固定资产比如房子,车辆也可以做为抵押或者出售其固定资产来被迫履行这一义务,因此当借款人的个人财产金额大的情况下,他的信用额度也会较高。
4.就职状况:一个人的职业的具体情况和其偿还贷款的能力也息息相关,对于一个自由职业的人来说,由于其收入的波动,就会有更大的几率拖欠贷款,但是对于那些例如公务员固定的职业,他们得到信用贷款的可能性就会更大一些。
三、数据挖掘方法在银行中的具体应用
其实数据挖掘技术在银行业的发展是相当重要的,因为对于银行业来说,数据量是非常大的,并且很杂乱,因此通过数据挖掘技术可以从大量繁琐的数据中得到有效的信息并且减少处理过程中不必要的麻烦,也提高了银行业运作的整体的效率。比如用于对客户的信用进行评估以此来减少风险的发生,从而提高银行的效率与盈利,并且也可以有效的进行与客户之间关系的管理。
在银行业中,根据客户的基本信息,贷款情况和还款情况可以对信用贷款的风险进行评估,在我国,通常可以将贷款分为五类,又称为“五级分类制度”:正常,关注,次级,可疑和损失。其中正常是指有很大的几率会按时还款的贷款,“关注”等级中存在着一些不利因素,但是还不能确定这些因素是否会对贷款的偿还造成影响,次级指明出现了明显的问题来阻碍贷款的正常还款,当到达了“损失”级别的时候,意味着贷款在正常情况下是无法被归还的,即使归还,可能也只是很少的一小部分。
(一)决策树模型
决策树算法因为简单高效的特点,是数据挖掘算法中最被广泛应用的一种方法。决策树算法中很重要的一种方法是ID3算法,这种算法首先要找出最有判别力的属性,然后对数据进行划分成多个子集,然后再在每个子集中找出最具有判断力的属性,不断地划分,直到每个子集中包含的数据类型完全一致为止。
首先明确的是对于大部分银行来说,内部的数据来源并不是唯一的渠道,还可以从外部调用到大范围的数据,用这些数据进行挖掘能得到更加有效地信息。
(二)神经网络模型
神经网络模型类似于决策树结构,同样是利用分割后的训练数据结构建构的。在建构的过程中,需要选择快速建模方式,通常设定准确性Alpha为90%作为终止条件。然后利用测试数据集中进行测试,对模型进行评估,得到一个最佳的模型。
(三)Logistic模型
同样也是经过分割后的“训练数据集”,在选择模型区的时候选择Logistic节点,进行建模分析,在建模过程中,选择专家模式并且进行相应的参数设置,之后进行数据集的测试,评估该模型,获得最佳模型。
(四)对三种模型的对比分析
1、模型的准确率
Logistic模型的准确率是最高的,神经网络模型的准确率是最低的,但是实际上,三种模型的准确率的差距并不是很大,因此这三种方法在准确率方面并不会有较大的影响。
2、变量的重要性的不同
三种模型对于数据集中的变量的重要性是不同的,例如在决策树模型和Logistic模型中,影响最大的变量是借款人的逾期状况,但是神经系统模型中,较为重要的变量则是年龄,年收入等,因此差距较大。
四、结论
银行业在整个金融行业的地位,业务的特殊性以及竞争的激烈性都决定了其对于计算机的依赖,尤其是对于我国这样一个人口大国来说,人口的数量众多造成了相当大的数据的存储量,因此数据挖掘技术显得尤为重要。同时,数据挖掘技术虽然目前在我国已经取得了部分应用,并取得了一定的成效,但是仍然存在着许多严重的问题,比如对于数据收集后的预处理的问题,以及数据挖掘过程后的可视化,从事人员的专业化程度不够高这些问题,随着人们对数据挖掘过程的重视,将会有越来越多的专业人士从事这些方面的研究并且也会有越来越多的数据挖掘方法出现,同时数据挖掘也会被应用与更多的领域中去,取得更显著的成果。
参考文献
[1]陈京明著.数据仓库与数据挖掘技术[M].北京:电子工业出版,2004.8.
[2]MehmedKantardzic.数据挖掘---概念、模型、方法和算法[M].陈茵,程雁译北京:清华大学出版社.2003.
[3]PearlJ.DataMiningwithGraphicalModels[D].ComputerScienceDept.StandfordUniversity.2000.
[4]王秀慧,许彩欣。决策树在贷款客户信用评估中的应用[J].现代计算机(专业版),2011,(9):44-48.
[5]冯萍等.数据挖掘技术以及在营销中的应用.北京轻工学院学报(第19卷第1期),2001.3.
[6]李凤慧.面向电子商务的Web数据挖掘的研究[D]:[山东科技大学硕士论文].青岛:山东科技大学,2004,44-49.
作者简介:郭晓雨(1996年8月—),女,陕西省西安市人,吉林大学金融专业本科生
李玥(1996年1月—),女,北京市人,吉林大学金融专业本科生。