VENU-375_ 〖点名册〗-松潘建设局
淘宝减肥药排行榜十强
只推淘宝安全有效的减肥药

当前位置:VENU-375 > 减肥产品

VENU-375

时间:2020-08-14 15:21  扶风家电维修发布

邮局订阅号:82-946360元/年技术创新

金融电子

《PLC 技术应用200例》

您的论文得到两院院士关注

徐向阳:讲师

基于聚类的个人信用评分模型研究

Research on Personal Credit Scoring Model based on Clustering

(1.河南公安高等专科学校;2.河南师范大学)徐向阳

1

葛继科

2

Xu,Xiangyang Ge ,Jike

摘要:信用卡公司是一个服务性的金融企业,如何提高在服务过程中的服务质量,改进服务方法,使公司的决策更为准确及时,是信用卡公司追求的一个目标。本文介绍了神经网络方法及数据挖掘技术在信用卡公司对用户评分中的应用,对比分析了几种个人信用评分模型建模方法的特点,建立了一种决策树-神经网络个人信用评分模型,并针对该模型提出了一种近邻聚类算法,该算法在信用评分应用中可以得到较理想的结果。关键词:信用评分;神经网络;分类;聚类;决策树中图分类号:TP183TP301.6文献标识码:A

Abstract:A credit company is an enterprise to offer services to customers;it is a target for credit companies how to improve the quality of services and how to enrich the ways of services,and how to make decision more correctly and just in time.This paper de-scribes the requirement of the credit card company for data mining and neural network technology which apply for personal credit scoring.Contrasted and analyzed some of personal credit scoring model,and constructed a decision-neural network personal credit scoring model.At last,it gives a Vicinage-Extended Clustering algorithm,and analyzed its usability and utility.Key words:Credit Scoring,Neural Network,Classification,Clustering,Decision Tree

文章编号:1008-0570(2006)09-3-0229-03

1引言

随着信用卡的出现和发展,银行及其他信用卡的发卡机构认识到了信用评分的作用及重要性。由于每天申请信用卡的人数众多,无论从经济的角度还是从人力的角度,发卡机构都不可能完全依赖人工对申请进行审批,必须有一套比人工主观判断具有更好预测能力的自动信用评分系统。

信用评分本质上是模式识别中的一类分类问题,将企业或个体消费者划分为能够按期还本付息(即"好"客户)和违约(即"坏"客户)两类。具体做法是根据历史上每个类别(如期还本付息、违约)的若干样本,从己知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),从而为消费信贷决策提供依据。

近几年,随着市场竞争的加剧以及计算机技术的发展,一些非参数统计方法以及人工智能模型逐渐被引入到个人信用评分模型中,如神经网络、专家系统、基因算法等均被应用到信用评分卡的开发之中。这些方法的引入在一定程度上克服了传统分析方法的综合分析能力差、缺乏整体概括能力的缺点,弥补了评价结果的一些不足。

神经网络技术(Neural Network ,NN )是一种对数据分布无任何要求的非线性技术,它能有效解决非正态分布、非线性的信用评分问题,但它存在解释性差、训练样本集大和训练效率低等缺点。利用基于聚类的

分类信用评分方法可以有效克服神经网络技术在信用评分中存在的问题。

2国内外常用信用评估方法

随着信贷业务需要,国内越来越多的金融机构以业务对象的个人信用记录作决策参考,或附以一些评分方法,但毕竟以主观经验为主。

国外已经有人做了大量的工作。提出了各种评估

模型:有FICO 评分模型、

神经网络模型、贝叶斯分析模型等等。采用了各种数学的、统计学的、信息学的方法等等。取得了一定的效果,特别是FICO 评分模型,更是在西方发达国家成为信用评分事实上的标准。

2.1标准数理统计模型

表1美国不同行业常用信用评分模型

基于标准数理统计理论的信用评分模型是对大量的个人消费贷款的历史信用数据进行科学的归纳、总结、计算而得到的量化分析公式。在美国,不同的行业有不同的信用评分模型来帮助专业人士进行信用风险管理,如表1所示。

信用评分模型的关键是科学合理地选出信用变

229-

-

技术创新

中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第9-3期

360元/年邮局订阅号:82-946

《现场总线技术应用200例》

金融电子

量,并产生一个公式。信用评分模型的统计方法有:线性概率模型、Logit 模型、Probit 模型、

以及判别(Discrim-inant)分析方法。

2.2数据挖掘方法

数据挖掘(Data Mining,DM)是为了发现事先未知的规则和联系而对大量数据进行选择、探索和建模的过程,其任务可以分为两类:描述和预测。用于个人信用评分的常用方法包括分类、聚类、关联规则分析、预测、孤立点检测等。

1.分类(Classification):按分析对象的属性、特征建立不同的组类来描述事物。它基于对类标记已知的数据对象的分析,导出描述并区分数据类或概念的模型(或函数),用以预测类标记未知的对象类,导出模式可以用分类规则、判定树、数学公式或神经网络等形式表示。

2.聚类(Clustering):根据“

物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据

对象叫做簇,并且对每一个这样的簇进行描述的过程。其目的是使得属于同一个簇的对象应该彼此相似,而不同簇的对象应该足够不相似。

3.关联规则分析(Association rule analysis):某种事物发生时其他事物会发生的一种联系,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,关联规则形式:X=>Y[S%,C%],其中,X 、Y 是空间或非空间谓词的集合,S%表示规则的支持度,C%表示规则的置信度。

3基于决策属性的分类-聚类个人信

用评分模型

就个人信用评分建模问题而言,待建模数据库假设为一个信用数据库,它是一个由属性、元组组成的二维表,称之为信用决策表。属性分为条件属性和决策属性,各条件属性的取值可以是某段区间的连续值,也可以是多个离散值,决策属性取值为百分制。初始样本集根据决策属性的分数作区段划分,得到多个大类别,为了进一步精确化,再对每一个大类别进行聚类分析,得到多个子聚类,对每个子聚类建立一个能拟合包含在其中的训练样本的子模型。

设训练样本集为S

,S

中共有N 个样品,可以把它看作一个数据库,S 的每个样品是一个元组(即<属性,值>对),根据决策属性的取值对训练样本集进行类别划分,划分后可记为:S 1,S 2,...,S k ,共K 类样本子集。对第i 类的样本子集S i 进行聚类分析,可得到N i 个子聚

类C j i (第i 类的样本子集S i 的第j 个子聚类)。

这里i=1,2,…,K ,j=1,2,…,N i ,。对每个子聚类C j i 可建

立一个子模型来拟合描述这个子聚类中的所有样本。如图1所示。

按照上述方法,可以得到一个分类—聚类树,对于基层的子聚类,当某些子聚类满足一定的条件时就可以合并(融合)。设A={C 1,C 2,...,C m },B={C m +1,C m +2,...,C n }

分别为某空间中的由多个子聚类组成的集合。集合A

中的C i (i=1,2,…,m)与集合B 中的C j (j=m+1,m+2,…,n)能否合并,可由以下判别方法决定:

①若子聚类C i 的中心在C j 的边界所构成的区域内,且C i 与C j 有部分或全部空间重叠,则C i 可与C j 合并;

②若子聚类C i 的中心在C j 的边界所构成的区域外,但C i 与C j 有部分空间重叠,此时需根据空间的比例及实际情况判断C i 与C j 是否可合并;

③若子聚类C i 与C j 完全不重叠,则C i 与C j 不能合并。

针对每个子聚类,具体的建模方法可以使用基于粗糙集的神经网络建模方法、神经网络二分类法、径向基函数RBF 学习算法、范例类比模型法和模糊C-均值聚类算法(FCM)等。

也可以采用RBF 中的子聚类区域高斯函数描述法来确定其所辖范围,这相当于一个对待测样本判决其所属区域的开关;然后用BP 神经网络模型来做结果评判(对于个人信用评分问题,其结果采用打分法)。

图1基于决策属性的分类—聚类模型图

4决策树—神经网络个人信用评分

模型

图2基于离散属性分类的聚类模型图当完全采用决策树方法时,由于它使用信息熵或其它的启发式信息来选择充当分支结点的属性,用几率代替概率来计算信息熵,随着树的深入构造,误差将会越来越大。

同样,在建立个人信用评分模型时,当完全采用神经网络来对训练样本集建模时,如果训练样本集本身所蕴含的映射系统非常复杂,则神经网络的建立不仅费时而且低效,还可能得不到期望的结果。

230-

-

邮局订阅号:82-946360元/年技

术创新

金融电子

《PLC 技术应用200例》

您的论文得到两院院士关注

基于“分而治之”的思想,本文提出一种决策树-神经网络方法。

首先,基于决策树算法思想对样本数据集进行粗划分(采用有用的离散条件属性充当决策树的分支结点属性),对所得高层决策树的每个叶子结点所属的样本子集进行聚类分析,得到代表每个局部分布特性的子聚类样本集;然后,对每个子聚类样本集进行建模拟合。这种智能融合方法可以吸取前二种方法的长处,避开它们的短处,从而得到更好的样本集拟合及预测效果。如图2所示。

其中,对于子聚类样本集的建模拟合,可以采用以下二种方法来实现:

①子聚类样本点非矢量差建模:

这种模型直接拟合子聚类中的训练样本点,可以采用神经网络来建模。每个神经网络的输入为相应子聚类所属样本点的有用连续条件属性,网络的期望输出为每个样本点的决策属性取值,神经网络起到一个非线性映射系统的作用。

②子聚类样本点矢量差建模:

对于任一子模型,其输入维数等于样本的有用连续条件属性数,取这个子模型所对应的子聚类中的所有样本矢量与核心样本矢量的矢量差作为输入,这样的子模型需要保存核心样本矢量(包含决策属性值)。该方法类似于范例类比学习。

5近邻扩展聚类算法

这里提出一种名为名为近邻扩展聚类法(Vicinage

-Extended Clustering,VEC)的样本聚类算法来对样本子集进行聚类。

设待学习样本集S={s 1,s 2,...,s n }。1.初始化种子s α=s 1,剩余集SL =S-{sa};

2.从剩余集中按照某种扩展标准(如欧氏距离)来扩展种子的近邻,形成一个近邻集;

3.If{当前种子的近邻集样本数大于阈值σ(目的是为了避免极端情况的错分);}

Then {将这个种子与其近邻集组成一个聚类,再从这个聚类中选取一个其近邻集样本数大于阈值σ的样本替换为新的种子,继续扩展,得到的近邻集添加到这个聚类,直到聚类集中所有合乎标准(即其近邻集样本数大于阈值σ)的样本都作过种子为止,最后可得到一个聚类集;}

Else{将这个种子标识为孤立点样本(其近邻集样

本数为0)或边缘样本(边缘样本的近邻集样本数介入

0和σ

之间,它在第3步中可曾被归入聚类集);}4.将样本集S={s 1,s 2,...,s n }去掉已组成聚类的样本和孤立点样本,组成剩余集SL ;

5.If{剩余集SL 非空;}

Then{从剩余集SL 中选取一个样本作为种子,转

第2步;}

Else {算法结束,得到的各个聚类集即为所求。}

从算法的描述中可以看出其优点是不需要事先给定聚类的类别数,可以进行无监督学习。但是,该算法的时间复杂度为o(n 2),对于大型数据库的聚类不太适用,可以适当对算法进行一些改进来降低该算法的复杂度,如采用R*树来做索引或用其他的空间索引技术,可使时间复杂度降为o(nlogn)。

6结束语

本文的创新点在于通过对多种个人信用评分模型建模方法进行分析的基础上,提出了一种将聚类有效融入到分类模型中的框架方法,该方法不同于以往将聚类当作无监督学习,分类作为监督学习,二者被分割研究的传统。这种基于聚类的分类模型可以将二者统一起来进行研究,共同提高建模的效率以及模型的描述和预测效果,并提出了一种近邻扩展聚类算法来进行样本子集的聚类。

参考文献:

[1]郑建平.个人信用评信系统及系统模型.经济与管理研究.2002(2):59-61.

[2]秦东宇.浙江经济发达地区银行消费信贷个人信用评估体系的理论分析与实证研究.浙江大学硕士论文.2003.27-32.[3]Tam K Y ,Kiang M.Managerial applications of neural networks:the case of bank failure predictions.Management Sciences.1992(7):926-947.

[4]王春峰,李汶华.小样本数据信用风险评估研究.管理科学学报,2001(2):30-34.

[5]杨子健.美国商业银行信用风险管理研究[M].中国金融出版社,2004,6:28-32.

[6][加]Jiawei Han 著.范明,孟小峰等译.数据挖掘概念与技术[M].机械工业出版社,2001,8.14-17.

[7]刘新宇.一种在线变结构RBF 算法在内模控制中的应用[J].微计算机信息.2005,2:52-53.

[8]汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息.2003,1:3-4.

[9]Beckmann N.,Kriegel H.-P.,Schneider R.,Seeger B.The R*-tree:

An Efficient and Robust Access Method

for Points and

Rectangles.Proc.ACM SIGMOD Int.Conf.on Management of Data,Atlantic City,NJ,ACM Press,1990:322-331.

作者简介:徐向阳(1971-),男,河南郑州人,讲师,主要研究方向:数据挖掘、神经网络;葛继科(1977-),男,河南濮阳人,讲师,硕士,主要研究方向:数据挖掘,人工智能.

(450000郑州河南公安高等专科学校)徐向阳

(453007新乡河南师范大学计算机与信息技术学院)葛继科

(投稿日期:2006.1.25)(修稿日期:2006.2.27)

231-

-

。

猜你喜欢

最安全有效的减肥药

最安全有效的减肥药

编辑:小徐

现在的减肥药真的是真假难分,在选择减肥药的同时也应该更加小心,减肥药多种多样,那么如何才能选择最安全有效的减肥药,也成了很多小仙女的内心疑问,下面就跟着VENU-375小编一起看一下,如何选择最安全有效的减肥药。 最安全有效的减肥药选购方法 1、首先需要观察产品的外包装,在包装中可以看到其配方是不是含有激素,含有激素的减肥药对身体的内..

吃减肥药失眠

吃减肥药失眠

编辑:小徐

随着现在流行以瘦为美,很多人会不顾身体的健康选择减肥药,达到快速减肥瘦身的效果,但是很多减肥药都是有副作用的,副作用比较轻的就是失眠现象,那么吃减肥药出现失眠是怎么回事儿?如果出现失眠后,我们应该怎样缓解? 吃减肥药失眠是怎么回事 减肥药中富含安非他命,所以减肥药服用了太多会有失眠现象,服用减肥药期间,身体会逐渐出现抗药性,身..

最新文章