數(shù)據(jù)挖掘應(yīng)用實(shí)例銀行客戶數(shù)據(jù)分析課件

,*,*,銀行客戶數(shù)據(jù)分析,2007-09-01,1,背景,數(shù)據(jù),客戶群,服務(wù),盈利,商業(yè)銀行擁有大量的個(gè)人客戶交易數(shù)據(jù)、個(gè)人客戶服務(wù)數(shù)據(jù)和個(gè)人客戶基本資料數(shù)據(jù)在這些海量數(shù)據(jù)中,隱藏著大量的有價(jià)值的客戶信息運(yùn)用數(shù)據(jù)挖掘中的聚類分析技術(shù)可以從這些數(shù)據(jù)集中提取客戶的分類知識聚類分析技術(shù)可以將性質(zhì)、特征近似的數(shù)據(jù)對象歸屬在相同的群集中商業(yè)銀行可以利用此技術(shù)分辨出能有效為之服務(wù)的最有價(jià)值的客戶,為他們提供更為個(gè)性化的服務(wù),從而影響相關(guān)的客戶行為并最終達(dá)到提高盈利的目的2,數(shù)據(jù)集,客戶數(shù)據(jù)集包含,10,000,條客戶數(shù)據(jù),包含有,31,個(gè)特征,(,屬性,),分別為,:,Bank No(,銀行代碼,其值有:,004,024,077,等,),Account num(,賬戶代碼,),Short Name(,客戶名字,),First Contact Date(,第一次接觸日期,),account open date(,賬戶開戶日期,),account balance(,賬戶當(dāng)前余額,),account low balance(,賬戶曾經(jīng)最低余額,),account high balance(,賬戶曾經(jīng)最高余額,),balance category(,余額類型,),Statement Low Balance(,最低交易賬目,有正有負(fù),),3,數(shù)據(jù)集,(屬性,),Statement High Balance(,最高交易賬目,),Statement Aggregate Debit Balance(,聚集透支賬目,),Statement Aggregate Debit Day(,透支賬目的天數(shù),),Statement Aggregate Credit Balance(,聚集存款賬目,),Statement Aggregate Credit Day(,存款賬目的開數(shù),),Return Check Count(,退回支票的次數(shù),),Status(,客戶狀態(tài),),Audit Granding(,授權(quán)級別,越高則風(fēng)險(xiǎn)越低,),Salary Before Last Month(,上一個(gè)月之前自動付款的賬目,),Salary last Month(,上一個(gè)月自動付款的賬目,),Salary this Month(,這一個(gè)月自動付款的賬目,),Count of Credit this Month(,這個(gè)月存款的次數(shù),),4,數(shù)據(jù)集,(屬性,),Count of Debit this Month(,這個(gè)月取款的次數(shù),),Count of OD(,透支的次數(shù),),Amount of Deposit this Month(,本月存款的賬目,),Amount of Withdraw this Month(,本月取款的賬目,),Last Transaction Date(,上一次交易的日期,),Country Code(,客戶所屬的國家,),Birthday(,生日,),Sex(,性別,),5,數(shù)據(jù)預(yù)處理,我們選用,Weka,數(shù)據(jù)挖掘工具來對客戶的賬戶數(shù)據(jù)進(jìn)行分析,因此所有的原始數(shù)據(jù)都必須轉(zhuǎn)換成能被,Weka,處理的數(shù)據(jù)集格式。
原始數(shù)據(jù)集的特征主要有四種類型的,分別是:數(shù)值型,(numeric),、標(biāo)稱型,(nominal),、日期型,(date),和字符串型,(string),對于缺失的屬性值,因?yàn)?Weka,中的算法能自動處理屬性值缺失的情況,所以按,Weka,數(shù)據(jù)集的格式要求用“,?”,表示6,數(shù)據(jù)預(yù)處理,(,規(guī)格化,),數(shù)值型特征,:,采用如下公式規(guī)格化到,0,1,區(qū)間,標(biāo)稱型特征、日期型特征和字符串型特征保持不變,7,聚類分析,目標(biāo),我們的目的是對客戶進(jìn)行分群,從而使銀行可以對不同群體的客戶提供不同的服務(wù)因此聚類分析是對客戶進(jìn)行自動分群的有效方法方法,k-means,算法,選取的特征,從,31,個(gè)原始屬性值中選取,23,個(gè)屬性用作聚類(都是數(shù)值型或標(biāo)稱型的),聚類參數(shù),在經(jīng)過規(guī)格化處理后的數(shù)據(jù)集中,用,k-means,算法在選定的,23,個(gè)屬性上進(jìn)行聚類,設(shè)定聚類數(shù)為,10.,8,各聚類大小,各聚類所包含的客戶數(shù)量如下表,聚類,客戶數(shù)量,聚類,1,145,聚類,2,69,聚類,3,133,聚類,4,6183,聚類,5,1985,聚類,6,213,聚類,7,46,聚類,8,446,聚類,9,413,聚類,10,368,表,1,9,對聚類大小的分析,由表,1,可知,各聚類有大有小,且大小懸殊,但也合乎客戶關(guān)系處理的目的。
客戶關(guān)系管理的往往是找出一小部分的特殊客戶(占,20%,左右)來進(jìn)行特別地對待在上表所示的,10,個(gè)聚類中,除去最大的聚類,4,后其余,9,個(gè)聚類的客戶數(shù)達(dá),3818,人,占總客戶量的,38.18%,;除去最大的兩個(gè)聚類(聚類,4,和聚類,5,)后其余,8,個(gè)聚類的客戶數(shù)達(dá),1833,人,占總客戶量的,18.33%.,大聚類可以再繼續(xù)細(xì)分,(,作為一個(gè)數(shù)據(jù)集再繼續(xù)進(jìn)行聚類操作,或直接提高聚類個(gè)數(shù),),10,對各聚類結(jié)果的處理,聚類后的各聚類結(jié)果的數(shù)據(jù)是規(guī)格化處理后的數(shù)據(jù)的結(jié)果,我們要直觀地分析各聚類的特點(diǎn),必須把規(guī)格化的數(shù)據(jù)還原為原始數(shù)據(jù)例如,最小值為,-10,000,,最大值為,1,000,000,的當(dāng)前賬戶余額規(guī)格化為,0,1,后就難以理解各賬戶間存在的巨大差距,只有把它還原為原始的,-10000,1000000,才能使人直觀地理解其存在的差距把各聚類的數(shù)據(jù)集還原為原始數(shù)據(jù)后,再計(jì)算各特征的均值和標(biāo)準(zhǔn)差(數(shù)值型的特征);或者各標(biāo)稱量的數(shù)量(標(biāo)稱型的特征)11,聚類結(jié)果,分析,(,賬戶當(dāng)前余額,),下表所示為,10,個(gè)聚類中各聚類的賬戶當(dāng)前余額的正負(fù)及賬戶當(dāng)前余額的均值和標(biāo)準(zhǔn)差,聚類,當(dāng)前余額正負(fù),當(dāng)前余額值,+,均值,標(biāo)準(zhǔn)差,聚類,1,145,0,24445.50,73408.73,聚類,2,69,0,29164.41,78077.97,聚類,3,133,0,152882.48,604633.58,聚類,4,6182,1,5571.17,23957.76,聚類,5,1985,0,22102.61,64825.42,聚類,6,119,94,8432.82,18680.66,聚類,7,46,0,2093.91,5798.48,聚類,8,380,66,7729.67,33233.11,聚類,9,0,413,-24728.68,61844.23,聚類,10,368,0,36264.24,93389.14,12,聚類結(jié)果,分析,(,賬戶當(dāng)前余額,),最明顯的特殊客戶群有兩個(gè),:,一個(gè)是,聚類,3,的客戶群,該聚類的當(dāng)前余額均值達(dá),十五萬,左右,比其他聚類的當(dāng)前余額均值高出一個(gè)數(shù)量級。
所以可以初步判斷該聚類的客戶是存款額高或者說是,高收入的客戶群,另外,該聚類當(dāng)前余額的標(biāo)準(zhǔn)差也很大,這說明在富有的客戶群中各客戶的收入差距也是很大的,有的達(dá)百萬、千萬、甚至上億,.,另一個(gè)明顯的特殊客戶群是,聚類,9,所示的客戶群該客戶群中的,413,個(gè)客戶當(dāng)前賬戶余額,都為負(fù)值,,且其均值達(dá)負(fù)兩萬多元因此可以認(rèn)定該客戶群是,高透支的客戶群,后面還會分析的透支額、透支次數(shù)、透支時(shí)間等屬性的分析同樣可以印證我們這個(gè)結(jié)論,.,13,聚類結(jié)果,分析,(,賬戶當(dāng)前余額,),分析其他的八個(gè)聚類,聚類,4,是占,61.81%,的最大的,普通客戶群,,該客戶群中幾乎所有的客戶的當(dāng)前余額都為正值,其均值為五千多,標(biāo)準(zhǔn)差為兩萬多不會太小,說明該龐大的客戶群還是可以再繼續(xù)細(xì)分的聚類,5,是占,19.85%,的第二大的客戶群,該客戶群比最大的客戶群聚類,4,來說它的當(dāng)前余額均值高很多,達(dá)兩萬多元因此可以說聚類,5,是,大量普通客戶中的中等存款額度的賬戶,(不包括低存款額度的賬戶)聚類,7,是賬戶當(dāng)前余額為正值但存款額度較低的客戶群聚類,1,,,2,,,6,,,8,,,10,這五個(gè)聚類在當(dāng)前賬戶余額這一屬性上不能發(fā)現(xiàn)其明顯的特征,我們將在后續(xù)的其他屬性上的分析發(fā)現(xiàn)其聚類特征。
14,聚類結(jié)果,分析,(,最低及最高交易賬目,),下表所示為各聚類的最低交易賬目和最高交易賬目的均值與標(biāo)準(zhǔn)差,聚類,最低交易賬目,最高交易賬目,均值,標(biāo)準(zhǔn)差,均值,標(biāo)準(zhǔn)差,聚類,1,21710.57,67398.29,30649.77,87211.66,聚類,2,25422.80,71501.18,43955.38,100110.53,聚類,3,137112.35,560335.78,180985.33,617496.38,聚類,4,4664.66,21531.07,8869.53,31149.29,聚類,5,15040.53,49724.59,43980.40,109262.32,聚類,6,-,9205.019,15566.66,15999.42,28870.03,聚類,7,1703.67,5667.138,5432.09,12143.86,聚類,8,-,9331.17,32766.50,26126.10,143537.61,聚類,9,-,27823.94,64684.33,-,12265.06,33615.10,聚類,10,16948.34,54751.53,74335.21,148054.73,15,聚類結(jié)果,分析,(,最低及最高交易賬目,),明顯聚類特征,:,聚類,3,的最低交易賬目和最高交易賬目的均值都最高,這說明該類賬戶一般是有,大數(shù)額的資金流入,。
聚類,9,的最低交易賬目和最高交易賬目的均值都最小,屬于,透支最多的一類,,這說明該類賬戶是屬于,透支型的賬戶,,透支額維持在一個(gè)比較高的水平,且其最高交易額平均也達(dá)負(fù)一萬兩千多,說明這類型賬戶平均,很少正向資金存入,16,聚類結(jié)果,分析,(,最低及最高交易賬目,),聚類,4,這個(gè)最大的客戶群的最低和最高交易賬目的平均值保持在一個(gè),中等,的水平,最低四千多,最高八千多;,第二大客戶,群聚類,5,的最低和最高交易賬目的均值都較聚類,4,高很多,這也同樣能夠說明聚類,5,是大量的,中等偏高的存儲客戶,聚類,7,的最低和最高交易賬目都較低(正值),屬于,小額儲蓄客戶,聚類,6,和聚類,8,的最低交易賬目平均為負(fù)值(屬于透支),最高交易賬目平均為正值(屬于儲蓄),因此該類型客戶屬于,有儲蓄有透支的信用消費(fèi)型客戶,聚類,1,,,2,,,10,在這一屬性上還不能分析出很明顯的聚類特征,17,聚類結(jié)果,分析,(,透支賬目,/,存款賬目,),下表所示為聚集透支賬目及透支賬目天數(shù)、聚集存款賬目及存款賬目天數(shù)的均值和標(biāo)準(zhǔn)差聚類,聚集透支賬目,透支賬目天數(shù),聚集存款賬目,存款賬目天數(shù),均值,標(biāo)準(zhǔn)差,均值,標(biāo)準(zhǔn)差,均值,標(biāo)準(zhǔn)差,均值,標(biāo)準(zhǔn)差,聚類,1,0,0,0,0,621553.94,1893055.17,26,0,聚類,2,0,0,0,0,862332.67,2188134.51,26,0,聚類,3,0,0,0,0,3987771.63,15631280.74,26,0,聚類,4,0,0,0.00,0.03,145729.02,582818.60,26.00,0.03,聚類,5,0,0,0,0,599440.68,1531141.41,26,0,聚類,6,99402.83,202963.80,15.64,4.39,66568.08,130475.92,10.36,4.39,聚類,7,0,0,0,0,75543.65,239671.98,26,0,聚類,8,17345.04,51581.64,3.63,2.61,170027.62,856644.63,22.37,2.61,聚類,9,596935.00,1384363.12,25.39,1.31,2744.67,15650.27,0.61,1.31,聚類,10,0,0,0,0,907077.21,2107278.80,26,0,18,聚類結(jié)果,分析,(,透支賬目,/,存款賬目,),聚類,3,的聚集存款賬目很高,均值達(dá)三百多萬,該類型客戶幾乎不透支。