山西財(cái)經(jīng)大學(xué)趙海霞主持的中國商業(yè)統(tǒng)計(jì)學(xué)會規(guī)劃課題《非平衡數(shù)據(jù)下網(wǎng)絡(luò)借貸違約預(yù)測的統(tǒng)計(jì)建模與應(yīng)用》(課題編號:2021STY14),最終成果為研究報(bào)告。課題組成員:武建、鄭璐璐、郭舒玲、劉昕宇。
一 研究背景
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)的采集與存儲技術(shù)不斷進(jìn)步,人們獲得數(shù)據(jù)也會變得越來越容易,對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析幾乎已經(jīng)遍布所有學(xué)科。在獲得數(shù)據(jù)變得更加容易的同時,除了數(shù)據(jù)量的增加,數(shù)據(jù)的結(jié)構(gòu)也變得更加復(fù)雜化,在對數(shù)據(jù)進(jìn)行學(xué)習(xí)的過程中,這就使得我們常用的機(jī)器學(xué)習(xí)方法經(jīng)常會遇到一些新的問題和挑戰(zhàn)。不平衡的數(shù)據(jù)集便是我們經(jīng)常會遇到的一類問題,在該類數(shù)據(jù)集中往往存在樣本量差距較大的類別,即某一類的樣本量要遠(yuǎn)遠(yuǎn)小于其它類別的樣本量。
不平衡數(shù)據(jù)集復(fù)雜的結(jié)構(gòu)特征使得不平衡學(xué)習(xí)的研究不斷深入。類別間的分布不平衡并不是影響分類效果的主要因素,在對不平衡數(shù)據(jù)進(jìn)行分類時,不平衡數(shù)據(jù)集固有的結(jié)構(gòu)特征往往才是影響分類的關(guān)鍵因素。如不同類別間存在樣本重疊導(dǎo)致決策邊界的難以確定;稀有樣本的存在,由于缺失代表性的數(shù)據(jù),在分類的過程中難于識別,且容易將稀有數(shù)據(jù)與噪音數(shù)據(jù)混淆;小析取項(xiàng)導(dǎo)致的類內(nèi)不平衡,使得分類模型不能有效地學(xué)習(xí)到子簇的規(guī)則等。當(dāng)不平衡數(shù)據(jù)集中存在這些復(fù)雜的結(jié)構(gòu)特征時,尤其是存在于少數(shù)類樣本時,將會導(dǎo)致少數(shù)類樣本的識別困難,嚴(yán)重地影響到分類模型的整體性能。
在數(shù)據(jù)不平衡問題的研究中,傳統(tǒng)分類模型的局限性和分類任務(wù)本身具有的非均衡性是兩個主要突出的特性。無論利用數(shù)據(jù)預(yù)處理的研究策略,還是采用算法層面的處理方法,都無法絕對地保證分類模型對少數(shù)類樣本的分類精度。因此,如何提高傳統(tǒng)分類模型在數(shù)據(jù)不平衡問題中的分類性能,同時使得少數(shù)類樣本和多數(shù)類樣本的分類效果都得到相應(yīng)的改善,是目前關(guān)于不平衡數(shù)據(jù)分類研究中的關(guān)鍵問題。
隨著具有復(fù)雜結(jié)構(gòu)特征的不平衡數(shù)據(jù)集的不斷涌現(xiàn),使得不平衡數(shù)據(jù)分類問題面臨的挑戰(zhàn)越來越嚴(yán)峻,而關(guān)于不平衡數(shù)據(jù)集結(jié)構(gòu)特征的分析,從數(shù)據(jù)本質(zhì)出發(fā)探討造成分類困難的因素研究還很不足。因此,在面對不平衡數(shù)據(jù)的分類時,在考慮類別間不平衡的同時,更應(yīng)從數(shù)據(jù)集的結(jié)構(gòu)特征和類別間的不平衡形式出發(fā),針對具體的情況提出合理的解決方案,才能夠有效地避免不平衡數(shù)據(jù)學(xué)習(xí)過程中造成的弊端,同時也可以改善傳統(tǒng)機(jī)器學(xué)習(xí)分類模型在不平衡問題中的局限性。
基于重抽樣技術(shù)的不平衡數(shù)據(jù)分類方法,由于其處于數(shù)據(jù)的預(yù)處理階段,對分類過程中的分類模型不做要求,因此具有較強(qiáng)的適應(yīng)性。目前關(guān)于重抽樣策略的研究雖然較多,但大都集中在類別不均衡和整體的不平衡率層面,由于不平衡數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性和多樣性,還需要具體結(jié)合數(shù)據(jù)的分布信息更加深化和細(xì)化對重抽樣方法的研究,唯有如此才能夠在信息爆炸的時代,使得通過重抽樣技術(shù)提高不平衡學(xué)習(xí)的性能。
二 研究內(nèi)容
課題的主要研究內(nèi)容包括以下幾個部分:
第一部分為導(dǎo)論,主要介紹了研究的背景和意義,本課題研究的結(jié)構(gòu)和主要內(nèi)容以及研究方法,對進(jìn)一步研究梳理了框架,奠定了基礎(chǔ)。
第二部分是對具有類別重疊的不平衡數(shù)據(jù)分類研究。針對數(shù)據(jù)不平衡問題中常見的類別重疊,經(jīng)常導(dǎo)致分類模型性能下降的問題,該部分內(nèi)容主要對此類中的二分類問題進(jìn)行研究。在分析少數(shù)類樣本結(jié)構(gòu)特征的基礎(chǔ)上,確定數(shù)據(jù)分布中的重疊區(qū)域;基于正類樣本和負(fù)類樣本所含信息的不同重要程度,研究對重疊區(qū)域兩類樣本有效的重抽樣方法,提高模型對重疊區(qū)域正類樣本的識別。將深度學(xué)習(xí)中的CGAN模型引入分類研究中,在對數(shù)據(jù)集進(jìn)行結(jié)構(gòu)特征分析的基礎(chǔ)上,主要包括對負(fù)類樣本的欠抽樣和對正類樣本的過抽樣?;谟?xùn)練的CGAN模型對正類樣本進(jìn)行過抽樣,提高正類樣本信息對模型分類效果的影響,克服了以往常用的過抽樣方法均從樣本點(diǎn)的局部鄰域出發(fā)的缺陷。
第三部分是關(guān)于網(wǎng)絡(luò)借貸領(lǐng)域違約預(yù)測的應(yīng)用研究。由于P2P網(wǎng)絡(luò)借貸不受傳統(tǒng)金融業(yè)務(wù)的限制,這就使得借貸人更容易對信息進(jìn)行虛假填報(bào),而平臺受限于精確核對的成本,只能根據(jù)傳統(tǒng)的風(fēng)險分析框架來進(jìn)行違約預(yù)測的研究,勢必會造成風(fēng)險控制的失效,導(dǎo)致投資者的利益受損。因此本課題主要針對在網(wǎng)絡(luò)借貸業(yè)務(wù)中用戶違約的情況,對違約用戶的違約行為進(jìn)行研究,結(jié)合網(wǎng)絡(luò)借貸數(shù)據(jù)的類別重疊以及高維性的結(jié)構(gòu)特點(diǎn),運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行違約用戶的有效甄別和違約預(yù)測的研究,從特征選擇和所研究的平衡性處理方法層面,對借貸用戶的違約可能性進(jìn)行預(yù)測研究,以期對網(wǎng)絡(luò)借貸平臺和P2P網(wǎng)絡(luò)借貸行業(yè)的健康發(fā)展提供有益的參考和幫助。
三 研究展望
對具有復(fù)雜結(jié)構(gòu)特征的不平衡數(shù)據(jù)分類問題建立預(yù)測模型,對未知對象提供準(zhǔn)確的分類預(yù)測,可以幫助人們在海量、復(fù)雜結(jié)構(gòu)的數(shù)據(jù)中,自動識別數(shù)據(jù)所屬的類別,提高不平衡數(shù)據(jù)的分類效果,在生物醫(yī)學(xué)研究,客戶流失檢測、金融欺詐檢測、電信管理等領(lǐng)域均具有重要的現(xiàn)實(shí)意義。雖然本課題對于數(shù)據(jù)不平衡問題的研究取得了一定的成果,但是關(guān)于不平衡學(xué)習(xí)問題的研究仍很不足,還有許多的研究工作需要進(jìn)行。
在實(shí)際的不平衡數(shù)據(jù)分類中,很多情形下通常伴隨有數(shù)據(jù)高維的特性,使得數(shù)據(jù)結(jié)構(gòu)變得更加復(fù)雜,例如互聯(lián)網(wǎng)的交易數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)、基因表達(dá)數(shù)據(jù)等,這些數(shù)據(jù)的維數(shù)通常會達(dá)到成千上萬維,甚至更高。在對此類高維不平衡數(shù)據(jù)進(jìn)行分類研究時,面對具有的高噪音、冗余性等特點(diǎn),無論是再抽樣技術(shù)還是算法層面的技術(shù)改進(jìn),使得傳統(tǒng)分類算法都無法得到理想的分類結(jié)果,甚至容易產(chǎn)生維數(shù)災(zāi)難和過擬合現(xiàn)象。因此,對具有高維特征以及分布不平衡特點(diǎn)的高維數(shù)據(jù),進(jìn)行有效的分析和挖掘逐漸成為數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)和亟待解決的問題。后續(xù)工作中可結(jié)合高維數(shù)據(jù)的結(jié)構(gòu)特征,尤其是少數(shù)類樣本的結(jié)構(gòu)分析,立足于對高維不平衡數(shù)據(jù)的特征選擇進(jìn)行研究,選取對分類效果有較強(qiáng)影響的特征,并結(jié)合有效的重抽樣方法對數(shù)據(jù)進(jìn)行合理的平衡性處理,以提高對高維不平衡數(shù)據(jù)的分類能力。
關(guān)注市調(diào)大賽
官方公眾號
關(guān)注學(xué)會官方公眾號
關(guān)注市調(diào)大賽
官方抖音賬號
京公網(wǎng)安備 11010202009853號
技術(shù)支持:煜嘉科技