国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

徽商銀行周慶霞等:基于大語言模型的銀行線上個人信貸業(yè)務(wù)風(fēng)險評估

0
分享至


轉(zhuǎn)載于:銀行家雜志 | 作者:周慶霞、牛竹林、朱潔|責(zé)任編輯:孫爽(郵箱:976639255@qq.com)

在金融科技(以大數(shù)據(jù)、云計算、人工智能等為代表)蓬勃發(fā)展、移動互聯(lián)網(wǎng)普及和移動支付廣泛應(yīng)用的推動下,金融服務(wù)的可獲得性大幅提升,用戶可以通過智能終端隨時隨地獲得信貸、財富管理等金融服務(wù)。商業(yè)銀行之外,各大電商和社交平臺依托互聯(lián)網(wǎng)平臺生態(tài),紛紛提供嵌入式信貸服務(wù),促進信貸服務(wù)模式的平臺化發(fā)展,實現(xiàn)了個人信貸市場的快速數(shù)字化、線上化,推動了線上個人信貸業(yè)務(wù)的爆發(fā)式增長。

目前,線上信貸業(yè)務(wù)的滲透率不斷提高,各類互聯(lián)網(wǎng)科技公司和商業(yè)銀行紛紛布局線上個人信貸市場。前者依托龐大的用戶群和數(shù)據(jù)優(yōu)勢推出消費信貸產(chǎn)品,后者通過數(shù)字化加持和網(wǎng)點布局優(yōu)勢,開發(fā)并推廣多種線上信貸產(chǎn)品,覆蓋了個人消費、個人經(jīng)營、小微企業(yè)等多客群、多場景的金融需求。在多方參與的推動下,線上渠道發(fā)放的個人貸款余額和筆數(shù)占比顯著上升,線上信貸服務(wù)的受眾從習(xí)慣使用數(shù)字技術(shù)的年輕群體,逐步擴大到了縣域、老年等以往難以觸及的長尾客戶,金融的普惠性進一步深入。

文獻綜述

與傳統(tǒng)信貸業(yè)務(wù)相比,線上信貸業(yè)務(wù)具有“快速自動化準(zhǔn)入、授信模型化、貸款信用化”等特點,在運作流程上突出批量化,具有更復(fù)雜的風(fēng)險結(jié)構(gòu)。從欺詐風(fēng)險看,線上信貸業(yè)務(wù)不需要客戶經(jīng)理與借款人見面,僅通過網(wǎng)絡(luò)平臺快速撮合、缺乏當(dāng)面交叉核驗,使得身份欺詐和惡意騙貸等操作性風(fēng)險增大。從數(shù)據(jù)風(fēng)險看,線上信貸的借款人數(shù)據(jù)特征發(fā)生了變化,借款人往往更加年輕化、首次信貸者居多,傳統(tǒng)信用記錄有限,需要依賴交易流水、設(shè)備指紋、社交媒體等非結(jié)構(gòu)化數(shù)據(jù)來刻畫其信用狀況。同時,用戶在線行為模式也有別于線下,例如,借款人在網(wǎng)絡(luò)平臺上的信息披露和交流方式多樣,語言風(fēng)格和表述存在較大差異,部分借款人提交的文本信息質(zhì)量參差不齊,存在口語化、錯別字甚至故意隱瞞等現(xiàn)象,增加了模型解讀難度?;诖?,監(jiān)管部門對線上個人信貸業(yè)務(wù)也提出了更高的合規(guī)要求,既鼓勵數(shù)字普惠金融的發(fā)展,又強調(diào)風(fēng)險可控和信息安全。由此可見,線上個人信貸場景下風(fēng)險管理面臨獨特的背景和挑戰(zhàn),傳統(tǒng)信貸風(fēng)險評估方式難以適應(yīng)現(xiàn)階段的線上信貸風(fēng)險管理,商業(yè)銀行需加強智能風(fēng)控體系建設(shè),積極采用先進的科技手段,以最終實現(xiàn)信貸業(yè)務(wù)全方位、全流程的數(shù)字化、智能化、線上化管理。

信貸業(yè)務(wù)是商業(yè)銀行的核心業(yè)務(wù),在滿足社會融資需求的同時也承擔(dān)著風(fēng)險,如何準(zhǔn)確評估并有效管理信貸風(fēng)險始終是商業(yè)銀行日常經(jīng)營的關(guān)鍵課題。為應(yīng)對這一挑戰(zhàn),眾多國內(nèi)外學(xué)者以此為課題進行研究,使得信貸風(fēng)險評估模型經(jīng)歷了從簡單到復(fù)雜的漫長演進過程。早期商業(yè)銀行采用信用評分卡模型(如FICO評分),通過對借款人的財務(wù)指標(biāo)和信用歷史進行加權(quán)打分,為放貸決策提供量化依據(jù);該模型具有操作簡便、可解釋性強的特點,但權(quán)重選擇卻高度依賴對應(yīng)領(lǐng)域的專家。隨著計算能力的提升和數(shù)據(jù)積累的增加,先進商業(yè)銀行逐步引入了更加復(fù)雜的統(tǒng)計模型和機器學(xué)習(xí)方法,如邏輯回歸、決策樹、支持向量機和神經(jīng)網(wǎng)絡(luò)等,這些方法能夠捕捉信貸違約概率與多種特征之間的復(fù)雜非線性關(guān)系,大幅提升了風(fēng)險預(yù)測的精度,然而,這些模型存在一定的局限性:一是過度依賴歷史結(jié)構(gòu)化數(shù)據(jù),對“信用歷史空白”群體或新興行業(yè)的借款人缺乏有效的風(fēng)險判斷依據(jù),無法解決線上個人信貸普及面廣、借款人客群差異大的問題;二是高復(fù)雜度模型的“黑箱”特性導(dǎo)致可解釋性欠佳,不僅難以滿足監(jiān)管的合規(guī)要求,還容易造成風(fēng)險誤判后工作人員難以介入的尷尬局面;三是模型對宏觀經(jīng)濟形勢和行業(yè)周期變化的適應(yīng)性不足,基于歷史經(jīng)驗訓(xùn)練的模型在外部環(huán)境出現(xiàn)結(jié)構(gòu)性變動時無法及時調(diào)整。這些局限性促使學(xué)界和業(yè)界不斷探索更全面的數(shù)據(jù)維度和更先進的建模方法,以提升信貸風(fēng)險評估的準(zhǔn)確性和穩(wěn)健性。

非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)的突破

傳統(tǒng)信貸評估主要依賴結(jié)構(gòu)化數(shù)據(jù),而大量與借款人相關(guān)的信息以文本、圖像、社交網(wǎng)絡(luò)等非結(jié)構(gòu)化形式存在,這些非結(jié)構(gòu)化數(shù)據(jù)包含了大量的風(fēng)險信號,如在貸款申請材料中的貸款用途預(yù)示了借款人可能的資金流向,客服對話記錄和社交媒體帖子展現(xiàn)了借款人的生活狀態(tài)和行為模式,企業(yè)公告和財經(jīng)新聞一定程度上可以反映某些具有穩(wěn)定工作的借款人貸款的合理性等。通過自然語言處理進行文本情感分析,可以捕捉企業(yè)輿情或借款人描述中的積極或消極傾向,為信用風(fēng)險預(yù)測提供前瞻性信息。Yunchuan Sun等人發(fā)現(xiàn)利用非傳統(tǒng)文本數(shù)據(jù)(如財務(wù)報告披露的文本、新聞媒體輿情和社交媒體信息)可以實現(xiàn)更及時、高效的信用風(fēng)險評估;財經(jīng)新聞中的負面情緒會導(dǎo)致信用違約掉期(CDS)利差擴大,反映出市場對企業(yè)違約風(fēng)險預(yù)期的上升。這些研究說明,非結(jié)構(gòu)化數(shù)據(jù)的引入可以彌補傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的不足,為風(fēng)險評估提供更全面的視角。特別是在線上個人信貸業(yè)務(wù)中,借款人在申請時填寫的借款用途描述、與信貸員或客服的在線交流記錄等容易被忽視的文本信息,構(gòu)成了重要的“軟信息”來源,對于理解借款動機和信用狀況至關(guān)重要。

2022年底ChatGPT的橫空出世,標(biāo)志著自然語言處理(Natural Language Processing,NLP)技術(shù)達到了一個新的臺階,詞向量、卷積神經(jīng)網(wǎng)絡(luò)及Transformer架構(gòu)的發(fā)展,使得對海量文本數(shù)據(jù)的自動化處理和深層語義理解成為可能,為金融領(lǐng)域利用非結(jié)構(gòu)化數(shù)據(jù)進行風(fēng)險評估提供了技術(shù)支撐。但現(xiàn)階段將NLP技術(shù)直接應(yīng)用于信貸風(fēng)險評估仍面臨諸多挑戰(zhàn):一是非結(jié)構(gòu)化數(shù)據(jù)存在噪聲和異質(zhì)性,如口語化表達、錯別字及行業(yè)術(shù)語等,這些因素會干擾模型,降低準(zhǔn)確性;二是金融文本具有專有特性,通用NLP模型直接應(yīng)用于金融場景時效果有限,需要針對性地選擇金融語料、構(gòu)建專業(yè)詞典并進行模型微調(diào),構(gòu)建金融領(lǐng)域的專用大模型;三是非結(jié)構(gòu)化信息與傳統(tǒng)結(jié)構(gòu)化特征難以有效整合,這也是提升最終風(fēng)險評估模型性能的關(guān)鍵難題。

大語言模型在金融領(lǐng)域的前沿應(yīng)用

LLM作為NLP領(lǐng)域的重大突破,通過在海量文本語料上的自監(jiān)督預(yù)訓(xùn)練,具備了前所未有的語言理解與內(nèi)容生成能力。以GPT-3和BERT為代表的大語言模型問世后,國內(nèi)外金融機構(gòu)紛紛探索其金融領(lǐng)域的應(yīng)用潛力,如將LLM融入信貸風(fēng)險管理全流程,在貸前調(diào)查階段,使用LLM從借款人申請信息中快速提取借款意圖、消費傾向及潛在欺詐風(fēng)險信號,及時叫停高違約風(fēng)險的信貸申請,降低具有一定違約風(fēng)險的信貸申請額度;在貸后管理環(huán)節(jié),通過LLM持續(xù)監(jiān)控借款人在社交媒體、電商消費及其他網(wǎng)絡(luò)平臺上的行為變化,動態(tài)捕捉借款人可能出現(xiàn)的收入波動、消費異?;蜇撁嫘庞檬录蕊L(fēng)險信號,對于能大幅提高違約概率的事件進行預(yù)警,以及時派出工作人員進行貸后檢查;在客戶服務(wù)方面,基于LLM的智能問答系統(tǒng)能夠通過與借款人的交互對話,在常規(guī)的對話之外,敏銳地捕捉隱藏在字里行間、借款人打字頻率、所處地點、手機震動等細微之處的信息。

當(dāng)前,一些大型金融機構(gòu)和科技公司已研發(fā)出面向金融領(lǐng)域的專用大語言模型,如Bloomberg開發(fā)了參數(shù)規(guī)模達500億參數(shù)的金融專用模型BloombergGPT,用海量財經(jīng)數(shù)據(jù)訓(xùn)練以支持多樣化金融任務(wù);互聯(lián)網(wǎng)開源社區(qū)也出現(xiàn)了金融大模型FinGPT,其采用以數(shù)據(jù)為中心的方法整合互聯(lián)網(wǎng)金融數(shù)據(jù),為學(xué)術(shù)界和業(yè)界提供了可開放使用的金融垂直領(lǐng)域基礎(chǔ)模型。然而,大語言模型在金融領(lǐng)域的應(yīng)用還處于早期探索階段,實踐中仍存在不少問題。例如,模型訓(xùn)練和應(yīng)用涉及海量敏感金融數(shù)據(jù),而未經(jīng)過某金融機構(gòu)特定數(shù)據(jù)集訓(xùn)練的大模型又難以被該金融機構(gòu)應(yīng)用于實際業(yè)務(wù)中,如何在保障數(shù)據(jù)隱私和安全的前提下開展大規(guī)模模型訓(xùn)練仍需深入研究。大語言模型還可能繼承訓(xùn)練語料中的偏見,如果缺乏適當(dāng)約束,可能導(dǎo)致歧視性決策,引發(fā)公平性爭議。鑒于上述風(fēng)險,許多銀行采取謹(jǐn)慎策略,將LLM作為輔助工具,與傳統(tǒng)可解釋性強的評分卡或機器學(xué)習(xí)模型結(jié)合使用,既發(fā)揮LLM在非結(jié)構(gòu)化數(shù)據(jù)處理的優(yōu)勢,又保證決策過程的透明合規(guī)。

金融監(jiān)管機構(gòu)對于人工智能在風(fēng)控領(lǐng)域的應(yīng)用表示支持的同時,強調(diào)風(fēng)險可控和合規(guī)要求,原銀保監(jiān)會在《關(guān)于銀行業(yè)保險業(yè)數(shù)字化轉(zhuǎn)型的指導(dǎo)意見》中指出,商業(yè)銀行應(yīng)積極運用大數(shù)據(jù)和人工智能提升風(fēng)險管理,但需加強模型風(fēng)險管理,確保算法決策公正透明。麥肯錫的一項調(diào)查顯示,全球約20%的銀行信貸風(fēng)控團隊已試點應(yīng)用生成式AI,另有60%的機構(gòu)計劃在短期內(nèi)部署相關(guān)應(yīng)用。這一趨勢表明,大模型在信貸風(fēng)險領(lǐng)域具備廣闊的發(fā)展空間,但商業(yè)銀行需要在創(chuàng)新應(yīng)用與風(fēng)險可控之間取得平衡。

研究空白與理論突破

當(dāng)前大語言模型在信貸風(fēng)險評估領(lǐng)域主要存在以下研究空白:首先,結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)融合的方法有待完善,現(xiàn)有研究往往將兩類數(shù)據(jù)割裂處理,沒有形成融合機制,更無法發(fā)揮協(xié)同增益作用。其次,通用大語言模型在金融專業(yè)知識應(yīng)用上存在局限,大語言模型雖具備語言理解能力,但直接進行準(zhǔn)確的風(fēng)險預(yù)測仍面臨技術(shù)困難。此外,缺少兼顧準(zhǔn)確性與可解釋性的模型架構(gòu),而銀行業(yè)實際應(yīng)用要求模型既要精確預(yù)測,又要便于理解,滿足合規(guī)性。針對此三大不足,本文提出了一種基于大語言模型的“雙模型融合”信貸風(fēng)險評估框架,包括如下幾個方面。

一是基于雙大語言模型的融合架構(gòu),通過一個擅長推理的大語言模型對包括非結(jié)構(gòu)化信息的全部信息進行推理分析,得出分析報告;然后用另一個嵌入大語言模型將分析生成的報告轉(zhuǎn)化為語義嵌入向量,與原始結(jié)構(gòu)化特征拼接,從而融合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進行風(fēng)險評估。

二是引入會話模板指導(dǎo)大語言模型結(jié)合金融領(lǐng)域知識進行風(fēng)險分析,并記錄邏輯推理大語言模型的推理過程以增強決策的可解釋性,提升風(fēng)險判斷的準(zhǔn)確率和可信度。

三是給出兩種評估方案,包括面向可解釋性的特征融合+XGBoost方案和追求高性能的端到端微調(diào)方案,以滿足不同業(yè)務(wù)場景的需求。

通過在LendingClub公開借貸數(shù)據(jù)集上進行實證檢驗,結(jié)果顯示,本文提出的架構(gòu)顯著優(yōu)于僅利用單一結(jié)構(gòu)化數(shù)據(jù)源的傳統(tǒng)模型。其中,特征融合+XGBoost的曲線下面積(Area Under Curve,AUC)指標(biāo)值達到0.867,相比僅用結(jié)構(gòu)化特征的模型提升了4.3%;而基于端到端微調(diào)的AUC值達0.872,在各項指標(biāo)上均表現(xiàn)最佳。實證檢驗結(jié)果驗證了大語言模型在信貸風(fēng)險評估中的應(yīng)用價值,為傳統(tǒng)信貸風(fēng)控向智能化評估體系的轉(zhuǎn)型提供了可行方案。

模型介紹

本文構(gòu)建的信貸風(fēng)險評估框架包含DeepSeekR1和Stella兩個大語言模型,具體細節(jié)如下。

模型框架設(shè)計

框架包含四個核心模塊,分別是數(shù)據(jù)處理、文本分析、特征融合和模型預(yù)測,數(shù)據(jù)處理模塊負責(zé)數(shù)據(jù)預(yù)處理,其中,對結(jié)構(gòu)化數(shù)據(jù)進行缺失值填補、標(biāo)準(zhǔn)化、類別編碼轉(zhuǎn)換,對非結(jié)構(gòu)化文本數(shù)據(jù)進行清洗和格式轉(zhuǎn)換。文本分析模塊用兩個大語言模型處理預(yù)處理過的數(shù)據(jù)。首先,使用DeepSeek-R1①對貸款文本進行邏輯分析(Reasoning),分析前需要將預(yù)處理過的數(shù)據(jù)填入設(shè)計的對話模板,對話輸入給DeepSeek-R1后會得到思考過程和觀點;然后將DeepSeek-R1觀點與原始對話共同輸入給Stella模型②,這一過程將文本轉(zhuǎn)化為768維語義嵌入向量。特征融合模塊將語義嵌入向量作為基本特征與原始結(jié)構(gòu)化數(shù)據(jù)拼接,形成統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)特征,輸入模型預(yù)測模塊進行違約風(fēng)險預(yù)測;風(fēng)險預(yù)測模塊基于XGBoost算法,是傳統(tǒng)風(fēng)險評估中的常用算法,其精度高、效率高、可解釋性強。另外,在風(fēng)險預(yù)測模塊中,本文也嘗試了直接微調(diào)Stella模型,端到端的直接從文本輸出違約風(fēng)險,也就是在Stella模型后直連接一個線性層進行訓(xùn)練(見圖1)。


圖1 大語言模型信貸風(fēng)險評估架構(gòu)圖

DeepSeek-R1文本分析

框架的第一階段使用DeepSeek-R1對貸款文本構(gòu)成的模板對話化進行邏輯分析,形成風(fēng)險評估的觀點。本研究所使用的版本為DeepSeek-R1-Distill-Llama-70B,其網(wǎng)絡(luò)架構(gòu)為Llama,包含約700億參數(shù),通過滿血版DeepSeekR1蒸餾數(shù)據(jù)訓(xùn)練得到模型參數(shù),雖然參數(shù)量是滿血版DeepSeekR1的十分之一,但其仍具有很強的推理深度和準(zhǔn)確性。為了充分挖掘DeepSeek-R1的邏輯思考能力,本文設(shè)計了一套結(jié)構(gòu)化的對話提示模板,包括貸款申請詳情、借款人信息和信用歷史信息三方面內(nèi)容,用于引導(dǎo)模型捕捉貸款申請中的關(guān)鍵信息。其中,貸款申請詳情包括貸款金額、期限、利率、貸款等級、用途及每月還款額等;借款人信息包括住房擁有狀況、年收入、工作年限、職業(yè)職位、債務(wù)收入比等;信用歷史信息包括FICO信用評分區(qū)間、信用記錄長度、過往不良記錄數(shù)量、信用賬戶數(shù)目和信用卡利用率等。DeepSeek-R1的輸出包含推理過程和風(fēng)險評估的觀點,推理過程(Thinking)包含模型對各項貸款特征與風(fēng)險關(guān)系的邏輯分析過程,包括歸納、反思等模式;風(fēng)險評估是模型根據(jù)前述分析給出貸款的違約風(fēng)險的評判以及原因。DeepSeek-R1透明的思考路徑能提供詳實的分析依據(jù),從而提升最終結(jié)論的可解釋性。

Stella嵌入向量生成

框架的第二階段使用Stella模型將文本信息轉(zhuǎn)換為數(shù)值向量。本文采用基于“gte-large-en-v1.5”與“gte-Qwen2-1.5B-instruct”實現(xiàn)的Stella_en_1.5B_v5模型,參數(shù)規(guī)模約15億。數(shù)值向量生成過程中,先將DeepSeek-R1生成的風(fēng)險分析報告與原始貸款申請文本進行拼接,形成綜合文本;然后將拼接后的綜合文本輸入Stella模型,生成對應(yīng)的768維語義嵌入向量。最終,Stella模型輸出的嵌入向量融合了原始文本和DeepSeek-R1分析結(jié)論的信息,形成對借款人風(fēng)險狀況的全面表征。

特征融合與XGBoost模型

XGBoost是傳統(tǒng)常用的違約預(yù)測機器學(xué)習(xí)算法,在信用風(fēng)險建模中有廣泛應(yīng)用,主要優(yōu)點包括:預(yù)測精度高,能夠有效捕捉特征間復(fù)雜的非線性關(guān)系;計算效率高,通過并行化和優(yōu)化算法加速模型訓(xùn)練;可解釋性較強,可通過特征重要度等手段了解模型決策依據(jù)。訓(xùn)練過程中,XGBoost以邏輯損失(對數(shù)損失)為目標(biāo)函數(shù),并加入L1/L2正則化項防止模型過擬合。通過調(diào)節(jié)樹模型的復(fù)雜度,XGBoost在保持高精度的同時實現(xiàn)了良好的泛化能力。本文將結(jié)構(gòu)化特征向量與Stella輸出的非結(jié)構(gòu)化特征的語義嵌入向量融合,也就是首尾拼接,然后使用XGBoost進行違約預(yù)測。

Stella微調(diào)模型

上述特征融合+XGBoost是傳統(tǒng)機器學(xué)習(xí)違約預(yù)測范式,本文還探究了使用Stella模型進行端到端微調(diào)的方案。具體來說,該方案在預(yù)訓(xùn)練的Stella模型后添加一個全連接分類層,直接將文本嵌入向量映射為違約概率,這樣構(gòu)建了一個端到端的學(xué)習(xí)模型。輸入的數(shù)據(jù)同樣是DeepSeek-R1分析報告與原始申請文本的拼接,輸出為借款人的違約概率。在該方案的模型訓(xùn)練中,采用交叉熵損失函數(shù),并使用AdamW優(yōu)化器進行參數(shù)更新。設(shè)定學(xué)習(xí)率為1e-5、批量大小為32、訓(xùn)練輪數(shù)為5,并引入早停機制來防止過擬合。從原理上分析,預(yù)訓(xùn)練的Stella編碼器負責(zé)提取高層語義特征,新加入的線性層學(xué)習(xí)這些特征與違約概率之間的映射關(guān)系。交叉熵損失通過衡量二分類預(yù)測的準(zhǔn)確性,促使模型學(xué)習(xí)文本特征與違約風(fēng)險的內(nèi)在關(guān)聯(lián)。與傳統(tǒng)方案相比,端到端微調(diào)方案的優(yōu)勢在于省去了中間特征拼接和獨立訓(xùn)練預(yù)測模型的步驟,將整個預(yù)測過程整合為一個神經(jīng)網(wǎng)絡(luò)模型,降低了人為干預(yù)。但其劣勢是模型的可解釋性相對較弱,難以直接提取各特征的重要性。

實證研究

本文采用美國一家網(wǎng)絡(luò)借貸平臺LendingClub的公開貸款數(shù)據(jù)集進行實證研究,該平臺提供了2007年至2018年間約226萬筆借款記錄,數(shù)據(jù)集包括借款人的個人信息、財務(wù)狀況、借款詳情、還款記錄等。

數(shù)據(jù)基礎(chǔ)與特征構(gòu)成

為了保證研究樣本的時效性和經(jīng)濟環(huán)境相對穩(wěn)定,本文選取了2015年至2017年期間發(fā)放的貸款數(shù)據(jù)約60萬條作為研究對象。在樣本標(biāo)簽的定義上,本文依據(jù)貸款最終狀態(tài)字段,將“ChargedOff”(核銷)、“Default”(違約)以及“Late(31—120days)”(逾期31—120天)這三類狀態(tài)的貸款記為違約(標(biāo)簽=1),其余正常還清或正在償還的貸款記為未違約(標(biāo)簽=0)。

針對原始數(shù)據(jù),本文進行了如下預(yù)處理:

針對數(shù)據(jù)不平衡問題(違約樣本約占15%),采用隨機下采樣的方法平衡正負樣本數(shù),以避免模型訓(xùn)練時過度偏向多數(shù)類;

為避免未來信息泄露(前視偏差),本文剔除了貸款發(fā)放時無法獲知的后驗變量,例如還款歷史記錄長度、逾期天數(shù)等貸后行為數(shù)據(jù);

對結(jié)構(gòu)化特征執(zhí)行缺失值填補、數(shù)值標(biāo)準(zhǔn)化和類別變量編碼處理,盡可能保證輸入特征的質(zhì)量和同質(zhì)性。

具體來說,結(jié)構(gòu)化特征主要包括以下幾類:一是借款人基本信息(如年收入、就業(yè)年限、住房所有權(quán)狀態(tài)、所在地區(qū)等),用于反映借款人的社會經(jīng)濟地位與穩(wěn)定性;二是信用歷史特征(如FICO信用評分范圍、信用記錄長度、過往逾期或違約記錄數(shù)量、信用卡利用率等),用于刻畫借款人的歷史信用表現(xiàn)和風(fēng)險偏好;三是償債能力特征(如債務(wù)收入比、月還款額占收入比等),衡量借款人的當(dāng)前財務(wù)壓力和償債能力;四是貸款屬性特征(如貸款金額、期限、利率、信用等級、貸款用途等),展示貸款本身的風(fēng)險特性和用途。以上結(jié)構(gòu)化特征共涉及20余個變量。

非結(jié)構(gòu)化文本特征則來自借款人在申請貸款時提供的文本信息,主要包括:貸款用途描述(Loan Description),借款人用一段話說明貸款資金的用途,例如“債務(wù)合并”或“裝修房屋”等;貸款標(biāo)題(LoanTitle),借款人為貸款起的簡短標(biāo)題,概括貸款意圖;借款人職業(yè)信息(Employment Title),如“銷售經(jīng)理”“教師”等,用于側(cè)面反映借款人的職業(yè)穩(wěn)定性和收入潛力。這三部分文本信息長度不一,內(nèi)容包含借款人的敘述和自我陳述,屬于典型的軟信息來源。

實驗設(shè)計與模型配置

為全面評估雙模型架構(gòu)的性能,本文設(shè)計了六組對比實驗,通過控制變量的方法驗證不同特征組合和建模路徑的效果差異。

實驗1,僅使用傳統(tǒng)結(jié)構(gòu)化特征訓(xùn)練XGBoost模型。本文通過網(wǎng)格搜索和交叉驗證確定XGBoost的超參數(shù)設(shè)置:最大樹深為6,學(xué)習(xí)率0.1,L1正則化系數(shù)0.01,L2正則化系數(shù)0.1,子樣本率0.8。該組實驗提供了傳統(tǒng)風(fēng)控模型的性能基線。

實驗2,僅使用Stella模型生成的文本嵌入向量作為特征訓(xùn)練XGBoost模型。模型輸入包括貸款描述、標(biāo)題、職業(yè)信息等原始貸款數(shù)據(jù),向量維度為768。XGBoost模型的超參數(shù)與實驗1保持一致,以確保結(jié)果具有可比性。該實驗用于評估大語言模型處理非結(jié)構(gòu)化文本后,在獨立預(yù)測違約風(fēng)險方面的能力。

實驗3,僅使用Stella模型生成的文本嵌入向量作為特征訓(xùn)練XGBoost模型。與實驗2相比,輸入Stella模型的信息加入DeepSeek-R1分析文本。

實驗4,將結(jié)構(gòu)化特征與文本嵌入向量拼接融合后輸入XGBoost模型進行訓(xùn)練,該模型參數(shù)設(shè)置與前兩組相同。本實驗用于檢驗“結(jié)構(gòu)化+非結(jié)構(gòu)化數(shù)據(jù)”融合對模型性能的影響,探究兩類信息的互補作用。

實驗5,采用端到端的深度學(xué)習(xí)方法,對預(yù)訓(xùn)練Stella模型進行微調(diào)訓(xùn)練,直接輸出違約風(fēng)險預(yù)測。模型輸入包括貸款描述、標(biāo)題、職業(yè)信息等原始貸款數(shù)據(jù)。訓(xùn)練參數(shù)為:學(xué)習(xí)率1e-5,批次大小32,訓(xùn)練輪次5,并使用早停策略防止過擬合。

實驗6,采用端到端的深度學(xué)習(xí)方法,對預(yù)訓(xùn)練Stella模型進行微調(diào)訓(xùn)練,直接輸出違約風(fēng)險預(yù)測。與實驗5相比輸入Stella模型的信息加入DeepSeek-R1分析文本。

本文采用多種指標(biāo)進行實驗評估,包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值和AUC值。其中,AUC(Area Under ROC Curve)作為綜合評價指標(biāo),能夠反映模型在不同閾值下的區(qū)分能力;F1值則是精確率與召回率的調(diào)和平均,適用于類別不平衡場景。本文將數(shù)據(jù)集按照6:2:2的比例劃分為訓(xùn)練集、驗證集和測試集,并采用分層抽樣確保各子集中違約比例一致。模型在訓(xùn)練集上訓(xùn)練,在驗證集上調(diào)參并根據(jù)早停準(zhǔn)則確定最優(yōu)迭代輪次,最終在測試集上評估性能。

實驗結(jié)果與分析

六組模型的測試結(jié)果如表1所示,對比分析可以發(fā)現(xiàn),Stella微調(diào)模型性能最好。其中,Stella微調(diào)模型的AUC值達到了0.766,F(xiàn)1值為0.762,顯著高于其他模型。這表明通過微調(diào)訓(xùn)練后大語言模型能夠更準(zhǔn)確地捕捉借款信息中與違約風(fēng)險高度相關(guān)的深層語義特征,從而帶來顯著的性能提升。

表1 六組實驗?zāi)P托阅軐Ρ?/p>


實驗結(jié)果還表明,結(jié)構(gòu)化特征與文本語義信息之間存在明顯的互補效應(yīng)。將這兩類信息融合后,模型能夠獲取更全面的風(fēng)險信號,提升違約風(fēng)險識別的覆蓋度和準(zhǔn)確性。例如,與僅使用結(jié)構(gòu)化特征的基準(zhǔn)模型相比,特征融合模型的總體預(yù)測準(zhǔn)確率由0.619提升到了0.727,這表明引入借款人的非結(jié)構(gòu)化信息有助于減少錯判,能夠擬補傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的不足。

同時,基于大語言模型文本嵌入的模型(包括DeepSeek-R1的分析)已經(jīng)取得了接近結(jié)構(gòu)化特征模型的表現(xiàn)。具體而言,僅利用文本信息的模型實現(xiàn)了約0.680的AUC,已經(jīng)接近僅使用結(jié)構(gòu)化特征模型的0.733。這表明非結(jié)構(gòu)化文本中確實蘊含有價值的風(fēng)險信號。然而,僅依靠傳統(tǒng)機器學(xué)習(xí)算法(如XGBoost)對文本嵌入特征進行建模仍存在局限,上述文本嵌入模型相對于結(jié)構(gòu)化模型仍有一定差距。這也從側(cè)面印證了通過端到端微調(diào)大語言模型來更充分挖掘文本語義信息的必要性。

此外,對不同貸款類型情境下模型表現(xiàn)的進一步分析發(fā)現(xiàn),特征融合模型和Stella微調(diào)模型在某些特殊場景下表現(xiàn)尤為突出。尤其是對于債務(wù)合并類貸款場景,借款人在文本中對債務(wù)用途和財務(wù)狀況的詳盡說明對判斷其償債意愿至關(guān)重要,上述兩種模型利用文本信息捕捉到了這些關(guān)鍵風(fēng)險信號。在特征融合模型中,筆者對特征重要性進行了分析,結(jié)果發(fā)現(xiàn)來自LLM文本嵌入的特征總體貢獻度約為41.3%,進一步證明了非結(jié)構(gòu)化文本信息在信貸風(fēng)險評估中的重要價值。

結(jié)論與建議

本文針對商業(yè)銀行線上個人信貸風(fēng)險評估,構(gòu)建了“雙大語言模型”的評估框架,并通過實證檢驗了其有效性,證明了雙模型架構(gòu)能夠滿足線上個人信貸場景的風(fēng)險評估需求,與傳統(tǒng)評估模型相比具有顯著優(yōu)勢。雙模型架構(gòu)不僅可以更準(zhǔn)確地評估線上個人信貸的違約風(fēng)險,及時發(fā)現(xiàn)潛在高風(fēng)險借款人,降低信貸資產(chǎn)的不良率;還可以通過LLM生成分析報告的方式獲得良好的可解釋性,減少了黑箱問題在監(jiān)管合規(guī)方面的顧慮,大大提升了落地實施的可能性。

隨著新一代大語言模型的演化,其在金融領(lǐng)域的表現(xiàn)有望進一步提升。伴隨更大規(guī)模、更高智商的LLM出現(xiàn),將賦予風(fēng)險評估模型更深層次的理解能力和更嚴(yán)密的邏輯推理能力;龐大的應(yīng)用需求督促著金融垂直領(lǐng)域的預(yù)訓(xùn)練模型不斷涌現(xiàn),多數(shù)金融機構(gòu)都可以使用專用大語言模型更精確地刻畫信貸風(fēng)險特征、更有針對性地提出風(fēng)險防范手段。此外,未來的LLM還將融合知識圖譜、聯(lián)邦學(xué)習(xí)等技術(shù)來解決數(shù)據(jù)孤島問題,增強對金融因果關(guān)系和領(lǐng)域知識的掌握,實現(xiàn)從相關(guān)性判斷向因果性分析的跨越、從定性分析到定量分析的提升,大幅度解決商業(yè)銀行線上個人信貸風(fēng)險評估問題。


注:①DeepSeek-R1是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型。

②Stella模型NovaSearch公司開發(fā)的嵌入模型。

作者單位:徽商銀行研究發(fā)展部,其中周慶霞系該部門總經(jīng)理

THE END

轉(zhuǎn)載聲明:本微信公眾號刊登的文章僅代表作者本人觀點,不代表中國普惠金融研究院及本微信公眾號觀點

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
0-3遭橫掃后,沒想到向鵬這樣評價張本智和:心態(tài)崩了,實力差距

0-3遭橫掃后,沒想到向鵬這樣評價張本智和:心態(tài)崩了,實力差距

十點街球體育
2026-01-10 00:00:03
美媒:中國洲際隱身轟炸機高清照首次亮相。遠超B21

美媒:中國洲際隱身轟炸機高清照首次亮相。遠超B21

世家寶
2026-01-07 11:59:10
伊朗,“不是委內(nèi)瑞拉”

伊朗,“不是委內(nèi)瑞拉”

中國新聞周刊
2026-01-09 08:52:33
不只是臺灣!日本必須歸還的中國領(lǐng)土,遠比你想象的多

不只是臺灣!日本必須歸還的中國領(lǐng)土,遠比你想象的多

優(yōu)趣紀(jì)史記
2026-01-09 23:14:17
摩爾線程,你在打誰的臉?

摩爾線程,你在打誰的臉?

風(fēng)風(fēng)順
2025-12-13 01:00:04
賀江川落馬,在北京國企圈子里,妥妥是金字塔尖的大佬。

賀江川落馬,在北京國企圈子里,妥妥是金字塔尖的大佬。

百態(tài)人間
2025-12-19 16:54:12
買紅妹:我那“拋妻棄子”的前夫,與潘蔚再婚后,面相都變了!

買紅妹:我那“拋妻棄子”的前夫,與潘蔚再婚后,面相都變了!

瓜汁橘長Dr
2025-12-31 18:03:17
圖片報:多特認為小貝林厄姆體型相對偏壯,希望他減肌

圖片報:多特認為小貝林厄姆體型相對偏壯,希望他減肌

懂球帝
2026-01-09 20:05:06
張本智和連克兩大國乒猛將晉級8強,激情慶祝引關(guān)注

張本智和連克兩大國乒猛將晉級8強,激情慶祝引關(guān)注

劉剮說體壇
2026-01-10 00:30:24
A股:剛剛,中央權(quán)威發(fā)布,重磅信號來襲,下周一將迎來新的變化

A股:剛剛,中央權(quán)威發(fā)布,重磅信號來襲,下周一將迎來新的變化

云鵬敘事
2026-01-10 00:00:05
這把是虧了!都靈退租國米23歲中場隊員,實力不濟太令人失望

這把是虧了!都靈退租國米23歲中場隊員,實力不濟太令人失望

里芃芃體育
2026-01-10 00:35:06
這回真被打疼了!新加坡做了20年美國“好朋友”,反手就被收割?

這回真被打疼了!新加坡做了20年美國“好朋友”,反手就被收割?

知識TNT
2026-01-09 14:10:05
樂高往積木里塞了個電腦,這是半世紀(jì)以來最大的一次進化|CES 2026

樂高往積木里塞了個電腦,這是半世紀(jì)以來最大的一次進化|CES 2026

愛范兒
2026-01-08 18:06:01
王石陪田樸珺理發(fā)力破婚變傳聞!5歲女兒罕見露面,側(cè)面像極爸爸

王石陪田樸珺理發(fā)力破婚變傳聞!5歲女兒罕見露面,側(cè)面像極爸爸

古希臘掌管松餅的神
2026-01-09 20:07:30
太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

好賢觀史記
2025-12-23 18:14:27
小姐姐緊身連體瑜伽褲一穿,長腿優(yōu)勢直接拉滿,辣到讓人心跳

小姐姐緊身連體瑜伽褲一穿,長腿優(yōu)勢直接拉滿,辣到讓人心跳

小喬古裝漢服
2025-12-19 16:23:17
中國債市供給創(chuàng)下天量!

中國債市供給創(chuàng)下天量!

邊際財經(jīng)實驗室
2026-01-09 10:44:58
于正怕是比吃蒼蠅還難受!被他棄用的兩個好苗子,如今紅的發(fā)燙

于正怕是比吃蒼蠅還難受!被他棄用的兩個好苗子,如今紅的發(fā)燙

小椰的奶奶
2026-01-09 09:46:17
美軍沒有政委,為什么能把軍隊管得服服帖帖?

美軍沒有政委,為什么能把軍隊管得服服帖帖?

扶蘇聊歷史
2026-01-06 15:25:46
孫千這組照片太敢!黑褲包裹蜜桃臀,蝴蝶釘在胸前,這身材絕了?

孫千這組照片太敢!黑褲包裹蜜桃臀,蝴蝶釘在胸前,這身材絕了?

娛樂領(lǐng)航家
2026-01-09 22:00:03
2026-01-10 02:08:49
中國普惠金融研究院CAFI incentive-icons
中國普惠金融研究院CAFI
人大財金學(xué)院下設(shè)的研究機構(gòu)
2034文章數(shù) 474關(guān)注度
往期回顧 全部

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

頭條要聞

佩特羅:“特朗普對我說已在策劃軍事行動”

頭條要聞

佩特羅:“特朗普對我說已在策劃軍事行動”

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

藝術(shù)
手機
旅游
數(shù)碼
家居

藝術(shù)要聞

撲面而來的激情:俄羅斯畫家斯拉因斯基 大筆觸繪畫作品!

手機要聞

vivo X200T詳細參數(shù)曝光,X300 Ultra待發(fā)布

旅游要聞

別只盯著北方雪!南寧這場持續(xù) 58 天的菊花展,才是冬日頂流

數(shù)碼要聞

智能廚電邁入大模型時代,中國廚電想從“學(xué)生”變“老師”

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進入關(guān)懷版