網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

治好信貸AI的選擇困難癥

2026-01-13 18:29:18　來源: 虎嗅APP

北京舉報

分享至

AI大模型如今在互聯(lián)網(wǎng)上風(fēng)頭正勁，能寫代碼、作詩畫圖，甚至能高分通過人類的律師資格考試。

但在具體的金融場景下，面對一張拍歪了的營業(yè)執(zhí)照、一份有陰影的企業(yè)流水證明，AI學(xué)霸的眼力可能還不如剛?cè)胄械男刨J員。

實驗室的理想環(huán)境下，大模型可以精準識別高清、平整的證件圖。但場景一旦切換到真實的信貸業(yè)務(wù)中，情況便急轉(zhuǎn)直下。

要求客戶提供的資料沒有陰影遮擋、沒有反光模糊，邊緣裁剪完美，還得角度平整、光線均勻，這在現(xiàn)實中幾乎是不可能的任務(wù)，尤其是對于非標程度極高的小微企業(yè)信貸而言。

恰恰是這些充滿噪音的細節(jié)，決定了最終風(fēng)控審核的結(jié)果。

金融信貸業(yè)務(wù)容錯率低，非結(jié)構(gòu)化數(shù)據(jù)復(fù)雜，審核要求還高。既有的通用技術(shù)手段，已很難滿足現(xiàn)有業(yè)務(wù)的精細化發(fā)展需求。但如何定義一個“好”的信貸審核模型？是否可以通過標準化來衡量AI模型的能力？

AI若想在金融圈立足，目標必須是擁有如資深信貸員般的專業(yè)能力，且需要一個清晰的標準來界定其優(yōu)劣。目前市場上有AI信貸員服務(wù)的玩家，如奇富科技，他們會不會幫助金融機構(gòu)去界定“好壞”？

金融機構(gòu)的“無尺之痛”

經(jīng)濟周期波動下，金融機構(gòu)對于智能信貸審核工具的需求愈發(fā)強烈。

遺憾的是，想采購趁手的工具，卻找不到一把衡量好壞的尺子。這就好比，你要招聘能開夜路的卡車司機，手里卻只有他的奧數(shù)成績單。

市場上大模型層出不窮，但行業(yè)內(nèi)缺乏權(quán)威且統(tǒng)一的衡量標準（Benchmark），這讓金融機構(gòu)陷入了深深的選型焦慮。

這種焦慮源于大模型與機構(gòu)需求在多個層面的錯位。

首先是題目錯位。

市面上主流的多模態(tài)評測基準，要么盯著通用的自然場景，比如識別貓或蘋果，要么聚焦于股票K線和財報分析。對于信貸業(yè)務(wù)核心的證件審核與信息交叉驗證，關(guān)注度有限。

通用模型能背誦百科全書，卻未必能讀懂邏輯復(fù)雜的征信報告。

其次是數(shù)據(jù)隔離。

受限于合規(guī)要求，真實的信貸數(shù)據(jù)往往鎖在銀行的保險柜里，無法共享。這造成了一個典型的隱私悖論：

學(xué)術(shù)界拿不到真實數(shù)據(jù)，只能在理論上訓(xùn)練模型，難以落地；金融機構(gòu)守著大把數(shù)據(jù)和落地場景，卻因為缺乏公開公平的衡量標準，無法橫向?qū)Ρ雀骷夷Ｐ偷男Ч?/p>

兩端都在摸索，但距離標準答案尚遠。

最后是環(huán)境失真。

實驗室里的數(shù)據(jù)常常過于理想化，而真實業(yè)務(wù)環(huán)境復(fù)雜多變，傾斜、模糊、水印等干擾因素無處不在。模型在實驗室里跑分再高，一旦遇到真實場景的臟數(shù)據(jù)，泛化性能往往大打折扣。

所以，行業(yè)缺乏標準，結(jié)果就是金融機構(gòu)無法做出理性選型，技術(shù)廠家也很難用統(tǒng)一尺度，證明自家產(chǎn)品的價值。包括奇富科技在內(nèi)的一批長期深耕金融服務(wù)的服務(wù)商，都在尋求一套更貼近真實業(yè)務(wù)的衡量框架。

對金融機構(gòu)而言，這種“無尺之痛”一方面是技術(shù)問題，另一方面也關(guān)系到風(fēng)險是否可控、決策是否具備可復(fù)核與可解釋的基礎(chǔ)。這也是當前制約銀行深入推進數(shù)智化轉(zhuǎn)型的一大痛點。

造一把既土又洋的尺子

金融業(yè)務(wù)中，信貸審核環(huán)節(jié)的非結(jié)構(gòu)化數(shù)據(jù)密度高，責任強度也高，既是痛點，也最容易體現(xiàn)AI的價值。

那么，如果金融機構(gòu)要為信貸AI設(shè)立標準，這套標準需要滿足兩個看似矛盾的宏觀條件。

它必須足夠“土”，貼近金融行業(yè)的泥濘地帶，了解邊角痛點，具備全面評價信貸場景解決方案的能力。

它又得足夠“洋”，技術(shù)視野要寬廣，理解通用大模型向垂直領(lǐng)域演進的技術(shù)路徑，并據(jù)此構(gòu)建匹配的評測維度。

這把尺子的權(quán)威性，決定它能否被行業(yè)買單，也決定金融機構(gòu)引入AI時，是否擁有一套被各方理解且能復(fù)核的判斷依據(jù)。

在這個問題上，傳統(tǒng)金融機構(gòu)體量龐大，強調(diào)合規(guī)穩(wěn)健，難以獨自完成底層的技術(shù)基建。純粹的互聯(lián)網(wǎng)巨頭又距離業(yè)務(wù)太遠，不懂金融風(fēng)控中那些微妙的尺度拿捏。

行業(yè)迫切需要一個中間人來打破僵局。它既理解金融業(yè)務(wù)的深水區(qū)，又具備頂尖的AI技術(shù)能力，提供更加垂直精準的解決方案。

在過去的金融科技實踐中，奇富科技深度參與信貸審核流程，對真實場景中的數(shù)據(jù)噪聲與審核邏輯有著持續(xù)積累。

既然買不到合適的尺子，他們決定聯(lián)合復(fù)旦大學(xué)與華南理工大學(xué)的研究團隊，自己造一把。一個連通金融與AI的嘗試，造就了首個面向信貸場景的多模態(tài)評測基準FCMBench-V1.0。

把真實世界搬進測評體系

為確保這套基準權(quán)威且實用，研究團隊在基礎(chǔ)的數(shù)據(jù)構(gòu)建層面，干了件看起來極其原始的苦差事——物理仿真。

真實的信貸數(shù)據(jù)涉及合規(guī)要求，無法公開；純粹的數(shù)字合成數(shù)據(jù)又太過干凈，并不真實。為解決這一悖論，團隊選擇了更難的路徑。

他們構(gòu)建了一個包含21位虛擬人物的信貸資料庫，詳細設(shè)定了這些人物的年齡、收入、婚姻狀況，以及小微經(jīng)營特征，生成數(shù)十種文檔模板。

重點來了，團隊并未止步于電腦合成，而是將這些生成的身份證、房產(chǎn)證、銀行流水，打印并制作成了實物。

接著，用iPhone、華為、小米等五款常見品牌的手機，對著實物證件拍照。他們甚至人為制造“爛片”，模擬現(xiàn)實中常見的反光、折痕、模糊等非標環(huán)境。

這種對物理世界的高度還原，讓這一包含4000多張合規(guī)圖像、8000多個任務(wù)指令的數(shù)據(jù)集，擁有了真實的質(zhì)感。

有了數(shù)據(jù)，還需要有懂行的評判邏輯。

FCMBench測評體系涉及“感知-推理-魯棒性”等三個維度，把看清、看懂、抗干擾融入測評框架。

具體而言，就是要求大模型不僅能看清楚材料本身，還能識別字段與業(yè)務(wù)的邏輯關(guān)系，完成信息交叉比對，并且在極端與異常樣本中依然不出錯。

例如，檢查身份證與房產(chǎn)證上的名字是否一致；更復(fù)雜些，模型需要同時比對收入證明與完稅證明，用類似信貸員的業(yè)務(wù)邏輯，校驗數(shù)據(jù)合理性：

申請人聲稱個人年收入高于10萬元，但完稅證明體現(xiàn)的納稅比例低于10%，AI應(yīng)當立即警覺——這極有可能是一份注水的收入證明。

事實上，F(xiàn)CMBench并不苛求模型在某一特定維度的極致分數(shù)，而是幫助金融機構(gòu)在穩(wěn)健性、覆蓋度與業(yè)務(wù)效率之間，找到更符合自身風(fēng)險偏好的平衡點。

這種像老信貸員一樣的直覺，才是風(fēng)控AI的靈魂。

通才與專才的較量，不服跑個分？

考卷出好了，誰能拿高分？

在這樣嚴苛的考場中，奇富科技考察了全球14家機構(gòu)的23個主流模型。測試對象既包括谷歌、OpenAI這樣的通用巨頭，也包括經(jīng)過特定訓(xùn)練的垂直模型。

不服跑個分？

FCMBench的評測中，不同類型模型各有勝負。通用模型方面，谷歌的Gemini 3 Pro在商業(yè)模型中領(lǐng)跑，阿里的Qwen3-VL-235B則是開源基模中的佼佼者。

但回到真實的信貸場景，以統(tǒng)一的綜合指標開展橫向比較時，奇富科技自研的信貸垂類多模態(tài)大模型Qfin-VL-Instruct，拿下了全模型最高分。

所謂綜合指標（即F1），是召回率（Recall）與精確率（Precision）的調(diào)和平均。信貸審核中，模型若過度偏向精確率，可能過于謹慎，導(dǎo)致誤拒正常申請；若過度偏向召回率，則可能過于寬松，放大風(fēng)險敞口。

這一測評體系下，模型綜合得分高，反映其結(jié)構(gòu)化能力與魯棒性表現(xiàn)更均衡，也更有利于適配真實信貸業(yè)務(wù)的場景需求。

奇富Qfin模型奪冠，驗證了垂直大模型存在的商業(yè)邏輯：術(shù)業(yè)有專攻。

當通用大模型試圖用常識去理解世界時，經(jīng)過高質(zhì)量行業(yè)數(shù)據(jù)微調(diào)的垂直模型，更熟悉行業(yè)的潛規(guī)則。打個比方，通用模型像是博士，上知天文下知地理；而奇富Qfin模型更像坐了十年柜臺的老會計。

除了準確率，這筆賬還要考慮成本和效率。

通用的思考型大模型表現(xiàn)優(yōu)秀，缺點在于推理速度慢，算力消耗大。真實的信貸審批業(yè)務(wù)中，窗口期往往只有幾十秒。

奇富Qfin模型采用指令模式，既保持了高準確率，又讓推理速度比開啟思維鏈的通用模型快了2-3倍，Token消耗量更是呈數(shù)量級下降。

從測試結(jié)果來看，基于高質(zhì)量行業(yè)數(shù)據(jù)微調(diào)的垂直模型，可以在特定金融場景下，以更低的成本、更快的響應(yīng)速度，與參數(shù)量巨大的通用巨頭一較高下。

小結(jié)

技術(shù)狂奔之后，終需落地生根。

如奇富科技多模態(tài)負責人楊葉輝所言，如果特定模型在這一測評基準上取得好成績，“理論上就可以面向?qū)嶋H落地，而不僅僅是實驗室里的一個指標?！?/p>

為踐行承諾，并消除“既當裁判又當運動員”的疑慮，奇富科技宣布開源FCMBench的數(shù)據(jù)集與評測方法。這打通了學(xué)術(shù)界與產(chǎn)業(yè)界的壁壘，為行業(yè)提供了稀缺、合規(guī)且高質(zhì)量的信貸場景數(shù)據(jù)。

展望未來，AI正進入務(wù)實時代。未來的競爭，關(guān)鍵在于誰能扎根行業(yè)，解決具體的產(chǎn)業(yè)問題。

奇富科技通過構(gòu)建FCMBench，連通了AI研究與金融落地。它用事實告訴行業(yè)，真正實用的AI，誕生在真實的業(yè)務(wù)泥濘里。

這也是奇富科技助力金融機構(gòu)跨越數(shù)智化轉(zhuǎn)型深水區(qū)的核心價值所在。

本內(nèi)容由作者授權(quán)發(fā)布，觀點僅代表作者本人，不代表虎嗅立場。如對本稿件有異議或投訴，請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4825960.html?f=wyxwapp

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

間諜策反中企員工致項目停工停產(chǎn) 國安機關(guān)披露詳情

極目新聞 2026-04-17 07:00:50
9722 跟貼 9722
揭秘年銷10億的爆款宋柚汁：“宋柚”是商標，柚含量不到3%，主配料為糖水，品牌號稱全國銷量第一

藍鯨新聞 2026-04-15 09:44:24
3683 跟貼 3683

巴媒：巴方將采購40架中國殲-35A 印度十年都追不上

澎湃新聞 2026-04-17 08:07:11
14 跟貼 14

廣東“莫氏雞煲大公主”爆火前后反差大，晚上干到凌晨2點才收工，發(fā)文吐槽：這個雞你們是非吃不可嗎

大象新聞 2026-04-15 12:57:04
1460 跟貼 1460
大哥健身房里猛練2小時結(jié)果出門直接上演“平地摔”

星視頻 2026-04-17 18:41:46
77 跟貼 77

2：0！重慶銅梁龍斬獲球隊首個中超三連勝，暫居積分榜首位

上游新聞 2026-04-17 21:38:14
37 跟貼 37

浙江街頭已大量出現(xiàn)！不少人捂鼻吐槽：別靠近，太上頭

環(huán)球網(wǎng)資訊 2026-04-17 14:48:08
18 跟貼 18
格力怒斥海信，稱其沒資格用“真銅實料”四字進行宣傳，海信高管回懟：又當又立

大風(fēng)新聞 2026-04-15 15:07:03
955 跟貼 955

廣州越秀公園驚現(xiàn)“貓蛇大戰(zhàn)”，目擊者：雙方僵持了差不多三分鐘

星視頻 2026-04-17 14:41:00
749 跟貼 749
深圳一小區(qū)地樁竟“長”出“金屬倒刺”！居民嚇壞，物業(yè)整改

南方都市報 2026-04-17 12:56:56
444 跟貼 444
本田或?qū)㈥P(guān)停廣州、武漢兩座燃油車工廠

中國能源網(wǎng) 2026-04-17 14:45:03
2294 跟貼 2294
深圳水貝用330克純金打造車標網(wǎng)友：放車上就沒了

極目新聞 2026-04-17 11:05:47
345 跟貼 345
杭州通報一診所“用一個針頭給多人采血”

新京報 2026-04-17 20:06:12
35 跟貼 35
無錫機器人交警上路執(zhí)勤當?shù)亟还埽涸圏c投入兩臺，身高1.75米，單次充滿電可工作5小時

紅星新聞 2026-04-17 17:07:58
1793 跟貼 1793
美國移民與海關(guān)執(zhí)法局代理局長辭職

澎湃新聞 2026-04-17 12:40:06
151 跟貼 151
中越簽署一系列合作文件涉援越鐵路

界面新聞 2026-04-17 12:02:24
115 跟貼 115
美媒稱美方可能對古巴實施軍事行動中方表態(tài)

界面新聞 2026-04-17 15:43:01
785 跟貼 785
9000億巨頭，大漲！算力爆發(fā)，集體創(chuàng)新高

中國能源網(wǎng) 2026-04-17 16:09:10
177 跟貼 177
今年中國航天重點任務(wù)發(fā)布涉飛船發(fā)射

央視新聞客戶端 2026-04-17 14:53:15
82 跟貼 82
78歲畫家每天畫800張1場直播賣100萬元：不共情普通人

澎湃新聞 2026-04-17 10:54:06
3 跟貼 3
首個L2級輔助駕駛強制性國標報批稿公示：2027年1月實施，未達標車型將禁止上市

每日經(jīng)濟新聞 2026-04-17 22:36:06
18 跟貼 18
張雪機車增重7公斤仍奪荷蘭站練習(xí)賽第三

北青網(wǎng)-北京青年報 2026-04-17 18:56:24
0 跟貼 0

特朗普：美國將獲得伊朗所有核“塵?！?/a> 界面新聞

2026-04-17 22:16:29

虎嗅APP

個性化商業(yè)資訊與觀點交流平臺

26124文章數(shù) 687678關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產(chǎn)

健康

藝術(shù)

旅游

軍事航空

手機 / 數(shù)碼

房產(chǎn) / 家居

治好信貸AI的選擇困難癥

7家頭部平臺被罰沒35.97億元

特朗普：感謝伊朗開放霍爾木茲海峽

特朗普：感謝伊朗開放霍爾木茲海峽

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

劉德華摯友潘宏彬離世 曾一起租房住

"影子萬科"2.0：管理層如何吸血萬物云？

又快又穩(wěn)的開掛動力！ 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

重磅利好！2500個學(xué)位，海口濱江片區(qū)，要建九年一貫制學(xué)校！

干細胞抗衰4大誤區(qū),90%的人都中招

你絕對想不到！文森特的色粉作品竟如此驚艷！

三月三登泰山！蟠桃會+古風(fēng)巡游驚艷出圈

美宣布黎以停火10天 以方稱不會撤軍

中超-泰山1-1海港楊希處子球克雷桑任意球扳平

劉德華摯友潘宏彬離世曾一起租房住

又快又穩(wěn)的開掛動力！阿維塔06T全系搭分布式電驅(qū)

重磅利好！2500個學(xué)位，海口濱江片區(qū)，要建九年一貫制學(xué)校！

你絕對想不到！文森特的色粉作品竟如此驚艷！

美宣布黎以停火10天以方稱不會撤軍