国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

華爾街徹夜難眠!Gemini 3屠榜金融「最難考試」,AI砸了「金飯碗」?

0
分享至


新智元報道

編輯:KingHZ

【新智元導(dǎo)讀】被譽為「黃金職業(yè)通行證」的人類知識堡壘,CFA考試悄然陷落。最新的推理模型不僅輕松通過了CFA三級考試,還創(chuàng)造了幾乎滿分的成績。

AI一分鐘,人類十年功!

一覺醒來,AI推理模型已橫掃特許金融分析師CFA考試。


要拿下享譽全球的CFA(特許金融分析師)證書,對于人類考生來說,這通常意味著數(shù)年的煎熬和至少1000小時的苦讀。

但AI這次取得的成績有點讓人「破防」了:推理模型不僅輕松通過了三級考試,還創(chuàng)造了幾乎滿分的成績。

具體而言,在一級考試中,Gemini 3.0 Pro創(chuàng)下97.6%的歷史最高紀錄。

二級考試中,GPT-5以94.3%的成績領(lǐng)先。

在三級考試中,Gemini 2.5 Pro在選擇題部分取得86.4%的最高分,而Gemini 3.0 Pro在問答題部分達到92.0%的優(yōu)異成績。

那些想去華爾街工作的畢業(yè)生,可能睡不著了。


金融界「最難考試」被AI通關(guān)

特許金融分析師(Chartered Financial Analyst,CFA)認證被公認為金融領(lǐng)域難度最大的資格認證之一。

全部三級考試,需要逐級通過,涵蓋從基礎(chǔ)知識到應(yīng)用分析、直至復(fù)雜投資組合構(gòu)建的進階能力。


在2023年,當時最強的AI模型只能解答部分CFA試題,表現(xiàn)參差不齊。

當時的研究證實AI能搞定CFA一級和二級考試,但當時它們在三級考試面前卻碰了壁,因為搞不定那些復(fù)雜的論述題(essay questions)。


鏈接:https://aclanthology.org/2024.emnlp-industry.80/

到了今年7月,AI已經(jīng)能在幾分鐘之內(nèi)通過最難的CFA考試:


來自紐約大學斯特恩商學院(NYU Stern)與AI財富管理平臺GoodFin的研究人員想探究:AI是否已經(jīng)具備了處理「專業(yè)金融決策所需的、高風險的分析推理」能力?

研究團隊對23個大語言模型進行了「大閱兵」,測試它們處理CFA三級模擬試題中選擇題和論述題的能力。

要知道,CFA三級考試的核心可是最考驗功力的投資組合管理和財富規(guī)劃。


CFA三級考試主題和權(quán)重

結(jié)果顯示,o4-mini、Gemini 2.5 Pro和Claude Opus等前沿推理模型,在運用「思維鏈」(chain-of-thought)提示詞技術(shù)后,均成功通關(guān)。


鏈接:https://arxiv.org/pdf/2507.02954

「我認為毫無疑問,這項技術(shù)將在未來徹底重塑整個行業(yè)?!笹oodFin的創(chuàng)始人兼CEO Anna Joo Fee如是說。


本月9日,最新研究表明,當前這代推理模型不僅全部通過了三級考試,某些科目甚至接近滿分。


預(yù)印本鏈接;https://arxiv.org/abs/2512.08270

標題:Reasoning Models Ace the CFA Exams

AI的新成績讓人破防

來自哥倫比亞大學、倫斯勒理工學院和北卡羅來納大學的研究團隊,使用包含980道考題的題庫對6款推理模型進行測試。

他們編制了一套涵蓋CFA(特許金融分析師)全部三個等級的模擬試題,共計980道題目。

  • 一級試題集(Level I Set):包含三套試卷,總計540道多選題(Multiple Choice Questions, MCQs),每套180題。

  • 二級試題集(Level II Set):包含兩套試卷,總計176道選擇題(每套88題),每套試卷由22個「案例題組」(item sets)組成,每個題組包含4個問題。

  • 三級試題集(Level III Set):包含三套試卷,總計264道題目(每套88題);每套試卷采用混合形式,包含11個案例題組(共44道選擇題)和11個論述型案例分析(constructed-response case studies,共44道論述題/CRQs)。

盡管正式CFA考試中論述題的具體數(shù)量和分值權(quán)重會有所變化,但這些模擬試題遵循了標準且具有代表性的結(jié)構(gòu)。


(注:案例文本以藍色標注,問題以紅色呈現(xiàn),選項以綠色顯示,所有示例均為示意性內(nèi)容而非真實考題)

  • 一級考試選擇題示例:聚焦道德與職業(yè)行為準則,通過利益沖突情境考查考生對合規(guī)判斷的掌握。

  • 二級考試選擇題:圍繞股權(quán)投資實務(wù),測試對IPO牽頭行核心職責的理解與辨析能力。

  • 三級考試論述題示例:設(shè)定財務(wù)報告分析情境,要求結(jié)合通脹環(huán)境變化,判斷并說明外幣報表折算方法的適用性。

  • 三級考試選擇題示例:涉及私募市場估值,需計算債券市值,并綜合評估違約風險與清償順位對投資價值的影響。

  • 三級考試論述題示例:探討資產(chǎn)配置理論,比較兩種資本資產(chǎn)定價模型(CAPM)的應(yīng)用前提與估計精度,論證其適用差異。

結(jié)果顯示:Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依據(jù)既定標準通過了所有級別考核,部分成績甚至接近滿分。


Gemini與GPT-5雙雄領(lǐng)跑

在一級考試(基礎(chǔ)多選題)中,Gemini 3.0 Pro以97.6%的驚人準確率創(chuàng)下歷史新高。GPT-5緊隨其后,斬獲96.1%,Gemini 2.5 Pro也拿到了95.7%的高分。即便是測試中表現(xiàn)「墊底」的DeepSeek-V3.1,準確率也高達90.9%。

來到側(cè)重應(yīng)用與分析(案例研究)的二級考試,GPT-5反超奪魁,準確率達94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分別以93.2%和92.6%緊隨其后。

研究人員驚嘆道,這些模型在此階段的表現(xiàn)「近乎完美」。不過,「道德規(guī)范」(Ethics)板塊依然是AI的軟肋。數(shù)據(jù)顯示,即便最強模型,在二級考試的道德類題目中也有17%到21%的相對錯誤率。

到了最復(fù)雜的三級考試(包含選擇題與開放式問答),Gemini 2.5 Pro在選擇題部分拔得頭籌,準確率為86.4%。但在更考驗生成能力的「論述題」環(huán)節(jié),Gemini 3.0 Pro展現(xiàn)了統(tǒng)治力,得分率高達92.0%,相比前代模型的82.8%有了質(zhì)的飛躍。


為了對開放式問答環(huán)節(jié)進行評分,研究團隊使用了o4-mini模型來實現(xiàn)自動化批改。

研究人員坦言,這種做法可能會引入測量誤差,并產(chǎn)生某種「篇幅偏見」(verbosity bias),即回答越長,得分往往越高。因此,這些測試結(jié)果只能視為基于模型的估算值。

通過標準沿用了過往合格標準:

一級考試要求單科不低于 60%,總分不低于 70%;

二級考試要求單科不低于 50%,總分不低于 60%;

三級考試則要求在選擇題和論述題兩部分中,平均得分率至少達到 63%。

研究人員指出,測試結(jié)果表明「推理模型的專業(yè)能力已超越初級至中級金融分析師的要求,未來甚至可能達到資深分析師的水準」。

如果說此前的大語言模型已經(jīng)掌握了一級和二級考試中那些「既定的規(guī)范化知識」(codified knowledge),那么最新一代模型正在習得三級考試所必需的復(fù)雜「綜合研判能力」(synthesis skills)。

當然,慣常的局限性依然存在。基準測試,尤其是選擇題形式,只能作為評估模型能力和潛在經(jīng)濟價值的參考,猶如管中窺豹。

盡管如此,短短兩年間從「不及格」到「近乎滿分」的巨大飛躍,足以凸顯 AI 在專業(yè)領(lǐng)域的進化速度之快。

AI通關(guān)CFA了,然后呢?

當機器能輕松考下你引以為傲的證書,能代寫你的報告,能處理你的數(shù)據(jù),甚至很快在分析能力上都能把你甩在身后時,你該怎么辦?

媒體行業(yè)創(chuàng)業(yè)者兼出版人Matthias Bastian認為,會考試 ≠ 能干活:

  • 考場得意,不代表職場如意。通過考試并不意味著模型能勝任金融分析師的日?,嵥楣ぷ鳎╠aily grind),比如與客戶面談、評估復(fù)雜的市場情緒,以及在信息不全的情況下做出關(guān)鍵決策。

  • 研究還特別提到,模型在「道德倫理」類題目上依然最吃力,因為這類問題往往需要深度的情境理解和價值判斷。畢竟,考試考察的是孤立的知識點,而非在復(fù)雜多變的現(xiàn)實世界中靈活運用知識的能力。

  • 此外,研究人員也無法完全排除「數(shù)據(jù)污染」的可能性。雖然測試使用的是最新的付費受版權(quán)保護材料,但相關(guān)考題可能早已通過公共數(shù)據(jù)集中的改寫或變體內(nèi)容,滲透進了模型的訓練數(shù)據(jù)中。這意味著,模型可能僅僅是「背過」了答案,而非真正通過邏輯推理得出了結(jié)果。

特許金融分析師、高盛全球投資研究部數(shù)據(jù)戰(zhàn)略團隊負責人Ingrid Tierens博士,在AI通過CFA認證考試之際,撰文表示,AI還不能替代分析師。


她認為,AI通關(guān)CFA是意料之中的勝利,畢竟在金融領(lǐng)域之外的考試中,AI已經(jīng)拿下了頂級超級,比如奧數(shù)競賽等。

CFA考試正是AI最擅長的領(lǐng)域:面對界定清晰的知識體系、海量的同質(zhì)化訓練數(shù)據(jù),以及全球統(tǒng)一、歷久不變的標準化考試形式,AI理應(yīng)表現(xiàn)出色。


其次,正如馬克·吐溫那句名言:「歷史不會重演,但往往驚人地相似?!?/p>


AI的進步與金融業(yè)的歷史軌跡如出一轍,同時也提醒我們,這種進步往往不是線性的,而是爆發(fā)式的。從紙筆到計算器,再到電腦、Excel表格、Python編程,金融業(yè)一直在擁抱技術(shù)變革。

在「價值投資之父」Benjamin Graham身上,這一歷史視角得到了完美體現(xiàn)。


他還是CFA資格認證背后的核心推動者

早在1963年,當計算機剛剛踏入投資界之時,Graham就在《金融分析師期刊》(Financial Analysts Journal)上發(fā)表了題為《金融分析的未來》的文章,對行業(yè)前景樂觀至極。

AI已經(jīng)勢不可擋,關(guān)鍵在于如何「用好它」:在能創(chuàng)造價值的環(huán)節(jié),在合理的安全邊界(guardrails)內(nèi),充分發(fā)揮AI的威力,這將成為核心優(yōu)勢。把那些消在繁瑣分析上的時間省下來,花更多時間讓思考更具戰(zhàn)略高度、解決更復(fù)雜的問題以及客戶溝通更有深度。

最后,想靠AI「上位」徹底取代投資專家?短期內(nèi)門兒都沒有。

想要拿下入行的敲門磚,你得證明自己能在瞬息萬變的市場中靈活運用知識,能進行批判性思考,能創(chuàng)新——這可比死記硬背通過CFA。

卓越的投資業(yè)績,往往來自于捕捉那些被市場忽視的「離群點」和隱秘信息,遠非考試可覆蓋。

最后,重溫一下Benjamin Graham在1963年那篇文章中的結(jié)語,至今讀來依然振聾發(fā)聵:

無論世事如何變遷,有一點我深信不疑:未來的金融分析之路,將和過去一樣,通往成功的路徑絕不止一條。

參考資料:

https://the-decoder.com/reasoning-models-now-ace-all-three-cfa-exam-levels/

https://blogs.cfainstitute.org/investor/2025/10/20/ai-can-pass-the-cfa-exam-but-it-cannot-replace-analysts/

https://www.cnbc.com/2025/09/24/ai-cfa-exam-pass-minutes-study.html

秒追ASI

?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《三國演義》常被叫錯的12個名字,沒點文化張口就鬧笑話,你讀對了嗎?

《三國演義》常被叫錯的12個名字,沒點文化張口就鬧笑話,你讀對了嗎?

詩詞世界
2025-12-06 06:04:09
“堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

“堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

文史微鑒
2025-12-24 23:47:43
2025-12-26 13:27:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14186文章數(shù) 66397關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

實探北京某寶馬汽車門店:試駕已停 店內(nèi)僅留2名銷售

頭條要聞

實探北京某寶馬汽車門店:試駕已停 店內(nèi)僅留2名銷售

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天深夜道歉,只字未提五月天阿信

財經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來!智界在上海西岸準備了年末潮流盛典

態(tài)度原創(chuàng)

數(shù)碼
教育
親子
家居
公開課

數(shù)碼要聞

Intel下代酷睿Ultra 7 270K Plus跑分曝光:與旗艦285K平起平坐!

教育要聞

北航保研率怎么樣?這一專業(yè)竟然成最大黑馬,普通專業(yè)排名第一!

親子要聞

男孩多大必須分床睡?不是3歲、不是5歲,最好別超這個年齡

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版