約翰斯·霍普金斯大學(xué)讓大模型挑戰(zhàn)真實(shí)法律推理，結(jié)果令人警醒

2026-04-16 20:19:54　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由約翰斯·霍普金斯大學(xué)與巴黎綜合理工學(xué)院電信巴黎分校聯(lián)合開展的研究，以預(yù)印本形式于2026年4月6日發(fā)布在arXiv平臺，論文編號為arXiv:2604.04443。研究團(tuán)隊(duì)圍繞大語言模型在真實(shí)法律與政策場景中的推理能力展開了系統(tǒng)性評估，其核心成果是一個(gè)名為DeonticBench的新型測試基準(zhǔn)。

每當(dāng)我們談到"人工智能能不能替代律師或稅務(wù)顧問"，支持者往往會舉出AI在律師資格考試或標(biāo)準(zhǔn)化測試中的亮眼表現(xiàn)。但考試題目和真實(shí)法律工作之間，存在一道深深的鴻溝?，F(xiàn)實(shí)中的法律推理不是選擇正確答案那么簡單，而更像是在一座迷宮里按圖索驥：你手里拿著一份密密麻麻的法規(guī)文件，面對一個(gè)具體的人的具體處境，必須一條條核對規(guī)定、排除例外、計(jì)算數(shù)字，最終給出一個(gè)有據(jù)可查、經(jīng)得起追問的結(jié)論。

研究團(tuán)隊(duì)正是抓住了這個(gè)痛點(diǎn)。他們構(gòu)建了一個(gè)包含6232個(gè)真實(shí)任務(wù)的測試集，橫跨美國聯(lián)邦稅法、航空行李政策、美國移民行政裁決以及各州住房法律四個(gè)領(lǐng)域。這四個(gè)領(lǐng)域有一個(gè)共同特點(diǎn)：它們都充滿了"如果……那么……除非……"式的條件嵌套，稍有疏漏就可能得出錯(cuò)誤結(jié)論，而錯(cuò)誤的后果往往不是無關(guān)緊要的小事，而是真金白銀的罰款、被拒之門外的簽證申請或者被驅(qū)逐的租戶。

更關(guān)鍵的是，研究團(tuán)隊(duì)不僅僅測試AI能否給出正確答案，他們還探索了一種更嚴(yán)格的"可追溯"解題方式：讓AI把法規(guī)和案件事實(shí)翻譯成可以在電腦上實(shí)際運(yùn)行的Prolog邏輯程序，由程序給出最終答案。這就好比不僅要求學(xué)生寫出答案，還要展示完整的運(yùn)算過程，并且這個(gè)過程必須嚴(yán)格正確、一步都不能錯(cuò)。測試結(jié)果對當(dāng)前最強(qiáng)大的AI模型而言相當(dāng)嚴(yán)峻，最好的模型在最難的子集上也只答對了不到一半的題目，而且增加"思考時(shí)間"也并不總能帶來改善。

一、法律推理為什么難？從"背法條"到"懂法律"的天壤之別

理解這項(xiàng)研究的核心，得先明白一件事：知道一條法律規(guī)定的文字，和能夠把這條規(guī)定正確地應(yīng)用到千變?nèi)f化的具體情況中，是兩回事。

以聯(lián)邦稅法為例。法律條文規(guī)定，已婚納稅人如果符合"幸存配偶"身份，可以適用某個(gè)稅率檔次。但判斷某人是否是"幸存配偶"，需要確認(rèn)其配偶去世的年份、該納稅人是否再婚、家里是否有符合條件的受撫養(yǎng)人、房子是否由該納稅人維持……這些條件每一個(gè)都有精確的定義，而且可能相互影響。一個(gè)真實(shí)案例里，還會夾雜著雇傭農(nóng)業(yè)工人的情況，這又觸發(fā)了聯(lián)邦失業(yè)保險(xiǎn)稅的計(jì)算。要把所有這些因素都正確地識別出來，準(zhǔn)確地應(yīng)用到具體的人身上，并最終算出一個(gè)精確到美元的稅額，需要的不僅僅是"知道"這些規(guī)則，而是系統(tǒng)、嚴(yán)密地"運(yùn)用"它們。

研究團(tuán)隊(duì)把這種推理能力稱為"義務(wù)推理"（deontic reasoning），意思是推理關(guān)于"義務(wù)、許可和禁止"的問題。日常語言里，"你必須申報(bào)所有收入""你可以申請此類豁免""你不得在未申請?jiān)S可的情況下驅(qū)逐租客"這類表述，正是義務(wù)推理的對象?，F(xiàn)有的AI測試大多聚焦于數(shù)學(xué)題或百科知識，而DeonticBench專門針對這種在真實(shí)高風(fēng)險(xiǎn)場景下、依據(jù)明確規(guī)則進(jìn)行的推理，是目前這一方向上規(guī)模最大的公開基準(zhǔn)。

相比已有的類似測試集，DeonticBench有幾個(gè)顯著的不同之處。其一，規(guī)模更大，6232個(gè)任務(wù)約是此前最接近的同類測試集RuleArena的七倍以上。其二，領(lǐng)域更真實(shí)，四個(gè)領(lǐng)域都是普通人可能真實(shí)遭遇的場景，而非人工合成的邏輯題。其三，每個(gè)任務(wù)都配有一套經(jīng)過人工驗(yàn)證的參考Prolog程序，這既可以作為AI學(xué)習(xí)的"標(biāo)準(zhǔn)答案"，也可以用來分析AI犯錯(cuò)的具體原因。

二、四個(gè)考場，四種為難

DeonticBench的四個(gè)領(lǐng)域各有側(cè)重，像是四種不同難度和類型的法律考場。

聯(lián)邦稅法部分沿用了一個(gè)叫SARA的已有數(shù)據(jù)集，并做了重要改進(jìn)。原始版本里，稅法規(guī)則已經(jīng)提前編寫成Prolog背景程序，AI只需要應(yīng)用；而在DeonticBench里，AI必須從頭根據(jù)自然語言寫成的法律條文生成完整的Prolog程序，這更接近真實(shí)的工作情景。這部分分為兩類題目：一類要求計(jì)算具體的稅額（SARA Numeric），另一類要求判斷某個(gè)關(guān)于稅法的陳述是"與法條相符"還是"與法條矛盾"（SARA Binary）。

航空行李政策部分來自另一個(gè)已有數(shù)據(jù)集RuleArena，考的是數(shù)值計(jì)算能力。給定一位乘客的艙位級別、行李的數(shù)量和尺寸重量，以及具體的航空公司政策，AI需要算出旅客總共應(yīng)該支付多少費(fèi)用。聽起來不復(fù)雜，但當(dāng)行李既超重又超尺寸，還要考慮商務(wù)艙免費(fèi)托運(yùn)額度和最優(yōu)化選擇時(shí)，正確答案的獲取需要嚴(yán)格按照規(guī)則一步步推算。

住房法律部分來自一個(gè)法律檢索領(lǐng)域的研究，包含了五千多個(gè)二元問答題，每題都基于具體州的住房法規(guī)。模型必須理解條文、識別相關(guān)規(guī)定，并給出是或否的判斷。這部分的挑戰(zhàn)在于：不同州的法律各不相同，而且題目往往需要從多條法規(guī)中綜合推斷，而不是直接照搬某一條文。

最值得關(guān)注的是全新構(gòu)建的移民行政裁決部分（USCIS-AAO）。研究團(tuán)隊(duì)從美國公民及移民服務(wù)局行政上訴辦公室公開發(fā)布的2022至2025年裁決文件中篩選出6483份有效案例，最終經(jīng)過分層抽樣和人工平衡，形成包含242個(gè)案例的數(shù)據(jù)集，其中"裁決接受"和"裁決駁回"各121個(gè)。每個(gè)案例由法律依據(jù)、分析論證和最終裁定三部分構(gòu)成，研究團(tuán)隊(duì)特別用AI輔助提取了不含法律分析結(jié)論的"純事實(shí)敘述"，確保AI在解題時(shí)無法從案例文本中直接"偷看"答案。這個(gè)新數(shù)據(jù)集要求模型綜合運(yùn)用多重法律標(biāo)準(zhǔn)，判斷一次移民申請上訴應(yīng)當(dāng)被接受還是駁回。

三、Prolog這把"驗(yàn)證之尺"是什么

在深入理解測試結(jié)果之前，有必要介紹一下Prolog這種工具，因?yàn)樗谶@項(xiàng)研究中扮演了關(guān)鍵角色。

Prolog是一種邏輯編程語言，誕生于1970年代。與Python或Java那種按步驟告訴計(jì)算機(jī)"先做這個(gè)再做那個(gè)"的語言不同，Prolog的工作方式更像是數(shù)學(xué)推導(dǎo)：你告訴程序一些事實(shí)和規(guī)則，然后提出一個(gè)問題，程序會自動推導(dǎo)出答案。舉個(gè)例子，你告訴程序"所有哺乳動物都是溫血?jiǎng)游?，"狗是哺乳動物"，然后問"狗是溫血?jiǎng)游飭?，程序會自動回答"是"。

把這個(gè)邏輯擴(kuò)展到法律推理，就是：把法律條文翻譯成"如果……那么……"形式的規(guī)則，把案件事實(shí)翻譯成具體的事實(shí)陳述，然后向程序提問，由程序嚴(yán)格按照規(guī)則推導(dǎo)出結(jié)論。這種方式有兩個(gè)顯著優(yōu)點(diǎn)：其一，答案是由邏輯推導(dǎo)得出的，每一步都有據(jù)可查；其二，只要規(guī)則和事實(shí)被正確翻譯，結(jié)論就一定正確。這就好比用計(jì)算器算賬，只要你輸入的數(shù)字和公式都對，結(jié)果就不會錯(cuò)。

DeonticBench的獨(dú)特之處在于為每一個(gè)任務(wù)配備了經(jīng)過人工驗(yàn)證的參考Prolog程序。研究團(tuán)隊(duì)用OpenAI的o3模型為每個(gè)任務(wù)生成Prolog代碼，由SWI-Prolog解釋器驗(yàn)證能否正確運(yùn)行并得到正確答案，對失敗的案例給一次重試機(jī)會，再失敗則丟棄。生成的代碼還要經(jīng)過人工驗(yàn)證，檢查以下幾點(diǎn)：規(guī)則覆蓋是否完整、案件事實(shí)是否準(zhǔn)確無泄露、代碼能否正常運(yùn)行，以及答案是否與標(biāo)準(zhǔn)答案一致。這套流程產(chǎn)出的參考程序，既是評測標(biāo)準(zhǔn)，也是供模型學(xué)習(xí)的訓(xùn)練素材。

正是因?yàn)橛辛诉@套可以實(shí)際運(yùn)行的程序，研究團(tuán)隊(duì)能夠?qū)I的錯(cuò)誤進(jìn)行精細(xì)的解剖分析，而不只是知道"答對了還是答錯(cuò)了"。

四、"最難的那批題"與評測方法

在整個(gè)DeonticBench中，最讓研究團(tuán)隊(duì)引以為豪的是一批精心篩選的"難題子集"（hard set）。這批題目的產(chǎn)生方式頗有意思：首先讓三個(gè)最強(qiáng)的前沿模型——OpenAI o3、GPT-5.2和Claude 4.5 Sonnet——各對每道題目進(jìn)行兩次嘗試，只要其中任何一次失敗，這道題就被標(biāo)記為"潛在難題"；然后經(jīng)過人工審核，去掉其中本身有歧義或表述不清的問題，保留真正有挑戰(zhàn)性的那些。最終，這批難題被分成兩部分：一部分放入評測集，另一部分放回訓(xùn)練集，確保評測時(shí)模型看到的都是沒練習(xí)過的題目。

之所以強(qiáng)調(diào)難題子集，是因?yàn)殡S著AI能力不斷提升，很多原本"有挑戰(zhàn)性"的基準(zhǔn)已經(jīng)接近飽和，成績差異越來越小，很難區(qū)分模型的真實(shí)水平。把精力集中在少量真正棘手的題目上，既省錢又更能說明問題。

評測中，每道題目會被模型回答多次（稅法和移民題各4次，行李和住房題各3次），通過對這些答案進(jìn)行統(tǒng)計(jì)分析來估計(jì)模型的穩(wěn)定性，并給出帶有置信區(qū)間的成績。評分標(biāo)準(zhǔn)方面，數(shù)值計(jì)算類題目（稅額和行李費(fèi)）允許1美元的誤差，二元判斷題（法條符合還是矛盾、申請接受還是駁回、是還是否）使用宏平均F1分?jǐn)?shù)，確保即使類別不均衡也能公平評估。

五、三種解題策略：直接回答、零樣本和少樣本

每個(gè)模型都以三種方式面對題目，分別對應(yīng)三種解題策略，猶如三種不同的備考方式。

最直接的方式是讓模型僅憑思維鏈推理給出最終答案，不生成任何Prolog程序。這就像讓考生直接給出答案，不需要寫出演算過程。這種方式最簡潔，但也最不透明，出錯(cuò)了也難以追究原因。

第二種方式是"零樣本Prolog生成"：給模型看法規(guī)文本和案件事實(shí)，讓它從頭生成一個(gè)完整的Prolog程序，然后實(shí)際運(yùn)行這個(gè)程序來得到答案，整個(gè)過程沒有任何示例可以參考。這像是給考生一份題目和一本規(guī)則手冊，然后要求他們用這本手冊寫出一套可以在計(jì)算機(jī)上運(yùn)行的推理機(jī)器。

第三種方式是"少樣本Prolog生成"：在上述基礎(chǔ)上，額外提供幾個(gè)已經(jīng)寫好的示例程序，供模型參考和模仿。這是其中門檻最高的一種，因?yàn)樯傻某绦虮仨毮軐?shí)際運(yùn)行、能調(diào)用正確的法律條款，并且輸出正確的結(jié)論。

六、成績單：最強(qiáng)大模型也只答對不到一半

研究團(tuán)隊(duì)一共測試了八個(gè)通用大語言模型，包括GPT-4.1、GPT-5.1、GPT-5.2、O3、Claude 4.5 Sonnet、Gemini 2.5 Flash、Kimi K2 Instruct以及Qwen3-235B，另外還有三個(gè)專門的代碼生成模型。測試結(jié)果在難題子集上頗為慘淡。

以最直觀的數(shù)值來看：在稅法數(shù)值計(jì)算（SARA Numeric）這道"算算Alice今年要交多少稅"的題目上，o3在零樣本Prolog生成策略下取得了44.4%的準(zhǔn)確率，這是所有模型和所有策略中的最高分；而GPT-5.1在零樣本策略下也達(dá)到了44%。在住房法律判斷題（Housing）上，GPT-4.1和GPT-5.1的少樣本策略分別達(dá)到了46.6和46.8的宏平均F1，同樣是各自的最高水平。換句話說，即便是當(dāng)今最強(qiáng)大的模型，在這些真實(shí)法律推理任務(wù)的難題部分，成功率也僅僅勉強(qiáng)接近一半。

還有一些現(xiàn)象令人深思。o3在行李費(fèi)計(jì)算題的少樣本策略下表現(xiàn)驚人，達(dá)到了90.8%的準(zhǔn)確率，但在稅法數(shù)值計(jì)算的同樣策略下只有15.2%。這說明模型的能力是高度任務(wù)特定的，擅長處理一種結(jié)構(gòu)的規(guī)則計(jì)算，不代表在另一種同樣基于規(guī)則的任務(wù)上也會表現(xiàn)良好。

更有趣的是不同策略之間的巨大差距。以Qwen3-235B為例，在稅法數(shù)值計(jì)算上，少樣本策略只有0.7%，幾乎完全失效；零樣本策略稍好一點(diǎn)，也只有8.7%；但切換到直接回答策略（不生成Prolog），成績跳升至32.1%。類似的情況在Kimi K2上也出現(xiàn)了：在稅法二元判斷題上，直接回答策略取得了68.4的F1，是該模型該領(lǐng)域的最高水平。這說明不同模型對不同提示方式有截然不同的敏感度，沒有一種策略能在所有模型和所有領(lǐng)域上都取得最好的效果。

開源模型與前沿閉源模型之間的差距也相當(dāng)明顯。開源模型在少樣本和零樣本Prolog生成策略上普遍表現(xiàn)較差，而且對提示方式更為敏感，成績波動更大。在二元判斷題上，這種差距有所收窄，直接回答策略能讓開源模型取得相對有競爭力的分?jǐn)?shù)，但在需要精確計(jì)算的數(shù)值題上，開源模型依然明顯落后。

還有一個(gè)關(guān)于"更多思考"是否有幫助的專項(xiàng)測試值得一提。研究團(tuán)隊(duì)對o3、GPT-5.1、GPT-5.2等支持調(diào)節(jié)思考深度的模型，分別在低、中、高三個(gè)推理強(qiáng)度下測試了稅法數(shù)值計(jì)算題，結(jié)果發(fā)現(xiàn)增加推理強(qiáng)度并不能穩(wěn)定提升成績，有時(shí)甚至出現(xiàn)負(fù)面效果。這意味著，靠讓模型"想得更久"來解決這類問題，并非可靠的策略。

七、把錯(cuò)誤放到顯微鏡下：四種犯錯(cuò)方式

因?yàn)槊總€(gè)任務(wù)都有參考Prolog程序，研究團(tuán)隊(duì)得以對GPT-5.1、GPT-5.2和o3在難題上的失敗案例進(jìn)行逐一分析，將錯(cuò)誤歸入四個(gè)類別。

第一類錯(cuò)誤是"選錯(cuò)法條"：模型應(yīng)用了錯(cuò)誤的法律條款、錯(cuò)誤的子條款，或者在行李費(fèi)計(jì)算中查錯(cuò)了費(fèi)率表。這類錯(cuò)誤在住房法律題中占據(jù)壓倒性優(yōu)勢，少樣本策略下高達(dá)96.8%的失敗案例屬于這一類；零樣本策略下也有93.5%。在移民行政裁決題中，零樣本策略的失敗案例中有77.3%屬于選錯(cuò)法條。這說明，在需要從大量條文中識別最相關(guān)規(guī)定的任務(wù)上，模型的檢索和對應(yīng)能力是最大的瓶頸。

第二類錯(cuò)誤是"事實(shí)編碼失誤"：法條找對了，但案件中的具體信息沒有被正確提取和編碼。比如，婚姻狀況、撫養(yǎng)關(guān)系、行李類型等事實(shí)細(xì)節(jié)被錯(cuò)誤地表示。這類錯(cuò)誤在稅法任務(wù)中尤為突出，在稅法數(shù)值計(jì)算的零樣本策略下，52%的失敗案例屬于這一類。

第三類錯(cuò)誤是"數(shù)值計(jì)算錯(cuò)誤"：法條找對了，事實(shí)也提取正確了，但在具體的數(shù)學(xué)運(yùn)算上出了差錯(cuò)，比如超出限額的計(jì)算、行李數(shù)量最優(yōu)化選擇等。行李費(fèi)計(jì)算任務(wù)的少樣本策略下，100%的失敗案例都屬于這一類，零樣本策略下也有75%。這說明即便規(guī)則和事實(shí)都對了，精確的算術(shù)運(yùn)算對模型來說仍然是一道難關(guān)。

第四類錯(cuò)誤是"程序?qū)崿F(xiàn)缺陷"：Prolog代碼本身在語法或運(yùn)行時(shí)出現(xiàn)了低級錯(cuò)誤，與推理邏輯無關(guān)。這類錯(cuò)誤在移民行政裁決題的少樣本和零樣本策略下各占42.3%和22.7%，說明這個(gè)領(lǐng)域的任務(wù)對代碼生成質(zhì)量的要求也特別高。

由此可以得出一個(gè)重要判斷：不同領(lǐng)域的問題有不同的瓶頸，不存在一個(gè)能一次性解決所有問題的通用改進(jìn)方案。要提升住房法律題的成績，關(guān)鍵是改善規(guī)則檢索和匹配；要提升稅法題的成績，關(guān)鍵是改善信息提取；要提升行李費(fèi)計(jì)算題的成績，關(guān)鍵是改善數(shù)值計(jì)算的可靠性。

八、能通過訓(xùn)練彌補(bǔ)差距嗎？

研究團(tuán)隊(duì)還嘗試了通過訓(xùn)練來改善模型在這類任務(wù)上的表現(xiàn)，選擇的基礎(chǔ)模型是Qwen2.5-32B-Instruct，這是一個(gè)性能均衡的開源模型。訓(xùn)練方式包括三種：監(jiān)督微調(diào)（SFT）、直接偏好優(yōu)化（DPO）和一種改進(jìn)版的強(qiáng)化學(xué)習(xí)方法（Dr. GRPO）。

監(jiān)督微調(diào)的原理是讓模型反復(fù)看正確的Prolog程序，學(xué)習(xí)如何從法規(guī)文本生成正確的代碼。DPO則是在此基礎(chǔ)上，同時(shí)給模型看"好的答案"和"差的答案"，讓模型學(xué)會區(qū)分和偏向正確解法。Dr. GRPO是一種強(qiáng)化學(xué)習(xí)方法，通過讓模型生成多個(gè)答案，然后用實(shí)際運(yùn)行結(jié)果作為獎(jiǎng)勵(lì)信號來引導(dǎo)模型改進(jìn)：如果生成的程序能正確運(yùn)行并給出正確答案，給滿分獎(jiǎng)勵(lì)；如果代碼無法運(yùn)行但使用了正確的謂詞結(jié)構(gòu)，給一個(gè)小額部分獎(jiǎng)勵(lì)；其他情況得零分。

訓(xùn)練確實(shí)帶來了改進(jìn)，特別是在二元判斷類任務(wù)上。以移民行政裁決題為例，基礎(chǔ)模型在少樣本策略下只有10.3分，經(jīng)過SFT訓(xùn)練后提升到35分，再加上DPO后提升到45.7分。這說明訓(xùn)練對模型的分類判斷能力有明顯幫助。

然而，稅法數(shù)值計(jì)算題幾乎沒有從任何訓(xùn)練方式中受益，所有方法在所有策略下都維持在個(gè)位數(shù)水平。這個(gè)強(qiáng)烈的對比說明，精確的規(guī)則計(jì)算是一個(gè)比分類判斷困難得多的問題，當(dāng)前的訓(xùn)練方法還不能可靠地解決它。

強(qiáng)化學(xué)習(xí)方法雖然在某些任務(wù)上（如航空行李和稅法二元判斷）達(dá)到了最好成績，比如GRPO+DPO+SFT在行李費(fèi)計(jì)算上達(dá)到了60.4，在稅法二元判斷上達(dá)到了54.0，但這些提升并不穩(wěn)定，跨任務(wù)表現(xiàn)參差不齊。更值得注意的是，訓(xùn)練之后的模型對提示方式依然高度敏感：行李費(fèi)計(jì)算最好用少樣本策略，但移民行政裁決最好用直接回答策略，這種對提示方式的依賴性在訓(xùn)練前后并沒有得到根本改變。

九、專門代碼模型表現(xiàn)如何？

研究團(tuán)隊(duì)還額外測試了三個(gè)專門針對代碼生成優(yōu)化的模型：GPT-5.2-Codex、Qwen3-Coder-Next以及Qwen3-Coder-480B。

GPT-5.2-Codex的表現(xiàn)最為突出，在行李費(fèi)計(jì)算的少樣本策略下達(dá)到了95.5%的驚人準(zhǔn)確率，在稅法數(shù)值計(jì)算的零樣本策略下也達(dá)到了45.8%，是所有模型中的最高分之一。然而，它的表現(xiàn)同樣對提示方式極為敏感，而且置信區(qū)間很寬，說明結(jié)果的穩(wěn)定性存疑。

Qwen系列代碼模型則在許多設(shè)置下幾乎完全失效，給出零分或接近零分的成績，說明這些模型在生成符合法律推理需要的Prolog代碼方面存在嚴(yán)重困難。研究團(tuán)隊(duì)指出，盡管這些模型具備強(qiáng)大的通用代碼生成能力，但將這種能力遷移到高度特定的法律邏輯推理場景，仍然是一個(gè)尚未解決的難題，而且細(xì)微的提示變化就可能導(dǎo)致災(zāi)難性的失敗。

由此可見，DeonticBench揭示了一個(gè)值得警惕的現(xiàn)象：在標(biāo)準(zhǔn)編程任務(wù)上表現(xiàn)卓越的代碼模型，并不能自然地轉(zhuǎn)化為可靠的法律推理工具，兩者所需的能力有實(shí)質(zhì)性差異。

歸根結(jié)底，這項(xiàng)研究用扎實(shí)的數(shù)據(jù)回答了一個(gè)每個(gè)人都可能關(guān)心的問題：當(dāng)AI說它能"幫你處理法律事務(wù)"時(shí)，它真正擅長的是什么，又在哪里力不從心？答案是清醒而具體的：即便是當(dāng)今最強(qiáng)大的模型，在真實(shí)法律推理的困難情況下，正確率也只能勉強(qiáng)達(dá)到五成上下。錯(cuò)誤的來源是多樣的，有時(shí)是找錯(cuò)了法條，有時(shí)是提取事實(shí)出了偏差，有時(shí)是數(shù)學(xué)算錯(cuò)了，有時(shí)干脆就是代碼寫出了低級錯(cuò)誤。通過訓(xùn)練可以有所改善，但改善幅度有限，而且進(jìn)展不均衡。

DeonticBench的價(jià)值不在于給AI打了一個(gè)低分，而在于它清晰地揭示了"哪里出了問題"以及"問題各不相同"。這對于真正想要改進(jìn)AI在法律、稅務(wù)、政策領(lǐng)域應(yīng)用的研究者和開發(fā)者而言，提供了一張有用的路線圖。研究團(tuán)隊(duì)明確提醒，他們發(fā)布這個(gè)基準(zhǔn)純粹用于研究和評估，模型的輸出不應(yīng)被視為專業(yè)的法律、稅務(wù)或政策建議，任何真實(shí)的高風(fēng)險(xiǎn)決策都應(yīng)有人類專業(yè)人士的監(jiān)督。

對于普通讀者而言，這項(xiàng)研究傳遞了一個(gè)實(shí)際而有用的信息：AI在法律和政策問題上目前仍然不夠可靠，特別是當(dāng)問題比較復(fù)雜、需要多條規(guī)則交叉應(yīng)用時(shí)，出錯(cuò)的概率相當(dāng)高。用AI來快速了解法規(guī)的大致內(nèi)容，可能是有幫助的；但真正依賴AI給出一個(gè)精確的法律結(jié)論——比如你今年到底該交多少稅，或者你的簽證申請能否被接受——風(fēng)險(xiǎn)依然很高。

這項(xiàng)研究的完整內(nèi)容可通過arXiv平臺以論文編號arXiv:2604.04443查閱。

Q&A

Q1：DeonticBench測試的是AI的什么能力，和普通AI測試有什么不同？

A：DeonticBench專門測試AI在真實(shí)法律和政策場景下按照明確規(guī)則進(jìn)行推理的能力，覆蓋美國稅法、航空行李政策、移民行政裁決和住房法律四個(gè)領(lǐng)域。與大多數(shù)只考數(shù)學(xué)或百科知識的AI測試不同，DeonticBench要求模型在長篇法規(guī)文本和具體案件事實(shí)之間建立精確對應(yīng)，還可選擇把推理過程轉(zhuǎn)化為可實(shí)際運(yùn)行的Prolog邏輯程序，這讓出錯(cuò)的地方得以被精確追蹤和分析。

Q2：DeonticBench的測試結(jié)果中，當(dāng)前最強(qiáng)的AI大概能答對多少題？

A：在最難的題目子集上，成績最好的情況是OpenAI o3在稅法數(shù)值計(jì)算的零樣本Prolog策略下達(dá)到44.4%的準(zhǔn)確率，GPT-4.1和GPT-5.1在住房法律判斷題上達(dá)到約46.6到46.8的宏平均F1分?jǐn)?shù)。換句話說，即便是當(dāng)今最頂尖的模型，在這些真實(shí)法律推理難題上也只能答對不到一半，而且不同任務(wù)和提示方式之間的成績波動很大。

Q3：DeonticBench為什么要用Prolog語言來驗(yàn)證AI的推理過程？

A：Prolog是一種邏輯編程語言，可以把法律規(guī)則和案件事實(shí)翻譯成計(jì)算機(jī)可以嚴(yán)格推導(dǎo)的程序，由此得到的答案每一步都有明確依據(jù)。用Prolog驗(yàn)證有兩個(gè)好處：一是答案由邏輯推導(dǎo)產(chǎn)生，不是憑感覺猜測，可靠性高；二是當(dāng)程序運(yùn)行失敗或答案錯(cuò)誤時(shí)，研究者能精確定位是法條選錯(cuò)了、事實(shí)提取有偏差、數(shù)值計(jì)算出錯(cuò)了，還是純粹的代碼語法問題，從而找到有針對性的改進(jìn)方向，而不是只知道"答錯(cuò)了"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.