国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

約翰斯·霍普金斯大學(xué)讓大模型挑戰(zhàn)真實(shí)法律推理,結(jié)果令人警醒

0
分享至


這項(xiàng)由約翰斯·霍普金斯大學(xué)與巴黎綜合理工學(xué)院電信巴黎分校聯(lián)合開展的研究,以預(yù)印本形式于2026年4月6日發(fā)布在arXiv平臺,論文編號為arXiv:2604.04443。研究團(tuán)隊(duì)圍繞大語言模型在真實(shí)法律與政策場景中的推理能力展開了系統(tǒng)性評估,其核心成果是一個(gè)名為DeonticBench的新型測試基準(zhǔn)。

每當(dāng)我們談到"人工智能能不能替代律師或稅務(wù)顧問",支持者往往會舉出AI在律師資格考試或標(biāo)準(zhǔn)化測試中的亮眼表現(xiàn)。但考試題目和真實(shí)法律工作之間,存在一道深深的鴻溝?,F(xiàn)實(shí)中的法律推理不是選擇正確答案那么簡單,而更像是在一座迷宮里按圖索驥:你手里拿著一份密密麻麻的法規(guī)文件,面對一個(gè)具體的人的具體處境,必須一條條核對規(guī)定、排除例外、計(jì)算數(shù)字,最終給出一個(gè)有據(jù)可查、經(jīng)得起追問的結(jié)論。

研究團(tuán)隊(duì)正是抓住了這個(gè)痛點(diǎn)。他們構(gòu)建了一個(gè)包含6232個(gè)真實(shí)任務(wù)的測試集,橫跨美國聯(lián)邦稅法、航空行李政策、美國移民行政裁決以及各州住房法律四個(gè)領(lǐng)域。這四個(gè)領(lǐng)域有一個(gè)共同特點(diǎn):它們都充滿了"如果……那么……除非……"式的條件嵌套,稍有疏漏就可能得出錯(cuò)誤結(jié)論,而錯(cuò)誤的后果往往不是無關(guān)緊要的小事,而是真金白銀的罰款、被拒之門外的簽證申請或者被驅(qū)逐的租戶。

更關(guān)鍵的是,研究團(tuán)隊(duì)不僅僅測試AI能否給出正確答案,他們還探索了一種更嚴(yán)格的"可追溯"解題方式:讓AI把法規(guī)和案件事實(shí)翻譯成可以在電腦上實(shí)際運(yùn)行的Prolog邏輯程序,由程序給出最終答案。這就好比不僅要求學(xué)生寫出答案,還要展示完整的運(yùn)算過程,并且這個(gè)過程必須嚴(yán)格正確、一步都不能錯(cuò)。測試結(jié)果對當(dāng)前最強(qiáng)大的AI模型而言相當(dāng)嚴(yán)峻,最好的模型在最難的子集上也只答對了不到一半的題目,而且增加"思考時(shí)間"也并不總能帶來改善。

一、法律推理為什么難?從"背法條"到"懂法律"的天壤之別

理解這項(xiàng)研究的核心,得先明白一件事:知道一條法律規(guī)定的文字,和能夠把這條規(guī)定正確地應(yīng)用到千變?nèi)f化的具體情況中,是兩回事。

以聯(lián)邦稅法為例。法律條文規(guī)定,已婚納稅人如果符合"幸存配偶"身份,可以適用某個(gè)稅率檔次。但判斷某人是否是"幸存配偶",需要確認(rèn)其配偶去世的年份、該納稅人是否再婚、家里是否有符合條件的受撫養(yǎng)人、房子是否由該納稅人維持……這些條件每一個(gè)都有精確的定義,而且可能相互影響。一個(gè)真實(shí)案例里,還會夾雜著雇傭農(nóng)業(yè)工人的情況,這又觸發(fā)了聯(lián)邦失業(yè)保險(xiǎn)稅的計(jì)算。要把所有這些因素都正確地識別出來,準(zhǔn)確地應(yīng)用到具體的人身上,并最終算出一個(gè)精確到美元的稅額,需要的不僅僅是"知道"這些規(guī)則,而是系統(tǒng)、嚴(yán)密地"運(yùn)用"它們。

研究團(tuán)隊(duì)把這種推理能力稱為"義務(wù)推理"(deontic reasoning),意思是推理關(guān)于"義務(wù)、許可和禁止"的問題。日常語言里,"你必須申報(bào)所有收入""你可以申請此類豁免""你不得在未申請?jiān)S可的情況下驅(qū)逐租客"這類表述,正是義務(wù)推理的對象?,F(xiàn)有的AI測試大多聚焦于數(shù)學(xué)題或百科知識,而DeonticBench專門針對這種在真實(shí)高風(fēng)險(xiǎn)場景下、依據(jù)明確規(guī)則進(jìn)行的推理,是目前這一方向上規(guī)模最大的公開基準(zhǔn)。

相比已有的類似測試集,DeonticBench有幾個(gè)顯著的不同之處。其一,規(guī)模更大,6232個(gè)任務(wù)約是此前最接近的同類測試集RuleArena的七倍以上。其二,領(lǐng)域更真實(shí),四個(gè)領(lǐng)域都是普通人可能真實(shí)遭遇的場景,而非人工合成的邏輯題。其三,每個(gè)任務(wù)都配有一套經(jīng)過人工驗(yàn)證的參考Prolog程序,這既可以作為AI學(xué)習(xí)的"標(biāo)準(zhǔn)答案",也可以用來分析AI犯錯(cuò)的具體原因。

二、四個(gè)考場,四種為難

DeonticBench的四個(gè)領(lǐng)域各有側(cè)重,像是四種不同難度和類型的法律考場。

聯(lián)邦稅法部分沿用了一個(gè)叫SARA的已有數(shù)據(jù)集,并做了重要改進(jìn)。原始版本里,稅法規(guī)則已經(jīng)提前編寫成Prolog背景程序,AI只需要應(yīng)用;而在DeonticBench里,AI必須從頭根據(jù)自然語言寫成的法律條文生成完整的Prolog程序,這更接近真實(shí)的工作情景。這部分分為兩類題目:一類要求計(jì)算具體的稅額(SARA Numeric),另一類要求判斷某個(gè)關(guān)于稅法的陳述是"與法條相符"還是"與法條矛盾"(SARA Binary)。

航空行李政策部分來自另一個(gè)已有數(shù)據(jù)集RuleArena,考的是數(shù)值計(jì)算能力。給定一位乘客的艙位級別、行李的數(shù)量和尺寸重量,以及具體的航空公司政策,AI需要算出旅客總共應(yīng)該支付多少費(fèi)用。聽起來不復(fù)雜,但當(dāng)行李既超重又超尺寸,還要考慮商務(wù)艙免費(fèi)托運(yùn)額度和最優(yōu)化選擇時(shí),正確答案的獲取需要嚴(yán)格按照規(guī)則一步步推算。

住房法律部分來自一個(gè)法律檢索領(lǐng)域的研究,包含了五千多個(gè)二元問答題,每題都基于具體州的住房法規(guī)。模型必須理解條文、識別相關(guān)規(guī)定,并給出是或否的判斷。這部分的挑戰(zhàn)在于:不同州的法律各不相同,而且題目往往需要從多條法規(guī)中綜合推斷,而不是直接照搬某一條文。

最值得關(guān)注的是全新構(gòu)建的移民行政裁決部分(USCIS-AAO)。研究團(tuán)隊(duì)從美國公民及移民服務(wù)局行政上訴辦公室公開發(fā)布的2022至2025年裁決文件中篩選出6483份有效案例,最終經(jīng)過分層抽樣和人工平衡,形成包含242個(gè)案例的數(shù)據(jù)集,其中"裁決接受"和"裁決駁回"各121個(gè)。每個(gè)案例由法律依據(jù)、分析論證和最終裁定三部分構(gòu)成,研究團(tuán)隊(duì)特別用AI輔助提取了不含法律分析結(jié)論的"純事實(shí)敘述",確保AI在解題時(shí)無法從案例文本中直接"偷看"答案。這個(gè)新數(shù)據(jù)集要求模型綜合運(yùn)用多重法律標(biāo)準(zhǔn),判斷一次移民申請上訴應(yīng)當(dāng)被接受還是駁回。

三、Prolog這把"驗(yàn)證之尺"是什么

在深入理解測試結(jié)果之前,有必要介紹一下Prolog這種工具,因?yàn)樗谶@項(xiàng)研究中扮演了關(guān)鍵角色。

Prolog是一種邏輯編程語言,誕生于1970年代。與Python或Java那種按步驟告訴計(jì)算機(jī)"先做這個(gè)再做那個(gè)"的語言不同,Prolog的工作方式更像是數(shù)學(xué)推導(dǎo):你告訴程序一些事實(shí)和規(guī)則,然后提出一個(gè)問題,程序會自動推導(dǎo)出答案。舉個(gè)例子,你告訴程序"所有哺乳動物都是溫血?jiǎng)游?,"狗是哺乳動物",然后問"狗是溫血?jiǎng)游飭?,程序會自動回答"是"。

把這個(gè)邏輯擴(kuò)展到法律推理,就是:把法律條文翻譯成"如果……那么……"形式的規(guī)則,把案件事實(shí)翻譯成具體的事實(shí)陳述,然后向程序提問,由程序嚴(yán)格按照規(guī)則推導(dǎo)出結(jié)論。這種方式有兩個(gè)顯著優(yōu)點(diǎn):其一,答案是由邏輯推導(dǎo)得出的,每一步都有據(jù)可查;其二,只要規(guī)則和事實(shí)被正確翻譯,結(jié)論就一定正確。這就好比用計(jì)算器算賬,只要你輸入的數(shù)字和公式都對,結(jié)果就不會錯(cuò)。

DeonticBench的獨(dú)特之處在于為每一個(gè)任務(wù)配備了經(jīng)過人工驗(yàn)證的參考Prolog程序。研究團(tuán)隊(duì)用OpenAI的o3模型為每個(gè)任務(wù)生成Prolog代碼,由SWI-Prolog解釋器驗(yàn)證能否正確運(yùn)行并得到正確答案,對失敗的案例給一次重試機(jī)會,再失敗則丟棄。生成的代碼還要經(jīng)過人工驗(yàn)證,檢查以下幾點(diǎn):規(guī)則覆蓋是否完整、案件事實(shí)是否準(zhǔn)確無泄露、代碼能否正常運(yùn)行,以及答案是否與標(biāo)準(zhǔn)答案一致。這套流程產(chǎn)出的參考程序,既是評測標(biāo)準(zhǔn),也是供模型學(xué)習(xí)的訓(xùn)練素材。

正是因?yàn)橛辛诉@套可以實(shí)際運(yùn)行的程序,研究團(tuán)隊(duì)能夠?qū)I的錯(cuò)誤進(jìn)行精細(xì)的解剖分析,而不只是知道"答對了還是答錯(cuò)了"。

四、"最難的那批題"與評測方法

在整個(gè)DeonticBench中,最讓研究團(tuán)隊(duì)引以為豪的是一批精心篩選的"難題子集"(hard set)。這批題目的產(chǎn)生方式頗有意思:首先讓三個(gè)最強(qiáng)的前沿模型——OpenAI o3、GPT-5.2和Claude 4.5 Sonnet——各對每道題目進(jìn)行兩次嘗試,只要其中任何一次失敗,這道題就被標(biāo)記為"潛在難題";然后經(jīng)過人工審核,去掉其中本身有歧義或表述不清的問題,保留真正有挑戰(zhàn)性的那些。最終,這批難題被分成兩部分:一部分放入評測集,另一部分放回訓(xùn)練集,確保評測時(shí)模型看到的都是沒練習(xí)過的題目。

之所以強(qiáng)調(diào)難題子集,是因?yàn)殡S著AI能力不斷提升,很多原本"有挑戰(zhàn)性"的基準(zhǔn)已經(jīng)接近飽和,成績差異越來越小,很難區(qū)分模型的真實(shí)水平。把精力集中在少量真正棘手的題目上,既省錢又更能說明問題。

評測中,每道題目會被模型回答多次(稅法和移民題各4次,行李和住房題各3次),通過對這些答案進(jìn)行統(tǒng)計(jì)分析來估計(jì)模型的穩(wěn)定性,并給出帶有置信區(qū)間的成績。評分標(biāo)準(zhǔn)方面,數(shù)值計(jì)算類題目(稅額和行李費(fèi))允許1美元的誤差,二元判斷題(法條符合還是矛盾、申請接受還是駁回、是還是否)使用宏平均F1分?jǐn)?shù),確保即使類別不均衡也能公平評估。

五、三種解題策略:直接回答、零樣本和少樣本

每個(gè)模型都以三種方式面對題目,分別對應(yīng)三種解題策略,猶如三種不同的備考方式。

最直接的方式是讓模型僅憑思維鏈推理給出最終答案,不生成任何Prolog程序。這就像讓考生直接給出答案,不需要寫出演算過程。這種方式最簡潔,但也最不透明,出錯(cuò)了也難以追究原因。

第二種方式是"零樣本Prolog生成":給模型看法規(guī)文本和案件事實(shí),讓它從頭生成一個(gè)完整的Prolog程序,然后實(shí)際運(yùn)行這個(gè)程序來得到答案,整個(gè)過程沒有任何示例可以參考。這像是給考生一份題目和一本規(guī)則手冊,然后要求他們用這本手冊寫出一套可以在計(jì)算機(jī)上運(yùn)行的推理機(jī)器。

第三種方式是"少樣本Prolog生成":在上述基礎(chǔ)上,額外提供幾個(gè)已經(jīng)寫好的示例程序,供模型參考和模仿。這是其中門檻最高的一種,因?yàn)樯傻某绦虮仨毮軐?shí)際運(yùn)行、能調(diào)用正確的法律條款,并且輸出正確的結(jié)論。

六、成績單:最強(qiáng)大模型也只答對不到一半

研究團(tuán)隊(duì)一共測試了八個(gè)通用大語言模型,包括GPT-4.1、GPT-5.1、GPT-5.2、O3、Claude 4.5 Sonnet、Gemini 2.5 Flash、Kimi K2 Instruct以及Qwen3-235B,另外還有三個(gè)專門的代碼生成模型。測試結(jié)果在難題子集上頗為慘淡。

以最直觀的數(shù)值來看:在稅法數(shù)值計(jì)算(SARA Numeric)這道"算算Alice今年要交多少稅"的題目上,o3在零樣本Prolog生成策略下取得了44.4%的準(zhǔn)確率,這是所有模型和所有策略中的最高分;而GPT-5.1在零樣本策略下也達(dá)到了44%。在住房法律判斷題(Housing)上,GPT-4.1和GPT-5.1的少樣本策略分別達(dá)到了46.6和46.8的宏平均F1,同樣是各自的最高水平。換句話說,即便是當(dāng)今最強(qiáng)大的模型,在這些真實(shí)法律推理任務(wù)的難題部分,成功率也僅僅勉強(qiáng)接近一半。

還有一些現(xiàn)象令人深思。o3在行李費(fèi)計(jì)算題的少樣本策略下表現(xiàn)驚人,達(dá)到了90.8%的準(zhǔn)確率,但在稅法數(shù)值計(jì)算的同樣策略下只有15.2%。這說明模型的能力是高度任務(wù)特定的,擅長處理一種結(jié)構(gòu)的規(guī)則計(jì)算,不代表在另一種同樣基于規(guī)則的任務(wù)上也會表現(xiàn)良好。

更有趣的是不同策略之間的巨大差距。以Qwen3-235B為例,在稅法數(shù)值計(jì)算上,少樣本策略只有0.7%,幾乎完全失效;零樣本策略稍好一點(diǎn),也只有8.7%;但切換到直接回答策略(不生成Prolog),成績跳升至32.1%。類似的情況在Kimi K2上也出現(xiàn)了:在稅法二元判斷題上,直接回答策略取得了68.4的F1,是該模型該領(lǐng)域的最高水平。這說明不同模型對不同提示方式有截然不同的敏感度,沒有一種策略能在所有模型和所有領(lǐng)域上都取得最好的效果。

開源模型與前沿閉源模型之間的差距也相當(dāng)明顯。開源模型在少樣本和零樣本Prolog生成策略上普遍表現(xiàn)較差,而且對提示方式更為敏感,成績波動更大。在二元判斷題上,這種差距有所收窄,直接回答策略能讓開源模型取得相對有競爭力的分?jǐn)?shù),但在需要精確計(jì)算的數(shù)值題上,開源模型依然明顯落后。

還有一個(gè)關(guān)于"更多思考"是否有幫助的專項(xiàng)測試值得一提。研究團(tuán)隊(duì)對o3、GPT-5.1、GPT-5.2等支持調(diào)節(jié)思考深度的模型,分別在低、中、高三個(gè)推理強(qiáng)度下測試了稅法數(shù)值計(jì)算題,結(jié)果發(fā)現(xiàn)增加推理強(qiáng)度并不能穩(wěn)定提升成績,有時(shí)甚至出現(xiàn)負(fù)面效果。這意味著,靠讓模型"想得更久"來解決這類問題,并非可靠的策略。

七、把錯(cuò)誤放到顯微鏡下:四種犯錯(cuò)方式

因?yàn)槊總€(gè)任務(wù)都有參考Prolog程序,研究團(tuán)隊(duì)得以對GPT-5.1、GPT-5.2和o3在難題上的失敗案例進(jìn)行逐一分析,將錯(cuò)誤歸入四個(gè)類別。

第一類錯(cuò)誤是"選錯(cuò)法條":模型應(yīng)用了錯(cuò)誤的法律條款、錯(cuò)誤的子條款,或者在行李費(fèi)計(jì)算中查錯(cuò)了費(fèi)率表。這類錯(cuò)誤在住房法律題中占據(jù)壓倒性優(yōu)勢,少樣本策略下高達(dá)96.8%的失敗案例屬于這一類;零樣本策略下也有93.5%。在移民行政裁決題中,零樣本策略的失敗案例中有77.3%屬于選錯(cuò)法條。這說明,在需要從大量條文中識別最相關(guān)規(guī)定的任務(wù)上,模型的檢索和對應(yīng)能力是最大的瓶頸。

第二類錯(cuò)誤是"事實(shí)編碼失誤":法條找對了,但案件中的具體信息沒有被正確提取和編碼。比如,婚姻狀況、撫養(yǎng)關(guān)系、行李類型等事實(shí)細(xì)節(jié)被錯(cuò)誤地表示。這類錯(cuò)誤在稅法任務(wù)中尤為突出,在稅法數(shù)值計(jì)算的零樣本策略下,52%的失敗案例屬于這一類。

第三類錯(cuò)誤是"數(shù)值計(jì)算錯(cuò)誤":法條找對了,事實(shí)也提取正確了,但在具體的數(shù)學(xué)運(yùn)算上出了差錯(cuò),比如超出限額的計(jì)算、行李數(shù)量最優(yōu)化選擇等。行李費(fèi)計(jì)算任務(wù)的少樣本策略下,100%的失敗案例都屬于這一類,零樣本策略下也有75%。這說明即便規(guī)則和事實(shí)都對了,精確的算術(shù)運(yùn)算對模型來說仍然是一道難關(guān)。

第四類錯(cuò)誤是"程序?qū)崿F(xiàn)缺陷":Prolog代碼本身在語法或運(yùn)行時(shí)出現(xiàn)了低級錯(cuò)誤,與推理邏輯無關(guān)。這類錯(cuò)誤在移民行政裁決題的少樣本和零樣本策略下各占42.3%和22.7%,說明這個(gè)領(lǐng)域的任務(wù)對代碼生成質(zhì)量的要求也特別高。

由此可以得出一個(gè)重要判斷:不同領(lǐng)域的問題有不同的瓶頸,不存在一個(gè)能一次性解決所有問題的通用改進(jìn)方案。要提升住房法律題的成績,關(guān)鍵是改善規(guī)則檢索和匹配;要提升稅法題的成績,關(guān)鍵是改善信息提取;要提升行李費(fèi)計(jì)算題的成績,關(guān)鍵是改善數(shù)值計(jì)算的可靠性。

八、能通過訓(xùn)練彌補(bǔ)差距嗎?

研究團(tuán)隊(duì)還嘗試了通過訓(xùn)練來改善模型在這類任務(wù)上的表現(xiàn),選擇的基礎(chǔ)模型是Qwen2.5-32B-Instruct,這是一個(gè)性能均衡的開源模型。訓(xùn)練方式包括三種:監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)和一種改進(jìn)版的強(qiáng)化學(xué)習(xí)方法(Dr. GRPO)。

監(jiān)督微調(diào)的原理是讓模型反復(fù)看正確的Prolog程序,學(xué)習(xí)如何從法規(guī)文本生成正確的代碼。DPO則是在此基礎(chǔ)上,同時(shí)給模型看"好的答案"和"差的答案",讓模型學(xué)會區(qū)分和偏向正確解法。Dr. GRPO是一種強(qiáng)化學(xué)習(xí)方法,通過讓模型生成多個(gè)答案,然后用實(shí)際運(yùn)行結(jié)果作為獎(jiǎng)勵(lì)信號來引導(dǎo)模型改進(jìn):如果生成的程序能正確運(yùn)行并給出正確答案,給滿分獎(jiǎng)勵(lì);如果代碼無法運(yùn)行但使用了正確的謂詞結(jié)構(gòu),給一個(gè)小額部分獎(jiǎng)勵(lì);其他情況得零分。

訓(xùn)練確實(shí)帶來了改進(jìn),特別是在二元判斷類任務(wù)上。以移民行政裁決題為例,基礎(chǔ)模型在少樣本策略下只有10.3分,經(jīng)過SFT訓(xùn)練后提升到35分,再加上DPO后提升到45.7分。這說明訓(xùn)練對模型的分類判斷能力有明顯幫助。

然而,稅法數(shù)值計(jì)算題幾乎沒有從任何訓(xùn)練方式中受益,所有方法在所有策略下都維持在個(gè)位數(shù)水平。這個(gè)強(qiáng)烈的對比說明,精確的規(guī)則計(jì)算是一個(gè)比分類判斷困難得多的問題,當(dāng)前的訓(xùn)練方法還不能可靠地解決它。

強(qiáng)化學(xué)習(xí)方法雖然在某些任務(wù)上(如航空行李和稅法二元判斷)達(dá)到了最好成績,比如GRPO+DPO+SFT在行李費(fèi)計(jì)算上達(dá)到了60.4,在稅法二元判斷上達(dá)到了54.0,但這些提升并不穩(wěn)定,跨任務(wù)表現(xiàn)參差不齊。更值得注意的是,訓(xùn)練之后的模型對提示方式依然高度敏感:行李費(fèi)計(jì)算最好用少樣本策略,但移民行政裁決最好用直接回答策略,這種對提示方式的依賴性在訓(xùn)練前后并沒有得到根本改變。

九、專門代碼模型表現(xiàn)如何?

研究團(tuán)隊(duì)還額外測試了三個(gè)專門針對代碼生成優(yōu)化的模型:GPT-5.2-Codex、Qwen3-Coder-Next以及Qwen3-Coder-480B。

GPT-5.2-Codex的表現(xiàn)最為突出,在行李費(fèi)計(jì)算的少樣本策略下達(dá)到了95.5%的驚人準(zhǔn)確率,在稅法數(shù)值計(jì)算的零樣本策略下也達(dá)到了45.8%,是所有模型中的最高分之一。然而,它的表現(xiàn)同樣對提示方式極為敏感,而且置信區(qū)間很寬,說明結(jié)果的穩(wěn)定性存疑。

Qwen系列代碼模型則在許多設(shè)置下幾乎完全失效,給出零分或接近零分的成績,說明這些模型在生成符合法律推理需要的Prolog代碼方面存在嚴(yán)重困難。研究團(tuán)隊(duì)指出,盡管這些模型具備強(qiáng)大的通用代碼生成能力,但將這種能力遷移到高度特定的法律邏輯推理場景,仍然是一個(gè)尚未解決的難題,而且細(xì)微的提示變化就可能導(dǎo)致災(zāi)難性的失敗。

由此可見,DeonticBench揭示了一個(gè)值得警惕的現(xiàn)象:在標(biāo)準(zhǔn)編程任務(wù)上表現(xiàn)卓越的代碼模型,并不能自然地轉(zhuǎn)化為可靠的法律推理工具,兩者所需的能力有實(shí)質(zhì)性差異。

歸根結(jié)底,這項(xiàng)研究用扎實(shí)的數(shù)據(jù)回答了一個(gè)每個(gè)人都可能關(guān)心的問題:當(dāng)AI說它能"幫你處理法律事務(wù)"時(shí),它真正擅長的是什么,又在哪里力不從心?答案是清醒而具體的:即便是當(dāng)今最強(qiáng)大的模型,在真實(shí)法律推理的困難情況下,正確率也只能勉強(qiáng)達(dá)到五成上下。錯(cuò)誤的來源是多樣的,有時(shí)是找錯(cuò)了法條,有時(shí)是提取事實(shí)出了偏差,有時(shí)是數(shù)學(xué)算錯(cuò)了,有時(shí)干脆就是代碼寫出了低級錯(cuò)誤。通過訓(xùn)練可以有所改善,但改善幅度有限,而且進(jìn)展不均衡。

DeonticBench的價(jià)值不在于給AI打了一個(gè)低分,而在于它清晰地揭示了"哪里出了問題"以及"問題各不相同"。這對于真正想要改進(jìn)AI在法律、稅務(wù)、政策領(lǐng)域應(yīng)用的研究者和開發(fā)者而言,提供了一張有用的路線圖。研究團(tuán)隊(duì)明確提醒,他們發(fā)布這個(gè)基準(zhǔn)純粹用于研究和評估,模型的輸出不應(yīng)被視為專業(yè)的法律、稅務(wù)或政策建議,任何真實(shí)的高風(fēng)險(xiǎn)決策都應(yīng)有人類專業(yè)人士的監(jiān)督。

對于普通讀者而言,這項(xiàng)研究傳遞了一個(gè)實(shí)際而有用的信息:AI在法律和政策問題上目前仍然不夠可靠,特別是當(dāng)問題比較復(fù)雜、需要多條規(guī)則交叉應(yīng)用時(shí),出錯(cuò)的概率相當(dāng)高。用AI來快速了解法規(guī)的大致內(nèi)容,可能是有幫助的;但真正依賴AI給出一個(gè)精確的法律結(jié)論——比如你今年到底該交多少稅,或者你的簽證申請能否被接受——風(fēng)險(xiǎn)依然很高。

這項(xiàng)研究的完整內(nèi)容可通過arXiv平臺以論文編號arXiv:2604.04443查閱。

Q&A

Q1:DeonticBench測試的是AI的什么能力,和普通AI測試有什么不同?

A:DeonticBench專門測試AI在真實(shí)法律和政策場景下按照明確規(guī)則進(jìn)行推理的能力,覆蓋美國稅法、航空行李政策、移民行政裁決和住房法律四個(gè)領(lǐng)域。與大多數(shù)只考數(shù)學(xué)或百科知識的AI測試不同,DeonticBench要求模型在長篇法規(guī)文本和具體案件事實(shí)之間建立精確對應(yīng),還可選擇把推理過程轉(zhuǎn)化為可實(shí)際運(yùn)行的Prolog邏輯程序,這讓出錯(cuò)的地方得以被精確追蹤和分析。

Q2:DeonticBench的測試結(jié)果中,當(dāng)前最強(qiáng)的AI大概能答對多少題?

A:在最難的題目子集上,成績最好的情況是OpenAI o3在稅法數(shù)值計(jì)算的零樣本Prolog策略下達(dá)到44.4%的準(zhǔn)確率,GPT-4.1和GPT-5.1在住房法律判斷題上達(dá)到約46.6到46.8的宏平均F1分?jǐn)?shù)。換句話說,即便是當(dāng)今最頂尖的模型,在這些真實(shí)法律推理難題上也只能答對不到一半,而且不同任務(wù)和提示方式之間的成績波動很大。

Q3:DeonticBench為什么要用Prolog語言來驗(yàn)證AI的推理過程?

A:Prolog是一種邏輯編程語言,可以把法律規(guī)則和案件事實(shí)翻譯成計(jì)算機(jī)可以嚴(yán)格推導(dǎo)的程序,由此得到的答案每一步都有明確依據(jù)。用Prolog驗(yàn)證有兩個(gè)好處:一是答案由邏輯推導(dǎo)產(chǎn)生,不是憑感覺猜測,可靠性高;二是當(dāng)程序運(yùn)行失敗或答案錯(cuò)誤時(shí),研究者能精確定位是法條選錯(cuò)了、事實(shí)提取有偏差、數(shù)值計(jì)算出錯(cuò)了,還是純粹的代碼語法問題,從而找到有針對性的改進(jìn)方向,而不是只知道"答錯(cuò)了"。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黑龍江省綏化市人大常委會原黨組書記李元學(xué)被雙開

黑龍江省綏化市人大常委會原黨組書記李元學(xué)被雙開

界面新聞
2026-04-22 11:00:00
中東局勢:4月22日下午最新消息

中東局勢:4月22日下午最新消息

第一校尉
2026-04-22 13:33:54
2026年5月,運(yùn)勢轉(zhuǎn)旺!遇事有人幫,過日子總能賺到錢的3大生肖

2026年5月,運(yùn)勢轉(zhuǎn)旺!遇事有人幫,過日子總能賺到錢的3大生肖

毅談生肖
2026-04-22 10:45:35
美國發(fā)現(xiàn)一個(gè)“秘密”:每次對華加征關(guān)稅,中國就去找非洲,為何

美國發(fā)現(xiàn)一個(gè)“秘密”:每次對華加征關(guān)稅,中國就去找非洲,為何

泠泠說史
2026-04-21 21:59:17
預(yù)測交易所最新數(shù)據(jù): 詹姆斯下賽季留在湖人或退役概率達(dá)50%

預(yù)測交易所最新數(shù)據(jù): 詹姆斯下賽季留在湖人或退役概率達(dá)50%

懂球帝
2026-04-22 15:56:11
后繼有人!戴琳后中超再出惡人,爆鏟克雷桑逃紅

后繼有人!戴琳后中超再出惡人,爆鏟克雷桑逃紅

海闊山遙YAO
2026-04-22 15:34:30
“竹聯(lián)幫”幫主叱咤臺灣,兒子15歲坐牢75年,花光家產(chǎn)也無法保釋

“竹聯(lián)幫”幫主叱咤臺灣,兒子15歲坐牢75年,花光家產(chǎn)也無法保釋

莫地方
2026-04-22 00:10:03
美伊第二輪會談將于周三上午舉行

美伊第二輪會談將于周三上午舉行

光輝與陰暗
2026-04-22 05:56:15
美媒揭開真相:所有人都知道打伊朗不靠譜,但沒人敢阻止特朗普

美媒揭開真相:所有人都知道打伊朗不靠譜,但沒人敢阻止特朗普

浪子阿邴聊體育
2026-04-21 14:16:03
徐帆回應(yīng)離婚5個(gè)月,馮小剛近況曝光,他的“小心思”再藏不住了

徐帆回應(yīng)離婚5個(gè)月,馮小剛近況曝光,他的“小心思”再藏不住了

天天熱點(diǎn)見聞
2026-04-19 08:13:15
鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計(jì)劃宣告失敗

鄭麗文成功了!國民黨3位元老出山,朱立倫的反撲計(jì)劃宣告失敗

米果說識
2026-04-21 16:58:00
伊朗證實(shí):小哈梅內(nèi)伊沒死、沒毀容、沒斷腿,不露面有一個(gè)原因

伊朗證實(shí):小哈梅內(nèi)伊沒死、沒毀容、沒斷腿,不露面有一個(gè)原因

阿龍聊軍事
2026-04-21 17:56:53
孫儷兒子畫個(gè)妝能演甄嬛了!等等五官完全復(fù)刻了媽媽,尤其是眼睛

孫儷兒子畫個(gè)妝能演甄嬛了!等等五官完全復(fù)刻了媽媽,尤其是眼睛

觀魚聽雨
2026-04-21 18:07:05
重磅:烏克蘭3天摧毀黑海艦隊(duì)5艘軍艦!再攻克里米亞大橋

重磅:烏克蘭3天摧毀黑海艦隊(duì)5艘軍艦!再攻克里米亞大橋

項(xiàng)鵬飛
2026-04-21 20:11:23
最高院:將公章交由他人,控制人使用該公章簽訂的合同是否有效?

最高院:將公章交由他人,控制人使用該公章簽訂的合同是否有效?

周軍律師聊案子
2026-04-22 09:11:07
山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

山西偷情女子已社死,丈夫扒出賬號,不止一次出軌,酒店也受牽連

樂天閑聊
2026-04-21 06:03:56
取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

取消午休,改成16點(diǎn)下班,你愿意嗎?網(wǎng)友吵翻!

深圳晚報(bào)
2026-04-21 22:55:30
43歲李宗偉談羽聯(lián)改革:若改用15分制,說不定我也會復(fù)出

43歲李宗偉談羽聯(lián)改革:若改用15分制,說不定我也會復(fù)出

懂球帝
2026-04-22 10:47:23
排隊(duì)2小時(shí),黃牛每杯100元!“都2026年了,買奶茶還要找代購?”

排隊(duì)2小時(shí),黃牛每杯100元!“都2026年了,買奶茶還要找代購?”

都市快報(bào)橙柿互動
2026-04-22 14:01:56
倒反天罡!女子實(shí)名道歉小三:丈夫出軌小學(xué)女老師,疑似被追責(zé)

倒反天罡!女子實(shí)名道歉小三:丈夫出軌小學(xué)女老師,疑似被追責(zé)

李晚書
2026-04-22 15:24:20
2026-04-22 16:35:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

教育要聞

華南理工大學(xué)2026年設(shè)計(jì)學(xué)類本科招生簡章

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

頭條要聞

媒體:愛奇藝AI藝人庫惹眾怒 CEO龔宇的解釋站不住腳

體育要聞

網(wǎng)易傳媒再度簽約法國隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長停火期限

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

時(shí)尚
游戲
本地
教育
房產(chǎn)

初夏穿赫本的白褲子,清新又高級!

《武林志》公布新版本更新前瞻:內(nèi)容完全免費(fèi)更新,全面優(yōu)化玩法體驗(yàn)

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

教育要聞

第8課-Sightseeing + taking photos 觀光旅游和拍照

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽兀?/h3>

無障礙瀏覽 進(jìn)入關(guān)懷版