国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別簡單編程題,人大用ICPC難題重新定義LLM推理評估

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

隨著大語言模型(LLMs)在復(fù)雜編碼和推理任務(wù)中的飛速進步,傳統(tǒng)編程基準(zhǔn)已難以跟上其發(fā)展步伐?,F(xiàn)有測試要么難度不足,要么評估方式脫離實際場景,無法精準(zhǔn)衡量模型的 “慢思考” 和迭代優(yōu)化能力。近日,中國人民大學(xué)高瓴人工智能學(xué)院團隊推出 ICPC-Eval 基準(zhǔn)測試,以頂級編程競賽題目為核心,創(chuàng)新評估機制與本地測試工具,為 LLM 推理能力提供了更嚴苛、更真實的檢驗標(biāo)準(zhǔn)!已上線始智AI-wisemodel開源社區(qū),歡迎體驗。


代碼和數(shù)據(jù)集地址

https://wisemodel.cn/codes/shiyixu45/ICPC-Eval

https://wisemodel.cn/datasets/shiyixu45/ICPC-Eval

01.

行業(yè)痛點:

傳統(tǒng)編程基準(zhǔn)的三大短板

當(dāng)前 LLM 編程能力評估體系存在明顯局限,難以滿足高階推理測試需求:

1. 難度不足,區(qū)分度低:現(xiàn)有基準(zhǔn)多來自普通編程平臺,難度遠未達到頂級算法競賽水平。隨著LLM能力提升,這些測試已無法有效區(qū)分不同模型的推理上限;

2. 評估脫離實際:主流的 Pass@K 指標(biāo)僅關(guān)注多次采樣中是否有正確結(jié)果,忽略了人類解題時 “嘗試-反饋-優(yōu)化” 的迭代過程,也未體現(xiàn)模型的反思修正能力;

3. 測試條件受限:頂級競賽的私有測試用例不公開,多數(shù)基準(zhǔn)依賴在線判題平臺,本地評估困難,給研究者帶來諸多不便。

這些問題導(dǎo)致對 LLM 真實推理能力的評估存在偏差,難以支撐模型的精準(zhǔn)迭代。

02.

技術(shù)革新:

ICPC-Eval的三大核心突破

ICPC-Eval 以 “真實競賽場景 + 科學(xué)評估體系 + 便捷測試工具” 為核心,實現(xiàn)三大關(guān)鍵創(chuàng)新:

1. 頂級競賽題庫:118 道難題構(gòu)建嚴苛測試

團隊從 11 場近年國際大學(xué)生程序設(shè)計競賽(ICPC)中精心篩選 118 道題目,涵蓋世界總決賽、洲際總決賽及區(qū)域賽等不同級別賽事。題目覆蓋八大算法領(lǐng)域:

  • 基礎(chǔ)算法(貪心、分治等)34 道

  • 動態(tài)規(guī)劃 38 道

  • 數(shù)學(xué)(組合數(shù)學(xué)、數(shù)論等)48 道

  • 數(shù)據(jù)結(jié)構(gòu) 30 道

  • 圖論 26 道

  • 計算幾何 17 道

  • 搜索算法 35 道

  • 字符串算法 6 道


這些題目需將復(fù)雜數(shù)學(xué)邏輯轉(zhuǎn)化為高效代碼,部分還涉及特殊判題場景,難度與真實競賽完全一致,能充分暴露模型的推理短板。

2. 本地測試工具:LLM 生成魯棒測試用例

為解決私有測試用例難以獲取的問題,團隊創(chuàng)新提出基于 LLM 的測試用例生成方案:

  • 為每道題生成兩種 C++ 輸入生成器:隨機生成器(均勻覆蓋數(shù)據(jù)范圍)和邊界用例生成器(針對極端場景和特殊結(jié)構(gòu));

  • 利用已知正確的 AC 代碼生成對應(yīng)輸出,再通過錯誤代碼(WA、TLE、RE 等)驗證測試用例的有效性,確保零誤判;

  • 提供完整本地評估工具包,支持特殊判題(SPJ)場景,無需依賴在線平臺,實現(xiàn)高效精準(zhǔn)的離線評估。


3. 創(chuàng)新評估指標(biāo):Refine@K 衡量迭代推理能力

摒棄傳統(tǒng) Pass@K 指標(biāo),提出更貼合真實解題流程的 Refine@K 評估方法:

  • 允許模型在 K 次嘗試內(nèi)迭代優(yōu)化代碼,每次錯誤后會收到具體執(zhí)行反饋(編譯錯誤、答案錯誤、超時等);

  • 首次嘗試基于題目描述生成代碼,后續(xù)嘗試結(jié)合前序代碼和反饋進行修正,模擬人類 “反思改進” 的解題過程;

  • 該指標(biāo)能有效區(qū)分推理型模型與非推理型模型的核心差異,更真實反映模型的內(nèi)在推理能力。


03.

測試結(jié)果:

頂尖LLM落后人類,推理模型優(yōu)勢凸顯

團隊對15款主流 LLM 進行全面測試,揭示了諸多關(guān)鍵發(fā)現(xiàn):


各模型在ICPC-Eval不同算法領(lǐng)域及完整測試集上的Refine@5性能表現(xiàn)

  • 與人類差距明顯:即使表現(xiàn)最佳的 o3-mini High 模型,平均每場競賽僅能解決 28.8% 的題目,遠低于人類獎牌獲得者水平(如圖 1 所示),證明頂級編程競賽仍是 LLM 的巨大挑戰(zhàn);
  • 推理模型優(yōu)勢顯著:DeepSeek R1、Gemini 2.5 Pro Exp 等推理型模型在 Refine@K 指標(biāo)下表現(xiàn)突出,且隨著嘗試次數(shù)增加,性能持續(xù)提升。而非推理型模型即使增加嘗試次數(shù),優(yōu)化空間也十分有限;
  • 模型各有擅長領(lǐng)域:Gemini 2.5 Pro Exp 在基礎(chǔ)算法、數(shù)據(jù)結(jié)構(gòu)和數(shù)學(xué)領(lǐng)域表現(xiàn)均衡,o3-mini High 在計算幾何和字符串算法上優(yōu)勢明顯,而計算幾何和搜索算法是所有模型的共同難點;
  • Refine@K 更具區(qū)分度:相比 Pass@K,Refine@K 能更精準(zhǔn)捕捉模型的迭代優(yōu)化能力,同一基礎(chǔ)模型的推理版本與非推理版本在該指標(biāo)下差距顯著。

04.

適用場景:

賦能LLM推理能力的精準(zhǔn)迭代

ICPC-Eval 的設(shè)計特性使其在多個場景中具備重要應(yīng)用價值:

  • 模型研發(fā)評估:為 LLM 推理能力提供嚴苛的基準(zhǔn)測試,幫助研究者精準(zhǔn)定位模型短板,指導(dǎo)迭代優(yōu)化;
  • 推理機制研究:通過迭代優(yōu)化過程的數(shù)據(jù)分析,深入探索 LLM “慢思考” 和反思修正的內(nèi)在機制;
  • 競賽輔助訓(xùn)練:為編程競賽參與者提供 AI 輔助訓(xùn)練工具,生成多樣化測試用例,提升訓(xùn)練效率;
  • 技術(shù)選型參考:為需要高階推理能力的應(yīng)用場景(如復(fù)雜系統(tǒng)開發(fā)、算法設(shè)計)提供模型選型依據(jù)。

無論是學(xué)術(shù)研究還是工業(yè)應(yīng)用,ICPC-Eval 都能提供更真實、更全面的 LLM 推理能力評估支持。

ICPC-Eval 的推出,填補了頂級編程競賽級 LLM 評估基準(zhǔn)的空白。其真實的競賽題目、創(chuàng)新的評估指標(biāo)和便捷的本地測試工具,為 LLM 推理能力評估樹立了新標(biāo)桿。測試結(jié)果表明,盡管 LLM 在普通編程任務(wù)中表現(xiàn)出色,但在頂級算法競賽場景中仍有巨大提升空間。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給張雪峰潑臟水,曝兩人分手原因

180視角
2026-03-26 14:51:03
7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

7旬男子陪老伴住院,醫(yī)生看了他一眼發(fā)現(xiàn)其面部有猝死先兆,將其從死亡邊緣拉回

觀威海
2026-03-26 09:55:04
“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

“親媽霸占消防通道,兒子被火燒死”,這件事,簡直太魔幻了……

桌子的生活觀
2026-03-26 12:28:04
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

火山詩話
2026-03-25 09:18:58
宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

宋喆出獄后現(xiàn)狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

一盅情懷
2026-03-26 14:47:59
A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

A股:股民做好下車準(zhǔn)備,大資金明牌了,周五將迎更大的暴風(fēng)雨?

夜深愛雜談
2026-03-26 17:19:44
勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

Nee看
2026-03-26 14:15:21
春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

春天,這堿性菜再貴也要多吃,殺菌強免疫,補鈣補鉀兩不誤,好吃

阿龍美食記
2026-03-25 10:38:40
廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

廣東一男子買啤酒抽中電動車大獎,將中獎二維碼發(fā)網(wǎng)上詢問后被他人掃走核銷,網(wǎng)友:“這下又上了一課”

洪觀新聞
2026-03-26 10:56:49
烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

烏克蘭打出400:1恐怖戰(zhàn)績,俄羅斯列寧格勒港口基本被打癱瘓

史政先鋒
2026-03-26 16:17:12
高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

高速統(tǒng)一限速3月26日正式落地!五檔限速+清理非標(biāo)不會再亂扣分!

沙雕小琳琳
2026-03-26 09:41:30
湖北十堰大山深處,那個號稱“小香港”的萬人廠,如今人去樓空

湖北十堰大山深處,那個號稱“小香港”的萬人廠,如今人去樓空

GA環(huán)球建筑
2026-03-26 14:10:54
斯柯達將退出中國,大眾中國回應(yīng)

斯柯達將退出中國,大眾中國回應(yīng)

第一財經(jīng)資訊
2026-03-26 15:14:56
網(wǎng)友曝張雪峰搶救細節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

網(wǎng)友曝張雪峰搶救細節(jié):倒地30分鐘才被發(fā)現(xiàn),用ECMO全力搶救無效

半窗疏影
2026-03-26 20:17:36
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

伊朗女藥劑師拒絕撤離,空襲第10天在“精準(zhǔn)”打擊下被“誤殺”

網(wǎng)易新聞出品
2026-03-26 11:16:13
張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

張雪峰去世巨額遺產(chǎn)曝光,能給女兒留下多少錢?

藍鯨新聞
2026-03-26 17:41:20
俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

俄羅斯主帥:FIFA把我們禁賽了,就算加入亞足聯(lián)頂多踢亞洲杯

懂球帝
2026-03-26 16:30:07
香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

老吳教育課堂
2026-03-26 14:11:15
中共中央批準(zhǔn),開除劉慧黨籍

中共中央批準(zhǔn),開除劉慧黨籍

新京報
2026-03-26 17:14:17
2026-03-26 21:51:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

時尚
藝術(shù)
教育
數(shù)碼
親子

上新|| 她們說,找到了自己的人生裙子!

藝術(shù)要聞

哪一座橋不是風(fēng)景?

教育要聞

江蘇省教育廳公布全省中小學(xué)生競賽活動名單

數(shù)碼要聞

iQOO Z11x發(fā)布:LCD黨的護眼神機 1499元起

親子要聞

你好,我是饅頭,快開門!

無障礙瀏覽 進入關(guān)懷版