国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌DeepMind GrandCode:實時編程競賽實現(xiàn)全人類擊敗AI系統(tǒng)突破

0
分享至


在2026年3月的三場Codeforces編程競賽中,一個名為GrandCode的人工智能系統(tǒng)創(chuàng)造了歷史。這個由DeepReinforce團隊開發(fā)的AI程序不僅在所有比賽中奪得第一名,還成為第一個在真實競賽環(huán)境中持續(xù)擊敗包括傳奇大師在內(nèi)的所有人類選手的人工智能系統(tǒng)。這項研究發(fā)表于2026年4月3日的arXiv預(yù)印本平臺,論文編號為arXiv:2604.02721v1。

要理解這項成就的意義,我們首先要認識編程競賽的特殊性質(zhì)。編程競賽就像是一場智力馬拉松,參賽者需要在極短時間內(nèi)解決復雜的算法問題,不僅要求代碼正確無誤,還必須高效運行。這種競賽一直被認為是人類智慧的最后堡壘之一,因為它需要創(chuàng)造性思維、邏輯推理和快速決策的完美結(jié)合。

在GrandCode之前,最強的AI系統(tǒng)也只能勉強進入前列。谷歌的AlphaCode在Codeforces平臺上的評分大約為1300,只能排在所有參賽者的前54%;改進版AlphaCode2提升到第85百分位;OpenAI的o3系統(tǒng)全球排名第175位;而最新的Gemini 3 Deep Think雖然達到第8名,但這個成績是在歷史問題上取得的,并非在真實競賽環(huán)境中。

GrandCode的突破在于它采用了一種全新的多智能體強化學習架構(gòu)。可以把這個系統(tǒng)想象成一個高度協(xié)作的專家團隊,每個成員都有自己的專長。這個團隊包括四個關(guān)鍵角色:主解題專家負責核心推理和代碼生成,就像團隊的首席工程師;假設(shè)生成專家負責提出中間猜想和結(jié)構(gòu)性洞察,像是團隊的理論分析師;總結(jié)專家負責壓縮冗長的推理過程,確保復雜問題仍然可以處理,類似團隊的信息整理員;測試用例生成模塊則構(gòu)建各種刁鉆的測試案例來驗證代碼,就像團隊的質(zhì)量檢查員。

這四個角色通過一種巧妙的機制相互配合。當遇到一個編程問題時,假設(shè)生成專家首先會分析問題的本質(zhì),提出一些可能的解決思路。比如,它可能會判斷"這是一個動態(tài)規(guī)劃問題"或者"輸入圖滿足某種特殊結(jié)構(gòu)"。這些假設(shè)會在小規(guī)模實例上得到驗證,只有經(jīng)過驗證的假設(shè)才會傳遞給主解題專家。

主解題專家接收到這些經(jīng)過驗證的線索后,開始進行詳細的推理和代碼編寫。當推理過程過于冗長時,總結(jié)專家會介入,將長篇分析壓縮成緊湊的要點,確保系統(tǒng)不會被信息過載拖累。最后,測試用例生成模塊會創(chuàng)建各種邊界條件和特殊情況的測試,對生成的代碼進行嚴格檢驗。

整個系統(tǒng)的訓練過程分為兩個主要階段。在離線訓練階段,研究團隊首先讓系統(tǒng)在大量編程問題上進行持續(xù)學習,就像讓一個學生刷題提高基礎(chǔ)能力。接著進行監(jiān)督微調(diào),使用高質(zhì)量的問題-思路-解答三元組來教會系統(tǒng)正確的解題模式。最后通過多組件強化學習,讓各個專家角色學會更好地協(xié)作,優(yōu)化整個系統(tǒng)的表現(xiàn)。

在線測試階段,也就是實際競賽時,GrandCode會根據(jù)問題難度采用不同策略。對于簡單問題,它直接生成解答;對于困難問題,它會啟動完整的多智能體協(xié)作流程,甚至在解題過程中持續(xù)優(yōu)化自己的策略。

為了解決多階段智能體訓練中的技術(shù)挑戰(zhàn),研究團隊開發(fā)了一種名為"Agentic GRPO"的新算法。傳統(tǒng)的強化學習算法在面對多輪交互和延遲獎勵時會遇到困難,就像一個老師試圖給一個團隊項目的每個步驟打分,但只有在項目完成后才能看到最終效果。Agentic GRPO通過即時獎勵和延遲修正的組合機制解決了這個問題。當某個中間步驟完成時,系統(tǒng)會立即獲得反饋進行學習;當整個任務(wù)完成后,系統(tǒng)還會回過頭來修正之前的評估,確保學習效果最優(yōu)。

測試用例生成是GrandCode的另一個創(chuàng)新點。在編程競賽中,真正的測試用例是隱藏的,選手只能看到幾個簡單示例。GrandCode開發(fā)了兩種生成對抗性測試用例的方法。第一種是差異驅(qū)動生成法:如果一個測試用例能夠暴露兩個不同解法之間的差異,那它很可能是一個有價值的邊界案例。系統(tǒng)會不斷生成這樣的測試,逐步建立起強大的測試用例庫。第二種是解法攻擊法:系統(tǒng)會直接分析候選解法和標準答案的區(qū)別,專門設(shè)計能夠暴露漏洞的測試用例。

在實際應(yīng)用中,GrandCode在三場Codeforces實時競賽中的表現(xiàn)令人印象深刻。2026年3月21日的Round 1087比賽中,GrandCode以用戶名averyjones1參賽,在51分鐘內(nèi)完成所有任務(wù),得分8334分;3月28日的Round 1088比賽中,它以yokeko身份參賽,用時1小時40分鐘,得分15008分;3月29日的Round 1089比賽中,使用Vortex1身份,用時56分鐘,得分9506分。值得注意的是,在所有三場比賽中,GrandCode都是第一個完成全部任務(wù)的參賽者。

這些成績的取得并非偶然。研究團隊對100個編程問題進行了詳細的基準測試,發(fā)現(xiàn)GrandCode在持續(xù)訓練、監(jiān)督微調(diào)和完整強化學習訓練后,整體接受率從基礎(chǔ)模型的64%提升到81%,在最困難的Level 5問題上的解決率從20%中的4題提升到20題中的13題。經(jīng)過測試時強化學習后,這些數(shù)字進一步提升到85%的整體接受率和20題中的15題。

GrandCode的成功還得益于一些精心設(shè)計的技術(shù)細節(jié)。系統(tǒng)使用了基于問題難度的動態(tài)路由機制,對簡單問題采用直接生成,對復雜問題啟用完整的多智能體協(xié)作。在處理超長推理序列時,系統(tǒng)采用了創(chuàng)新的上下文并行化技術(shù),特別針對混合架構(gòu)進行了優(yōu)化。這種架構(gòu)結(jié)合了線性注意力機制的效率和標準注意力機制的建模能力。

更重要的是,GrandCode在訓練過程中特別注重多模態(tài)問題的處理能力。許多編程競賽問題包含圖表或幾何圖形,純文本描述往往難以準確傳達這些信息。GrandCode直接處理這些視覺內(nèi)容,而不是依賴文本轉(zhuǎn)換,這大大提高了它對復雜問題的理解能力。

從技術(shù)實現(xiàn)角度來看,GrandCode的架構(gòu)設(shè)計充分考慮了實際部署的需求。主要的混合專家模型部署在專用的分布式GPU集群上,而較小的輔助模型則在獨立的GPU池中異步運行。這種設(shè)計既保證了主要計算流程的高效率,又避免了資源碎片化問題。代碼執(zhí)行、暴力求解檢查和測試生成則由獨立的CPU沙箱池處理,確保系統(tǒng)的穩(wěn)定性和安全性。

測試時強化學習是GrandCode的另一個重要特色。與傳統(tǒng)的離線訓練不同,測試時強化學習專門針對當前正在解決的特定問題進行優(yōu)化。系統(tǒng)不再追求所有問題的平均表現(xiàn),而是專注于在當前問題上找到最佳解法。這種方法通過排名基礎(chǔ)的松弛目標函數(shù)實現(xiàn),逐步將優(yōu)化重點從平均獎勵轉(zhuǎn)向最大獎勵,更符合編程競賽"一次通過"的特點。

在實際競賽中,GrandCode采用了平衡直接生成和測試時強化學習的策略。對于競賽初期的簡單問題,系統(tǒng)使用大批量并行直接生成快速獲得答案,因為早期提交能夠獲得更高分數(shù)。只有當直接生成無法解決問題時,系統(tǒng)才會啟動計算密集的測試時強化學習流程。

GrandCode的成功也體現(xiàn)在對編程競賽特殊規(guī)則的深度理解上。Codeforces平臺對AI生成內(nèi)容有嚴格政策,高排名賬戶面臨更嚴格審查。為了獲得最終分數(shù),研究團隊采用了謹慎的提交策略:等待人類參賽者接近完成任務(wù)后才提交完整版本。同時,系統(tǒng)還需要處理多次提交的罰分機制,這要求它在準確性和速度之間找到最佳平衡點。

在假設(shè)生成方面,GrandCode展現(xiàn)出了類似人類專家的直覺。當面對一個新問題時,系統(tǒng)會首先嘗試識別問題的本質(zhì)特征,比如判斷這是否是一個動態(tài)規(guī)劃問題,或者輸入圖是否具有特殊結(jié)構(gòu)。這些假設(shè)會在小規(guī)模實例上進行驗證,通過暴力算法檢查假設(shè)的正確性。只有通過驗證的假設(shè)才會被注入到主要解題流程中,為后續(xù)的代碼生成提供關(guān)鍵指導。

系統(tǒng)還集成了在線整數(shù)序列百科全書(OEIS)的查詢功能。對于某些數(shù)學性質(zhì)較強的問題,GrandCode會計算小規(guī)模輸入的輸出值,然后在OEIS中搜索匹配的數(shù)列模式。如果找到匹配項,相關(guān)的公式、模式或結(jié)構(gòu)提示會被納入后續(xù)的解題過程中。

總結(jié)專家模塊的設(shè)計特別值得關(guān)注。在處理復雜問題時,推理過程可能長達數(shù)萬個標記,這不僅增加計算成本,也使后續(xù)的強化學習訓練變得困難。總結(jié)專家采用漸進式訓練方法,首先學會對單個推理塊進行總結(jié),然后學會處理完整的推理鏈條。這種分階段訓練提供了比端到端訓練更密集的中間監(jiān)督信號,顯著提高了總結(jié)質(zhì)量。

在代碼獎勵設(shè)計上,GrandCode使用了三層評估體系。首先檢查代碼的可執(zhí)行性,無法編譯或運行的代碼直接得零分。其次檢查正確性,通過與參考輸出或暴力解法的比較來驗證。最后評估效率,通過與暴力算法的運行時間比較來衡量代碼的性能。這種多層次評估確保生成的代碼既正確又高效。

值得一提的是,GrandCode的訓練數(shù)據(jù)來源非常廣泛。除了傳統(tǒng)的編程競賽數(shù)據(jù)庫如TACO、LeetCode、USACO等,研究團隊還使用了IOI國際信息學奧林匹克的問題,并通過大語言模型生成了大量擴展訓練數(shù)據(jù)。為了讓系統(tǒng)適應(yīng)假設(shè)條件下的解題,20%的訓練樣例被轉(zhuǎn)換為假設(shè)驅(qū)動格式,其中假設(shè)內(nèi)容由假設(shè)生成專家提供。

在系統(tǒng)架構(gòu)的實現(xiàn)細節(jié)上,GrandCode采用了基于難度的動態(tài)批處理策略。由于推理長度與問題難度高度相關(guān),將不同難度的問題混合在同一批次中會導致嚴重的計算不平衡。系統(tǒng)不僅在單個批次內(nèi)按難度分組,還確保不同數(shù)據(jù)并行工作節(jié)點之間的批次具有相似的難度分布,從而實現(xiàn)更好的負載平衡。

專家路由的穩(wěn)定性也是一個重要考慮因素。為了避免強化學習訓練期間的路由不穩(wěn)定,GrandCode完全凍結(jié)路由器參數(shù),只更新專家的前饋參數(shù)。這保證了專家分配在整個強化學習過程中保持一致,避免了路由變化可能帶來的額外不穩(wěn)定性。

在多模態(tài)處理方面,GrandCode直接處理問題中包含的圖像和圖表,而不是將它們轉(zhuǎn)換為文本描述。研究團隊發(fā)現(xiàn),許多競賽問題中的圖像在視覺上非常復雜,難以用文字準確描述,而轉(zhuǎn)換過程往往會丟失推理所需的關(guān)鍵空間或結(jié)構(gòu)信息。直接的多模態(tài)處理顯著優(yōu)于純文本轉(zhuǎn)換方法。

從更廣闊的視角來看,GrandCode的成功標志著人工智能在代碼生成領(lǐng)域的一個重要里程碑。編程競賽長期被視為需要創(chuàng)造性思維、快速學習和復雜推理的智力挑戰(zhàn)。GrandCode證明了當智能體強化學習與強驗證和在線適應(yīng)相結(jié)合時,人工智能系統(tǒng)可以在實時環(huán)境中超越頂級人類程序員的表現(xiàn)。

這項成就的意義遠超編程競賽本身。GrandCode展示的多智能體協(xié)作、實時學習適應(yīng)和復雜問題分解能力,為未來的AI系統(tǒng)設(shè)計提供了寶貴的啟示。隨著這些技術(shù)的進一步發(fā)展和完善,我們可能會在更多需要高級認知能力的領(lǐng)域看到類似的突破。

當然,GrandCode的成功也帶來了一些思考。它的出現(xiàn)是否意味著編程教育需要重新定義目標?未來的程序員需要具備什么樣的技能才能與AI協(xié)作?這些問題值得整個技術(shù)社區(qū)深入探討。不過可以確定的是,GrandCode為我們展示了AI與人類智慧結(jié)合的新可能性,也為未來的技術(shù)發(fā)展指明了方向。

對于有興趣深入了解技術(shù)細節(jié)的讀者,可以通過論文編號arXiv:2604.02721v1在arXiv平臺查詢這項研究的完整論文,其中包含了更詳細的算法描述、實驗數(shù)據(jù)和技術(shù)實現(xiàn)細節(jié)。

Q&A

Q1:GrandCode是如何在編程競賽中擊敗人類選手的?

A:GrandCode采用了多智能體協(xié)作架構(gòu),包含四個專門角色:主解題專家負責核心推理和代碼生成,假設(shè)生成專家提出解題思路,總結(jié)專家壓縮復雜推理,測試用例生成模塊驗證代碼質(zhì)量。這些角色通過創(chuàng)新的Agentic GRPO算法協(xié)同工作,能夠在實時競賽中快速準確地解決復雜編程問題。

Q2:GrandCode相比之前的AI編程系統(tǒng)有什么突破性改進?

A:相比AlphaCode只能排在前54%、o3排名第175位的成績,GrandCode實現(xiàn)了質(zhì)的飛躍。它首創(chuàng)了多智能體強化學習架構(gòu),引入了測試時強化學習技術(shù),開發(fā)了對抗性測試用例生成方法,并且能夠直接處理多模態(tài)問題內(nèi)容,這些創(chuàng)新使它成為首個在實時競賽中持續(xù)擊敗所有人類選手的AI系統(tǒng)。

Q3:普通程序員需要擔心被GrandCode這樣的AI取代嗎?

A:目前不需要過度擔心。GrandCode雖然在特定的編程競賽環(huán)境中表現(xiàn)出色,但現(xiàn)實世界的軟件開發(fā)涉及需求理解、團隊協(xié)作、系統(tǒng)設(shè)計、用戶體驗等多個復雜層面。GrandCode更可能成為程序員的強大助手,幫助處理算法實現(xiàn)和代碼優(yōu)化等任務(wù),而程序員則可以專注于更高層次的創(chuàng)造性和戰(zhàn)略性工作。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
CBA最新消息!杜鋒面臨下課,孫銘徽正式復出

CBA最新消息!杜鋒面臨下課,孫銘徽正式復出

體壇瞎白話
2026-04-22 07:32:53
四川深山的“萬人空城”:曾是國家最高機密,如今大門敞開任你逛

四川深山的“萬人空城”:曾是國家最高機密,如今大門敞開任你逛

小虎新車推薦員
2026-04-22 15:12:29
職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

職業(yè)下限!火箭0-2湖人:讓我徹底看清這5名球員!

運籌帷幄的籃球
2026-04-22 14:25:28
今日最慘板塊影視,連跌2月后再遭重挫,其中光線傳媒閃崩大跌!

今日最慘板塊影視,連跌2月后再遭重挫,其中光線傳媒閃崩大跌!

丁丁鯉史紀
2026-04-22 17:31:46
凌晨安理會爆發(fā)爭端,中方有仇當場就報了,3句話讓美國下不來臺

凌晨安理會爆發(fā)爭端,中方有仇當場就報了,3句話讓美國下不來臺

諦聽骨語本尊
2026-04-22 17:11:48
于謙被曝成老賴,坐擁北京 60 畝馬場,巨額債務(wù)真相藏不住了

于謙被曝成老賴,坐擁北京 60 畝馬場,巨額債務(wù)真相藏不住了

橙星文娛
2026-04-06 13:09:46
真相找到了!3月我國低價給日本出口天然氣,其實是一場中轉(zhuǎn)誤會

真相找到了!3月我國低價給日本出口天然氣,其實是一場中轉(zhuǎn)誤會

南生今世說
2026-04-21 18:59:12
中東局勢:4月22日下午最新消息

中東局勢:4月22日下午最新消息

第一校尉
2026-04-22 13:33:54
倒計時1天,特朗普遇上硬茬!伊朗亮出全球通緝犯,隨時準備反擊

倒計時1天,特朗普遇上硬茬!伊朗亮出全球通緝犯,隨時準備反擊

書紀文譚
2026-04-22 17:04:21
本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

本想秀恩愛,沒想到成笑柄,自毀體面的郭富城,證實熊黛林沒說謊

阿郎娛樂
2026-04-22 03:43:18
原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

原來她早已去世,從患病到離世僅16天,去世原因讓人心痛!

青梅侃史啊
2026-04-22 17:10:45
王近山不經(jīng)請示干掉日本戰(zhàn)地觀戰(zhàn)團,毛主席:早就聽說有個王瘋子

王近山不經(jīng)請示干掉日本戰(zhàn)地觀戰(zhàn)團,毛主席:早就聽說有個王瘋子

鶴羽說個事
2026-04-20 22:56:36
36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

36萬億美債還不起,特朗普決定“弄死”大債主,為此不惜自曝家丑

杰絲聊古今
2026-04-19 20:21:05
原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

原來他是陳麗華前夫,自己姓王仨孩子卻都姓趙,到底隨了誰的姓?

白面書誏
2026-04-20 15:26:37
錢天一:嫁給王昶靠婚姻逆天改命,網(wǎng)傳閨蜜因羨慕最終與男友分手

錢天一:嫁給王昶靠婚姻逆天改命,網(wǎng)傳閨蜜因羨慕最終與男友分手

觀察鑒娛
2026-04-22 11:34:40
你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

你拋美債,我拋中債!外資紛紛減持中國債,大量資金流向美國?

掉了顆大白兔糖
2026-04-22 11:57:00
3萬股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

3萬股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

丁丁鯉史紀
2026-04-22 09:56:54
中國16艘055大驅(qū)有多厲害?要是一起出動,能對抗幾個航母編隊呢

中國16艘055大驅(qū)有多厲害?要是一起出動,能對抗幾個航母編隊呢

荷蘭豆愛健康
2026-04-21 01:03:26
“牛腩”不讀niú nán,正確讀音是什么?其實大家都沒注意到!

“牛腩”不讀niú nán,正確讀音是什么?其實大家都沒注意到!

偉偉說字
2026-04-21 23:43:55
178美元的黃仁勛卡通形象毛衣走紅

178美元的黃仁勛卡通形象毛衣走紅

i黑馬
2026-04-21 18:50:51
2026-04-22 18:11:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
數(shù)碼
本地
公開課

房產(chǎn)要聞

狂搶284輪!中海??谠倌弥匕跽兀?/h3>

藝術(shù)要聞

無花不風景

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

本地新聞

春色滿城關(guān)不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版