谷歌DeepMind GrandCode:實時編程競賽實現(xiàn)全人類擊敗AI系統(tǒng)突破

2026-04-14 20:21:51　來源: 科技行者

天津舉報

分享至

在2026年3月的三場Codeforces編程競賽中，一個名為GrandCode的人工智能系統(tǒng)創(chuàng)造了歷史。這個由DeepReinforce團隊開發(fā)的AI程序不僅在所有比賽中奪得第一名，還成為第一個在真實競賽環(huán)境中持續(xù)擊敗包括傳奇大師在內(nèi)的所有人類選手的人工智能系統(tǒng)。這項研究發(fā)表于2026年4月3日的arXiv預(yù)印本平臺，論文編號為arXiv:2604.02721v1。

要理解這項成就的意義，我們首先要認識編程競賽的特殊性質(zhì)。編程競賽就像是一場智力馬拉松，參賽者需要在極短時間內(nèi)解決復雜的算法問題，不僅要求代碼正確無誤，還必須高效運行。這種競賽一直被認為是人類智慧的最后堡壘之一，因為它需要創(chuàng)造性思維、邏輯推理和快速決策的完美結(jié)合。

在GrandCode之前，最強的AI系統(tǒng)也只能勉強進入前列。谷歌的AlphaCode在Codeforces平臺上的評分大約為1300，只能排在所有參賽者的前54%；改進版AlphaCode2提升到第85百分位；OpenAI的o3系統(tǒng)全球排名第175位；而最新的Gemini 3 Deep Think雖然達到第8名，但這個成績是在歷史問題上取得的，并非在真實競賽環(huán)境中。

GrandCode的突破在于它采用了一種全新的多智能體強化學習架構(gòu)。可以把這個系統(tǒng)想象成一個高度協(xié)作的專家團隊，每個成員都有自己的專長。這個團隊包括四個關(guān)鍵角色：主解題專家負責核心推理和代碼生成，就像團隊的首席工程師；假設(shè)生成專家負責提出中間猜想和結(jié)構(gòu)性洞察，像是團隊的理論分析師；總結(jié)專家負責壓縮冗長的推理過程，確保復雜問題仍然可以處理，類似團隊的信息整理員；測試用例生成模塊則構(gòu)建各種刁鉆的測試案例來驗證代碼，就像團隊的質(zhì)量檢查員。

這四個角色通過一種巧妙的機制相互配合。當遇到一個編程問題時，假設(shè)生成專家首先會分析問題的本質(zhì)，提出一些可能的解決思路。比如，它可能會判斷"這是一個動態(tài)規(guī)劃問題"或者"輸入圖滿足某種特殊結(jié)構(gòu)"。這些假設(shè)會在小規(guī)模實例上得到驗證，只有經(jīng)過驗證的假設(shè)才會傳遞給主解題專家。

主解題專家接收到這些經(jīng)過驗證的線索后，開始進行詳細的推理和代碼編寫。當推理過程過于冗長時，總結(jié)專家會介入，將長篇分析壓縮成緊湊的要點，確保系統(tǒng)不會被信息過載拖累。最后，測試用例生成模塊會創(chuàng)建各種邊界條件和特殊情況的測試，對生成的代碼進行嚴格檢驗。

整個系統(tǒng)的訓練過程分為兩個主要階段。在離線訓練階段，研究團隊首先讓系統(tǒng)在大量編程問題上進行持續(xù)學習，就像讓一個學生刷題提高基礎(chǔ)能力。接著進行監(jiān)督微調(diào)，使用高質(zhì)量的問題-思路-解答三元組來教會系統(tǒng)正確的解題模式。最后通過多組件強化學習，讓各個專家角色學會更好地協(xié)作，優(yōu)化整個系統(tǒng)的表現(xiàn)。

在線測試階段，也就是實際競賽時，GrandCode會根據(jù)問題難度采用不同策略。對于簡單問題，它直接生成解答；對于困難問題，它會啟動完整的多智能體協(xié)作流程，甚至在解題過程中持續(xù)優(yōu)化自己的策略。

為了解決多階段智能體訓練中的技術(shù)挑戰(zhàn)，研究團隊開發(fā)了一種名為"Agentic GRPO"的新算法。傳統(tǒng)的強化學習算法在面對多輪交互和延遲獎勵時會遇到困難，就像一個老師試圖給一個團隊項目的每個步驟打分，但只有在項目完成后才能看到最終效果。Agentic GRPO通過即時獎勵和延遲修正的組合機制解決了這個問題。當某個中間步驟完成時，系統(tǒng)會立即獲得反饋進行學習；當整個任務(wù)完成后，系統(tǒng)還會回過頭來修正之前的評估，確保學習效果最優(yōu)。

測試用例生成是GrandCode的另一個創(chuàng)新點。在編程競賽中，真正的測試用例是隱藏的，選手只能看到幾個簡單示例。GrandCode開發(fā)了兩種生成對抗性測試用例的方法。第一種是差異驅(qū)動生成法：如果一個測試用例能夠暴露兩個不同解法之間的差異，那它很可能是一個有價值的邊界案例。系統(tǒng)會不斷生成這樣的測試，逐步建立起強大的測試用例庫。第二種是解法攻擊法：系統(tǒng)會直接分析候選解法和標準答案的區(qū)別，專門設(shè)計能夠暴露漏洞的測試用例。

在實際應(yīng)用中，GrandCode在三場Codeforces實時競賽中的表現(xiàn)令人印象深刻。2026年3月21日的Round 1087比賽中，GrandCode以用戶名averyjones1參賽，在51分鐘內(nèi)完成所有任務(wù)，得分8334分；3月28日的Round 1088比賽中，它以yokeko身份參賽，用時1小時40分鐘，得分15008分；3月29日的Round 1089比賽中，使用Vortex1身份，用時56分鐘，得分9506分。值得注意的是，在所有三場比賽中，GrandCode都是第一個完成全部任務(wù)的參賽者。

這些成績的取得并非偶然。研究團隊對100個編程問題進行了詳細的基準測試，發(fā)現(xiàn)GrandCode在持續(xù)訓練、監(jiān)督微調(diào)和完整強化學習訓練后，整體接受率從基礎(chǔ)模型的64%提升到81%，在最困難的Level 5問題上的解決率從20%中的4題提升到20題中的13題。經(jīng)過測試時強化學習后，這些數(shù)字進一步提升到85%的整體接受率和20題中的15題。

GrandCode的成功還得益于一些精心設(shè)計的技術(shù)細節(jié)。系統(tǒng)使用了基于問題難度的動態(tài)路由機制，對簡單問題采用直接生成，對復雜問題啟用完整的多智能體協(xié)作。在處理超長推理序列時，系統(tǒng)采用了創(chuàng)新的上下文并行化技術(shù)，特別針對混合架構(gòu)進行了優(yōu)化。這種架構(gòu)結(jié)合了線性注意力機制的效率和標準注意力機制的建模能力。

更重要的是，GrandCode在訓練過程中特別注重多模態(tài)問題的處理能力。許多編程競賽問題包含圖表或幾何圖形，純文本描述往往難以準確傳達這些信息。GrandCode直接處理這些視覺內(nèi)容，而不是依賴文本轉(zhuǎn)換，這大大提高了它對復雜問題的理解能力。

從技術(shù)實現(xiàn)角度來看，GrandCode的架構(gòu)設(shè)計充分考慮了實際部署的需求。主要的混合專家模型部署在專用的分布式GPU集群上，而較小的輔助模型則在獨立的GPU池中異步運行。這種設(shè)計既保證了主要計算流程的高效率，又避免了資源碎片化問題。代碼執(zhí)行、暴力求解檢查和測試生成則由獨立的CPU沙箱池處理，確保系統(tǒng)的穩(wěn)定性和安全性。

測試時強化學習是GrandCode的另一個重要特色。與傳統(tǒng)的離線訓練不同，測試時強化學習專門針對當前正在解決的特定問題進行優(yōu)化。系統(tǒng)不再追求所有問題的平均表現(xiàn)，而是專注于在當前問題上找到最佳解法。這種方法通過排名基礎(chǔ)的松弛目標函數(shù)實現(xiàn)，逐步將優(yōu)化重點從平均獎勵轉(zhuǎn)向最大獎勵，更符合編程競賽"一次通過"的特點。

在實際競賽中，GrandCode采用了平衡直接生成和測試時強化學習的策略。對于競賽初期的簡單問題，系統(tǒng)使用大批量并行直接生成快速獲得答案，因為早期提交能夠獲得更高分數(shù)。只有當直接生成無法解決問題時，系統(tǒng)才會啟動計算密集的測試時強化學習流程。

GrandCode的成功也體現(xiàn)在對編程競賽特殊規(guī)則的深度理解上。Codeforces平臺對AI生成內(nèi)容有嚴格政策，高排名賬戶面臨更嚴格審查。為了獲得最終分數(shù)，研究團隊采用了謹慎的提交策略：等待人類參賽者接近完成任務(wù)后才提交完整版本。同時，系統(tǒng)還需要處理多次提交的罰分機制，這要求它在準確性和速度之間找到最佳平衡點。

在假設(shè)生成方面，GrandCode展現(xiàn)出了類似人類專家的直覺。當面對一個新問題時，系統(tǒng)會首先嘗試識別問題的本質(zhì)特征，比如判斷這是否是一個動態(tài)規(guī)劃問題，或者輸入圖是否具有特殊結(jié)構(gòu)。這些假設(shè)會在小規(guī)模實例上進行驗證，通過暴力算法檢查假設(shè)的正確性。只有通過驗證的假設(shè)才會被注入到主要解題流程中，為后續(xù)的代碼生成提供關(guān)鍵指導。

系統(tǒng)還集成了在線整數(shù)序列百科全書(OEIS)的查詢功能。對于某些數(shù)學性質(zhì)較強的問題，GrandCode會計算小規(guī)模輸入的輸出值，然后在OEIS中搜索匹配的數(shù)列模式。如果找到匹配項，相關(guān)的公式、模式或結(jié)構(gòu)提示會被納入后續(xù)的解題過程中。

總結(jié)專家模塊的設(shè)計特別值得關(guān)注。在處理復雜問題時，推理過程可能長達數(shù)萬個標記，這不僅增加計算成本，也使后續(xù)的強化學習訓練變得困難。總結(jié)專家采用漸進式訓練方法，首先學會對單個推理塊進行總結(jié)，然后學會處理完整的推理鏈條。這種分階段訓練提供了比端到端訓練更密集的中間監(jiān)督信號，顯著提高了總結(jié)質(zhì)量。

在代碼獎勵設(shè)計上，GrandCode使用了三層評估體系。首先檢查代碼的可執(zhí)行性，無法編譯或運行的代碼直接得零分。其次檢查正確性，通過與參考輸出或暴力解法的比較來驗證。最后評估效率，通過與暴力算法的運行時間比較來衡量代碼的性能。這種多層次評估確保生成的代碼既正確又高效。

值得一提的是，GrandCode的訓練數(shù)據(jù)來源非常廣泛。除了傳統(tǒng)的編程競賽數(shù)據(jù)庫如TACO、LeetCode、USACO等，研究團隊還使用了IOI國際信息學奧林匹克的問題，并通過大語言模型生成了大量擴展訓練數(shù)據(jù)。為了讓系統(tǒng)適應(yīng)假設(shè)條件下的解題，20%的訓練樣例被轉(zhuǎn)換為假設(shè)驅(qū)動格式，其中假設(shè)內(nèi)容由假設(shè)生成專家提供。

在系統(tǒng)架構(gòu)的實現(xiàn)細節(jié)上，GrandCode采用了基于難度的動態(tài)批處理策略。由于推理長度與問題難度高度相關(guān)，將不同難度的問題混合在同一批次中會導致嚴重的計算不平衡。系統(tǒng)不僅在單個批次內(nèi)按難度分組，還確保不同數(shù)據(jù)并行工作節(jié)點之間的批次具有相似的難度分布，從而實現(xiàn)更好的負載平衡。

專家路由的穩(wěn)定性也是一個重要考慮因素。為了避免強化學習訓練期間的路由不穩(wěn)定，GrandCode完全凍結(jié)路由器參數(shù)，只更新專家的前饋參數(shù)。這保證了專家分配在整個強化學習過程中保持一致，避免了路由變化可能帶來的額外不穩(wěn)定性。

在多模態(tài)處理方面，GrandCode直接處理問題中包含的圖像和圖表，而不是將它們轉(zhuǎn)換為文本描述。研究團隊發(fā)現(xiàn)，許多競賽問題中的圖像在視覺上非常復雜，難以用文字準確描述，而轉(zhuǎn)換過程往往會丟失推理所需的關(guān)鍵空間或結(jié)構(gòu)信息。直接的多模態(tài)處理顯著優(yōu)于純文本轉(zhuǎn)換方法。

從更廣闊的視角來看，GrandCode的成功標志著人工智能在代碼生成領(lǐng)域的一個重要里程碑。編程競賽長期被視為需要創(chuàng)造性思維、快速學習和復雜推理的智力挑戰(zhàn)。GrandCode證明了當智能體強化學習與強驗證和在線適應(yīng)相結(jié)合時，人工智能系統(tǒng)可以在實時環(huán)境中超越頂級人類程序員的表現(xiàn)。

這項成就的意義遠超編程競賽本身。GrandCode展示的多智能體協(xié)作、實時學習適應(yīng)和復雜問題分解能力，為未來的AI系統(tǒng)設(shè)計提供了寶貴的啟示。隨著這些技術(shù)的進一步發(fā)展和完善，我們可能會在更多需要高級認知能力的領(lǐng)域看到類似的突破。

當然，GrandCode的成功也帶來了一些思考。它的出現(xiàn)是否意味著編程教育需要重新定義目標？未來的程序員需要具備什么樣的技能才能與AI協(xié)作？這些問題值得整個技術(shù)社區(qū)深入探討。不過可以確定的是，GrandCode為我們展示了AI與人類智慧結(jié)合的新可能性，也為未來的技術(shù)發(fā)展指明了方向。

對于有興趣深入了解技術(shù)細節(jié)的讀者，可以通過論文編號arXiv:2604.02721v1在arXiv平臺查詢這項研究的完整論文，其中包含了更詳細的算法描述、實驗數(shù)據(jù)和技術(shù)實現(xiàn)細節(jié)。

Q&A

Q1：GrandCode是如何在編程競賽中擊敗人類選手的？

A：GrandCode采用了多智能體協(xié)作架構(gòu)，包含四個專門角色：主解題專家負責核心推理和代碼生成，假設(shè)生成專家提出解題思路，總結(jié)專家壓縮復雜推理，測試用例生成模塊驗證代碼質(zhì)量。這些角色通過創(chuàng)新的Agentic GRPO算法協(xié)同工作，能夠在實時競賽中快速準確地解決復雜編程問題。

Q2：GrandCode相比之前的AI編程系統(tǒng)有什么突破性改進？

A：相比AlphaCode只能排在前54%、o3排名第175位的成績，GrandCode實現(xiàn)了質(zhì)的飛躍。它首創(chuàng)了多智能體強化學習架構(gòu)，引入了測試時強化學習技術(shù)，開發(fā)了對抗性測試用例生成方法，并且能夠直接處理多模態(tài)問題內(nèi)容，這些創(chuàng)新使它成為首個在實時競賽中持續(xù)擊敗所有人類選手的AI系統(tǒng)。

Q3：普通程序員需要擔心被GrandCode這樣的AI取代嗎？

A：目前不需要過度擔心。GrandCode雖然在特定的編程競賽環(huán)境中表現(xiàn)出色，但現(xiàn)實世界的軟件開發(fā)涉及需求理解、團隊協(xié)作、系統(tǒng)設(shè)計、用戶體驗等多個復雜層面。GrandCode更可能成為程序員的強大助手，幫助處理算法實現(xiàn)和代碼優(yōu)化等任務(wù)，而程序員則可以專注于更高層次的創(chuàng)造性和戰(zhàn)略性工作。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.