国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

國(guó)內(nèi)量化圈的第二個(gè)AI選手來(lái)了,開(kāi)源模型代碼跑分超 GPT-5.1

0
分享至

2026 年開(kāi)年,國(guó)內(nèi)量化私募九坤投資創(chuàng)始團(tuán)隊(duì)旗下的至知研究院(IQuest Research)發(fā)布了首代開(kāi)源代碼大模型系列 IQuest-Coder-V1。

這家研究機(jī)構(gòu)聲稱,其 40B 參數(shù)的旗艦?zāi)P驮?SWE-bench Verified 基準(zhǔn)測(cè)試中拿下了 81.4%的成績(jī),超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面開(kāi)源,涵蓋 7B、14B、40B 三種參數(shù)規(guī)模,以及標(biāo)準(zhǔn)版和 Loop 變體。


圖丨IQuest-Coder-V1的架構(gòu)(來(lái)源:GitHub)

至知研究院由九坤投資創(chuàng)始團(tuán)隊(duì)發(fā)起設(shè)立,定位為獨(dú)立于量化投研體系的 AI 研究平臺(tái)。

九坤本身是國(guó)內(nèi)最早將深度學(xué)習(xí)大規(guī)模應(yīng)用于量化投資的機(jī)構(gòu)之一,2020 年投資過(guò)億建成 AI 超算集群“北溟”,旗下三大實(shí)驗(yàn)室長(zhǎng)期從事數(shù)據(jù)、算法和交易執(zhí)行研究。繼幻方量化孵化出 DeepSeek 之后,這是又一家從量化圈走出來(lái)的 AI 研究力量。

IQuest-Coder-V1 技術(shù)報(bào)告中最值得關(guān)注的是 Code-Flow 訓(xùn)練范式對(duì) commit 演化數(shù)據(jù)的利用。傳統(tǒng)代碼模型基于靜態(tài)代碼文件訓(xùn)練,相當(dāng)于讓模型看一堆代碼快照。IQuest-Coder 的做法不同:它試圖讓模型學(xué)習(xí)代碼倉(cāng)庫(kù)的演化軌跡——不只是代碼長(zhǎng)什么樣,還要學(xué)習(xí)代碼是怎么一步步改出來(lái)的。

具體來(lái)說(shuō),他們?yōu)槊總€(gè)代碼倉(cāng)庫(kù)構(gòu)建了形如(R_old, P, R_new)的三元組訓(xùn)練數(shù)據(jù)。R_old 代表項(xiàng)目在某個(gè)穩(wěn)定開(kāi)發(fā)階段的代碼狀態(tài),P 是捕捉兩個(gè)狀態(tài)差異的 Patch 信息(即 commit 變更),R_new 則是迭代后的新?tīng)顟B(tài)。

選取起點(diǎn)時(shí)有個(gè)講究:他們避開(kāi)了項(xiàng)目早期不穩(wěn)定的探索性代碼和后期碎片化的維護(hù)性修改,專門聚焦于項(xiàng)目生命周期 40%到 80%區(qū)間的“成熟期”。理由是這個(gè)階段的代碼庫(kù)相對(duì)穩(wěn)定,變更模式更能反映真實(shí)的軟件開(kāi)發(fā)邏輯。

這個(gè)思路有一定道理。程序員在修 bug 或加新功能時(shí),腦子里轉(zhuǎn)的不是“這段代碼是什么”,而是“這段代碼要從什么狀態(tài)變成什么狀態(tài)”。

Commit 記錄天然包含了這種“變更意圖”——為什么改、改了哪里、改完之后整體結(jié)構(gòu)如何調(diào)整。如果模型能從大量 commit 歷史中學(xué)到這種模式,理論上應(yīng)該比只看靜態(tài)代碼更擅長(zhǎng)理解“怎么改代碼”。

這也解釋了為什么 IQuest-Coder 在 SWE-bench 這類需要生成 patch 修復(fù) issue 的任務(wù)上表現(xiàn)突出——任務(wù)形式本身就和訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)高度吻合。技術(shù)報(bào)告中提到的一個(gè)發(fā)現(xiàn)印證了這點(diǎn):倉(cāng)庫(kù)演化數(shù)據(jù)(repository transition data)在任務(wù)規(guī)劃能力上提供了比靜態(tài)快照更好的訓(xùn)練信號(hào)。


圖丨研究團(tuán)隊(duì)展示的太陽(yáng)系模擬示例(來(lái)源:IQuest Lab)

預(yù)訓(xùn)練階段,IQuest-Coder 先用通用數(shù)據(jù)和代碼數(shù)據(jù)打底,隨后用高質(zhì)量代碼語(yǔ)料進(jìn)行退火(Annealing)。這部分比較常規(guī)。中間訓(xùn)練階段則分兩期進(jìn)行:他們?cè)?32K 上下文長(zhǎng)度下注入了推理數(shù)據(jù)、Agent 軌跡和代碼數(shù)據(jù)的混合,隨后將上下文擴(kuò)展到 128K,加入倉(cāng)庫(kù)級(jí)的長(zhǎng)序列樣本。

Agent 軌跡數(shù)據(jù)包含完整的“行動(dòng)-觀察-修正”循環(huán)——命令執(zhí)行、日志輸出、錯(cuò)誤信息、測(cè)試結(jié)果等環(huán)境反饋。技術(shù)報(bào)告的說(shuō)法是,推理數(shù)據(jù)提供符號(hào)層面的邏輯腳手架,Agent 軌跡則提供“閉環(huán)智能”,讓模型學(xué)會(huì)根據(jù)環(huán)境反饋調(diào)整行為。他們聲稱在高質(zhì)量代碼退火之后、后訓(xùn)練之前注入這類數(shù)據(jù),能在分布偏移下穩(wěn)定模型性能。

后訓(xùn)練階段分成兩條路徑:Thinking 路徑先用包含顯式推理軌跡的數(shù)據(jù)做監(jiān)督微調(diào),再用強(qiáng)化學(xué)習(xí)優(yōu)化推理能力;Instruct 路徑則用通用和代碼指令數(shù)據(jù)做監(jiān)督微調(diào),再用 RL 增強(qiáng)指令遵循能力。

技術(shù)報(bào)告聲稱,Thinking 版本在長(zhǎng)程任務(wù)中展現(xiàn)出了自主錯(cuò)誤恢復(fù)(error-recovery)能力,而這種能力在標(biāo)準(zhǔn) Instruct SFT 路徑中幾乎觀察不到。換言之,RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵。


圖丨訓(xùn)練流程(來(lái)源:GitHub)

架構(gòu)方面,Loop 變體的設(shè)計(jì)比較有意思。LoopCoder 采用循環(huán) Transformer 架構(gòu),讓參數(shù)共享的 Transformer 塊執(zhí)行兩次固定迭代。第一次迭代正常處理輸入嵌入,第二次迭代同時(shí)計(jì)算兩種注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 對(duì))和局部注意力(維持因果性的常規(guī)自注意力)。

兩種注意力的輸出通過(guò)一個(gè)基于 query 表示的學(xué)習(xí)門控機(jī)制加權(quán)混合。這種設(shè)計(jì)的目的是在有限參數(shù)規(guī)模下獲得更高的有效計(jì)算深度,即用參數(shù)共享?yè)Q取更多計(jì)算步驟,在部署效率和模型能力之間找平衡。

后訓(xùn)練的 Thinking 路徑也值得一提。技術(shù)報(bào)告聲稱,通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的 Thinking 版本在長(zhǎng)程任務(wù)中展現(xiàn)出了自主錯(cuò)誤恢復(fù)(error-recovery)能力,而這種能力在標(biāo)準(zhǔn) Instruct SFT 路徑中幾乎觀察不到。如果屬實(shí),這意味著 RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵,模型不只是生成代碼,還能在出錯(cuò)后自我修正。

根據(jù)技術(shù)報(bào)告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解決率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函數(shù)調(diào)用排行榜)V3 上達(dá)到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上達(dá)到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成績(jī)是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分別達(dá)到 98.5%和 99.4%。


圖丨基準(zhǔn)測(cè)試結(jié)果(來(lái)源:IQuest-Coder-V1)

當(dāng)然,SWE-bench Verified 只覆蓋 Python 且僅含 500 個(gè)樣本,社區(qū)對(duì)“針對(duì)榜單優(yōu)化”的擔(dān)憂一直存在。其在實(shí)際使用中的表現(xiàn)如何,有待社區(qū)的進(jìn)一步測(cè)試反饋。

從技術(shù)貢獻(xiàn)看,IQuest-Coder-V1 最有價(jià)值的部分可能是對(duì) commit 演化數(shù)據(jù)的系統(tǒng)性利用。這個(gè)方向此前在學(xué)術(shù)界有過(guò)探索,但在開(kāi)源模型的大規(guī)模訓(xùn)練中應(yīng)用得并不多。技術(shù)報(bào)告承諾會(huì)開(kāi)源完整訓(xùn)練流程和中間檢查點(diǎn),這對(duì)研究代碼模型如何學(xué)習(xí)軟件工程能力將是有價(jià)值的參考。至于跑分能否轉(zhuǎn)化為實(shí)際生產(chǎn)力,要等更多開(kāi)發(fā)者上手實(shí)測(cè)才能下結(jié)論。

參考資料:

1. https://iquestlab.github.io/#/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6號(hào)午評(píng):創(chuàng)業(yè)板指沖高回落!所有人都注意,大盤后市開(kāi)始這樣看

6號(hào)午評(píng):創(chuàng)業(yè)板指沖高回落!所有人都注意,大盤后市開(kāi)始這樣看

春江財(cái)富
2026-01-06 11:56:35
直播調(diào)整!王曼昱對(duì)陣大藤沙月有變,孫穎莎不打,曼昱拿出殺手锏

直播調(diào)整!王曼昱對(duì)陣大藤沙月有變,孫穎莎不打,曼昱拿出殺手锏

曹說(shuō)體育
2026-01-07 00:58:58
2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見(jiàn)

2026年春節(jié),要暖到離譜!大年初一撞上七九,老輩人:60年頭回見(jiàn)

米果說(shuō)識(shí)
2026-01-06 21:35:09
張水華奪冠的馬拉松都是低級(jí)別的賽事,最好的是15名的南昌馬拉松

張水華奪冠的馬拉松都是低級(jí)別的賽事,最好的是15名的南昌馬拉松

振華觀史
2026-01-03 11:37:24
豐田“自砍一刀”,B級(jí)車從16.98萬(wàn)降到9.38萬(wàn),能打過(guò)國(guó)產(chǎn)車?

豐田“自砍一刀”,B級(jí)車從16.98萬(wàn)降到9.38萬(wàn),能打過(guò)國(guó)產(chǎn)車?

沙雕小琳琳
2026-01-06 04:55:48
放假通知!2026中小學(xué)寒假時(shí)間確定了,家長(zhǎng)吵翻:這安排太離譜!

放假通知!2026中小學(xué)寒假時(shí)間確定了,家長(zhǎng)吵翻:這安排太離譜!

老特有話說(shuō)
2026-01-05 11:58:45
千萬(wàn)不要過(guò)度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

千萬(wàn)不要過(guò)度體檢?醫(yī)生再三提醒:55歲后,這5種體檢能不做就不做

神奇故事
2025-12-30 23:09:45
知名男演員突然去世!他的作品太熟悉!幾天前突發(fā)意外進(jìn)ICU……醫(yī)生緊急提醒→

知名男演員突然去世!他的作品太熟悉!幾天前突發(fā)意外進(jìn)ICU……醫(yī)生緊急提醒→

福建衛(wèi)生報(bào)
2026-01-05 12:44:27
克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當(dāng)成“自助餐”

克林頓不是男人!要用雪茄助興?萊溫斯基:他把我當(dāng)成“自助餐”

老蝣說(shuō)體育
2026-01-05 14:59:04
姚安娜這事兒真讓人想不通,每月掏二十萬(wàn)請(qǐng)全劇組喝咖啡,

姚安娜這事兒真讓人想不通,每月掏二十萬(wàn)請(qǐng)全劇組喝咖啡,

小光侃娛樂(lè)
2026-01-06 20:45:03
廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

每日一見(jiàn)
2026-01-02 12:21:28
廣東3消息!朱芳雨正式上訴,徐杰腳踝傷勢(shì)加重,奎因官方喜訊

廣東3消息!朱芳雨正式上訴,徐杰腳踝傷勢(shì)加重,奎因官方喜訊

多特體育說(shuō)
2026-01-06 22:43:17
網(wǎng)曝星二代李嫣戀愛(ài)了!和高大男生現(xiàn)身機(jī)場(chǎng), 側(cè)臉看著顏值很帥

網(wǎng)曝星二代李嫣戀愛(ài)了!和高大男生現(xiàn)身機(jī)場(chǎng), 側(cè)臉看著顏值很帥

小徐講八卦
2026-01-06 08:20:50
令人期待:外援證實(shí),中國(guó)男足有5位高水平球員!2人獲邵佳一青睞

令人期待:外援證實(shí),中國(guó)男足有5位高水平球員!2人獲邵佳一青睞

國(guó)足風(fēng)云
2026-01-06 14:55:53
原來(lái)馬杜羅被抓前還留了一手!英媒:“最大內(nèi)鬼”是她?

原來(lái)馬杜羅被抓前還留了一手!英媒:“最大內(nèi)鬼”是她?

兵國(guó)大事
2026-01-06 17:47:39
“車?yán)遄颖炔葺阋肆耍 焙_\(yùn)新貨抵蘇在即,商戶:“過(guò)幾天還能降”

“車?yán)遄颖炔葺阋肆耍 焙_\(yùn)新貨抵蘇在即,商戶:“過(guò)幾天還能降”

揚(yáng)子晚報(bào)
2026-01-06 12:12:05
女護(hù)士處理男患者隱私部位,會(huì)感覺(jué)難為情嗎?美女護(hù)士說(shuō)出大實(shí)話

女護(hù)士處理男患者隱私部位,會(huì)感覺(jué)難為情嗎?美女護(hù)士說(shuō)出大實(shí)話

第7情感
2025-09-17 12:12:15
深圳打響第一槍:“經(jīng)營(yíng)貸”反內(nèi)卷,動(dòng)真格了!

深圳打響第一槍:“經(jīng)營(yíng)貸”反內(nèi)卷,動(dòng)真格了!

夜深愛(ài)雜談
2026-01-06 21:15:22
廣東輸球揪出拖油瓶!拿858萬(wàn)得可憐6分,被對(duì)手打爆,趕快換了他

廣東輸球揪出拖油瓶!拿858萬(wàn)得可憐6分,被對(duì)手打爆,趕快換了他

南海浪花
2026-01-06 06:47:34
萬(wàn)萬(wàn)沒(méi)想到!美國(guó)對(duì)華最大的失算,是讓中國(guó)90后、00后徹底清醒了

萬(wàn)萬(wàn)沒(méi)想到!美國(guó)對(duì)華最大的失算,是讓中國(guó)90后、00后徹底清醒了

硯底沉香
2026-01-04 16:39:49
2026-01-07 05:36:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16087文章數(shù) 514456關(guān)注度
往期回顧 全部

科技要聞

速看!黃仁勛萬(wàn)字實(shí)錄:甩出"物理AI"王牌

頭條要聞

俄羅斯發(fā)表關(guān)于委內(nèi)瑞拉局勢(shì)的聲明

頭條要聞

俄羅斯發(fā)表關(guān)于委內(nèi)瑞拉局勢(shì)的聲明

體育要聞

從NBA最菜首發(fā)控衛(wèi),到NBA最強(qiáng)喬治

娛樂(lè)要聞

2026年央視春晚彩排照曝光!

財(cái)經(jīng)要聞

50萬(wàn)億存款"洪流"將至 四大去向引關(guān)注

汽車要聞

摩登出街潮品 實(shí)拍奇瑞QQ冰淇淋女王版

態(tài)度原創(chuàng)

健康
游戲
數(shù)碼
藝術(shù)
軍事航空

這些新療法,讓化療不再那么痛苦

獵魂世界:最新版全武魂強(qiáng)度評(píng)級(jí)及養(yǎng)成匯總攻略!(1.4)

數(shù)碼要聞

一口氣看完科沃斯 CES2026 新品:地面、窗面、草坪、泳池全覆蓋

藝術(shù)要聞

2026馬年趙孟頫高清集字春聯(lián)大放送,收藏備用!

軍事要聞

美稱對(duì)“占領(lǐng)”委內(nèi)瑞拉保留選擇權(quán)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版