国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國內(nèi)量化圈的第二個(gè)AI選手來了,開源模型代碼跑分超 GPT-5.1

0
分享至

2026 年開年,國內(nèi)量化私募九坤投資創(chuàng)始團(tuán)隊(duì)旗下的至知研究院(IQuest Research)發(fā)布了首代開源代碼大模型系列 IQuest-Coder-V1。

這家研究機(jī)構(gòu)聲稱,其 40B 參數(shù)的旗艦?zāi)P驮?SWE-bench Verified 基準(zhǔn)測試中拿下了 81.4%的成績,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面開源,涵蓋 7B、14B、40B 三種參數(shù)規(guī)模,以及標(biāo)準(zhǔn)版和 Loop 變體。


圖丨IQuest-Coder-V1的架構(gòu)(來源:GitHub)

至知研究院由九坤投資創(chuàng)始團(tuán)隊(duì)發(fā)起設(shè)立,定位為獨(dú)立于量化投研體系的 AI 研究平臺。

九坤本身是國內(nèi)最早將深度學(xué)習(xí)大規(guī)模應(yīng)用于量化投資的機(jī)構(gòu)之一,2020 年投資過億建成 AI 超算集群“北溟”,旗下三大實(shí)驗(yàn)室長期從事數(shù)據(jù)、算法和交易執(zhí)行研究。繼幻方量化孵化出 DeepSeek 之后,這是又一家從量化圈走出來的 AI 研究力量。

IQuest-Coder-V1 技術(shù)報(bào)告中最值得關(guān)注的是 Code-Flow 訓(xùn)練范式對 commit 演化數(shù)據(jù)的利用。傳統(tǒng)代碼模型基于靜態(tài)代碼文件訓(xùn)練,相當(dāng)于讓模型看一堆代碼快照。IQuest-Coder 的做法不同:它試圖讓模型學(xué)習(xí)代碼倉庫的演化軌跡——不只是代碼長什么樣,還要學(xué)習(xí)代碼是怎么一步步改出來的。

具體來說,他們?yōu)槊總€(gè)代碼倉庫構(gòu)建了形如(R_old, P, R_new)的三元組訓(xùn)練數(shù)據(jù)。R_old 代表項(xiàng)目在某個(gè)穩(wěn)定開發(fā)階段的代碼狀態(tài),P 是捕捉兩個(gè)狀態(tài)差異的 Patch 信息(即 commit 變更),R_new 則是迭代后的新狀態(tài)。

選取起點(diǎn)時(shí)有個(gè)講究:他們避開了項(xiàng)目早期不穩(wěn)定的探索性代碼和后期碎片化的維護(hù)性修改,專門聚焦于項(xiàng)目生命周期 40%到 80%區(qū)間的“成熟期”。理由是這個(gè)階段的代碼庫相對穩(wěn)定,變更模式更能反映真實(shí)的軟件開發(fā)邏輯。

這個(gè)思路有一定道理。程序員在修 bug 或加新功能時(shí),腦子里轉(zhuǎn)的不是“這段代碼是什么”,而是“這段代碼要從什么狀態(tài)變成什么狀態(tài)”。

Commit 記錄天然包含了這種“變更意圖”——為什么改、改了哪里、改完之后整體結(jié)構(gòu)如何調(diào)整。如果模型能從大量 commit 歷史中學(xué)到這種模式,理論上應(yīng)該比只看靜態(tài)代碼更擅長理解“怎么改代碼”。

這也解釋了為什么 IQuest-Coder 在 SWE-bench 這類需要生成 patch 修復(fù) issue 的任務(wù)上表現(xiàn)突出——任務(wù)形式本身就和訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)高度吻合。技術(shù)報(bào)告中提到的一個(gè)發(fā)現(xiàn)印證了這點(diǎn):倉庫演化數(shù)據(jù)(repository transition data)在任務(wù)規(guī)劃能力上提供了比靜態(tài)快照更好的訓(xùn)練信號。


圖丨研究團(tuán)隊(duì)展示的太陽系模擬示例(來源:IQuest Lab)

預(yù)訓(xùn)練階段,IQuest-Coder 先用通用數(shù)據(jù)和代碼數(shù)據(jù)打底,隨后用高質(zhì)量代碼語料進(jìn)行退火(Annealing)。這部分比較常規(guī)。中間訓(xùn)練階段則分兩期進(jìn)行:他們在 32K 上下文長度下注入了推理數(shù)據(jù)、Agent 軌跡和代碼數(shù)據(jù)的混合,隨后將上下文擴(kuò)展到 128K,加入倉庫級的長序列樣本。

Agent 軌跡數(shù)據(jù)包含完整的“行動-觀察-修正”循環(huán)——命令執(zhí)行、日志輸出、錯(cuò)誤信息、測試結(jié)果等環(huán)境反饋。技術(shù)報(bào)告的說法是,推理數(shù)據(jù)提供符號層面的邏輯腳手架,Agent 軌跡則提供“閉環(huán)智能”,讓模型學(xué)會根據(jù)環(huán)境反饋調(diào)整行為。他們聲稱在高質(zhì)量代碼退火之后、后訓(xùn)練之前注入這類數(shù)據(jù),能在分布偏移下穩(wěn)定模型性能。

后訓(xùn)練階段分成兩條路徑:Thinking 路徑先用包含顯式推理軌跡的數(shù)據(jù)做監(jiān)督微調(diào),再用強(qiáng)化學(xué)習(xí)優(yōu)化推理能力;Instruct 路徑則用通用和代碼指令數(shù)據(jù)做監(jiān)督微調(diào),再用 RL 增強(qiáng)指令遵循能力。

技術(shù)報(bào)告聲稱,Thinking 版本在長程任務(wù)中展現(xiàn)出了自主錯(cuò)誤恢復(fù)(error-recovery)能力,而這種能力在標(biāo)準(zhǔn) Instruct SFT 路徑中幾乎觀察不到。換言之,RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵。


圖丨訓(xùn)練流程(來源:GitHub)

架構(gòu)方面,Loop 變體的設(shè)計(jì)比較有意思。LoopCoder 采用循環(huán) Transformer 架構(gòu),讓參數(shù)共享的 Transformer 塊執(zhí)行兩次固定迭代。第一次迭代正常處理輸入嵌入,第二次迭代同時(shí)計(jì)算兩種注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 對)和局部注意力(維持因果性的常規(guī)自注意力)。

兩種注意力的輸出通過一個(gè)基于 query 表示的學(xué)習(xí)門控機(jī)制加權(quán)混合。這種設(shè)計(jì)的目的是在有限參數(shù)規(guī)模下獲得更高的有效計(jì)算深度,即用參數(shù)共享換取更多計(jì)算步驟,在部署效率和模型能力之間找平衡。

后訓(xùn)練的 Thinking 路徑也值得一提。技術(shù)報(bào)告聲稱,通過強(qiáng)化學(xué)習(xí)訓(xùn)練的 Thinking 版本在長程任務(wù)中展現(xiàn)出了自主錯(cuò)誤恢復(fù)(error-recovery)能力,而這種能力在標(biāo)準(zhǔn) Instruct SFT 路徑中幾乎觀察不到。如果屬實(shí),這意味著 RL 可能是解鎖代碼模型“自主調(diào)試”能力的關(guān)鍵,模型不只是生成代碼,還能在出錯(cuò)后自我修正。

根據(jù)技術(shù)報(bào)告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解決率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函數(shù)調(diào)用排行榜)V3 上達(dá)到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上達(dá)到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成績是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分別達(dá)到 98.5%和 99.4%。


圖丨基準(zhǔn)測試結(jié)果(來源:IQuest-Coder-V1)

當(dāng)然,SWE-bench Verified 只覆蓋 Python 且僅含 500 個(gè)樣本,社區(qū)對“針對榜單優(yōu)化”的擔(dān)憂一直存在。其在實(shí)際使用中的表現(xiàn)如何,有待社區(qū)的進(jìn)一步測試反饋。

從技術(shù)貢獻(xiàn)看,IQuest-Coder-V1 最有價(jià)值的部分可能是對 commit 演化數(shù)據(jù)的系統(tǒng)性利用。這個(gè)方向此前在學(xué)術(shù)界有過探索,但在開源模型的大規(guī)模訓(xùn)練中應(yīng)用得并不多。技術(shù)報(bào)告承諾會開源完整訓(xùn)練流程和中間檢查點(diǎn),這對研究代碼模型如何學(xué)習(xí)軟件工程能力將是有價(jià)值的參考。至于跑分能否轉(zhuǎn)化為實(shí)際生產(chǎn)力,要等更多開發(fā)者上手實(shí)測才能下結(jié)論。

參考資料:

1. https://iquestlab.github.io/#/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
高市早苗各種造假、涉及邪教紛紛被曝光,究竟啥情況?

高市早苗各種造假、涉及邪教紛紛被曝光,究竟啥情況?

新民晚報(bào)
2026-01-02 09:55:48
國家又出生育新政,2026年1月1日起正式實(shí)施,但年輕人不愿生娃

國家又出生育新政,2026年1月1日起正式實(shí)施,但年輕人不愿生娃

百態(tài)人間
2025-12-31 16:30:11
陪嫁金條掉色,租的別墅,新娘廳官父親、模特母親是花錢雇的演員

陪嫁金條掉色,租的別墅,新娘廳官父親、模特母親是花錢雇的演員

詩意世界
2026-01-02 10:15:30
別墅是中產(chǎn)返貧的最大陷阱!過來人血淚總結(jié):別墅的四大硬傷

別墅是中產(chǎn)返貧的最大陷阱!過來人血淚總結(jié):別墅的四大硬傷

流蘇晚晴
2026-01-02 17:56:17
蔡正元博士:待我出獄之日臺灣已變成特別行政區(qū)了!

蔡正元博士:待我出獄之日臺灣已變成特別行政區(qū)了!

達(dá)文西看世界
2026-01-02 17:54:56
“臺獨(dú)”若再看不清兩岸歷史大勢就徹底無藥可救了

“臺獨(dú)”若再看不清兩岸歷史大勢就徹底無藥可救了

環(huán)球時(shí)報(bào)國際
2026-01-02 15:09:34
超級統(tǒng)治力!韓旭留洋率隊(duì)7戰(zhàn)全勝狂勝156分 升聯(lián)賽第二逼近榜首

超級統(tǒng)治力!韓旭留洋率隊(duì)7戰(zhàn)全勝狂勝156分 升聯(lián)賽第二逼近榜首

醉臥浮生
2026-01-02 18:34:41
西部排名又變了:快船創(chuàng)NBA奇跡,火箭劍指前三,3隊(duì)排名互換

西部排名又變了:快船創(chuàng)NBA奇跡,火箭劍指前三,3隊(duì)排名互換

籃球大視野
2026-01-02 16:00:24
解放軍剛鳴金收兵,俄羅斯就抄中國作業(yè),在日本家門口連打2個(gè)月

解放軍剛鳴金收兵,俄羅斯就抄中國作業(yè),在日本家門口連打2個(gè)月

南宮一二
2026-01-02 18:08:59
女子未經(jīng)允許在游客手腕綁戴紅繩并索要費(fèi)用?三亞通報(bào)

女子未經(jīng)允許在游客手腕綁戴紅繩并索要費(fèi)用?三亞通報(bào)

界面新聞
2026-01-02 22:10:43
星鏈瘋狂擴(kuò)張后,馬斯克SpaceX宣布史上最大衛(wèi)星降軌行動

星鏈瘋狂擴(kuò)張后,馬斯克SpaceX宣布史上最大衛(wèi)星降軌行動

財(cái)聯(lián)社
2026-01-02 13:19:27
長春暴力攬客男社死!文旅被群攻,官方出手抓人,多位受害者發(fā)聲

長春暴力攬客男社死!文旅被群攻,官方出手抓人,多位受害者發(fā)聲

奇思妙想草葉君
2026-01-01 23:29:29
成本降低90%!又一重大科技飛躍,電磁彈射引爆千億新賽道,核心概念股有這些(名單)

成本降低90%!又一重大科技飛躍,電磁彈射引爆千億新賽道,核心概念股有這些(名單)

數(shù)據(jù)寶
2026-01-02 18:20:25
網(wǎng)友給葉文斌媽媽出招:花錢雇一個(gè)韓國人冒充孩子父親

網(wǎng)友給葉文斌媽媽出招:花錢雇一個(gè)韓國人冒充孩子父親

映射生活的身影
2026-01-02 16:02:09
方媛懷抱奶呼呼三寶出鏡,慶元旦!被網(wǎng)友質(zhì)疑動作僵硬,不會抱娃

方媛懷抱奶呼呼三寶出鏡,慶元旦!被網(wǎng)友質(zhì)疑動作僵硬,不會抱娃

白日追夢人
2026-01-02 21:00:31
視頻丨瞬間彈射“零幀”急停 福建艦還有哪些驚喜?

視頻丨瞬間彈射“零幀”急停 福建艦還有哪些驚喜?

環(huán)球網(wǎng)資訊
2026-01-02 07:26:47
迪士尼樂園出意外! 181公斤巨石失控沖向觀眾員工肉身阻擋倒地

迪士尼樂園出意外! 181公斤巨石失控沖向觀眾員工肉身阻擋倒地

環(huán)球趣聞分享
2026-01-02 16:00:06
封關(guān)后第一個(gè)節(jié)假日,海南多個(gè)免稅城游客爆滿:黃金店門口排起長隊(duì),買蘋果手機(jī)能省近千元

封關(guān)后第一個(gè)節(jié)假日,海南多個(gè)免稅城游客爆滿:黃金店門口排起長隊(duì),買蘋果手機(jī)能省近千元

極目新聞
2026-01-02 16:15:48
牡丹花下死,做鬼也風(fēng)流,75歲的王石,這輩子就栽在田樸珺身上

牡丹花下死,做鬼也風(fēng)流,75歲的王石,這輩子就栽在田樸珺身上

阿訊說天下
2026-01-02 12:12:21
演員孫濤直播間聊天,被網(wǎng)友喊話:給閆學(xué)晶捐點(diǎn)錢!回復(fù)亮了

演員孫濤直播間聊天,被網(wǎng)友喊話:給閆學(xué)晶捐點(diǎn)錢!回復(fù)亮了

丫頭舫
2026-01-02 20:56:05
2026-01-03 00:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16069文章數(shù) 514447關(guān)注度
往期回顧 全部

科技要聞

新勢力年榜:零跑險(xiǎn)勝華為,蔚來小鵬新高

頭條要聞

民調(diào)稱25%臺灣人愿上戰(zhàn)場 呂秀蓮:圍臺軍演后數(shù)據(jù)更低

頭條要聞

民調(diào)稱25%臺灣人愿上戰(zhàn)場 呂秀蓮:圍臺軍演后數(shù)據(jù)更低

體育要聞

快船似乎又行了

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財(cái)經(jīng)要聞

車企2026開年大促 含16個(gè)品牌近70款

汽車要聞

方程豹全年銷量超23.4萬輛 同比暴增316.1%

態(tài)度原創(chuàng)

本地
親子
數(shù)碼
家居
公開課

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

親子要聞

4歲孩子患梅毒,感染源竟是奶奶……

數(shù)碼要聞

烏克蘭前線士兵曝照:遭炮彈彈片擊穿的 MacBook Air 仍能開機(jī)工作

家居要聞

無形有行 自然與靈感詩意

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版