国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

訓(xùn)練效率翻倍,快手拿下開(kāi)源編程模型第一

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。wisemodel推出邀請(qǐng)注冊(cè)獎(jiǎng)勵(lì)活動(dòng),最高可得算力券+token包380元獎(jiǎng)勵(lì),歡迎參與和支持!

近日,快手Kwaipilot團(tuán)隊(duì)開(kāi)源最新一代編程模型KAT-Dev-72B-Exp,這一模型在軟件開(kāi)發(fā)能力評(píng)測(cè)基準(zhǔn)SWE-Bench Verified上取得74.6%的成績(jī),超越Qwen3-Coder、DeepSeek-V3.1、Kimi-K2和GLM-4.6等多款模型。

KAT-Dev-72B-Exp是KAT-Coder模型強(qiáng)化學(xué)習(xí)的實(shí)驗(yàn)版本,由快手自研的SeamlessFlow強(qiáng)化學(xué)習(xí)框架提供技術(shù)支撐。KAT-Dev-72B-Exp已上線始智AI-wisemodel開(kāi)源社區(qū),并且支持一鍵部署成在線體驗(yàn)或API服務(wù),歡迎大家前去體驗(yàn)。


模型地址

https://www.wisemodel.cn/models/Kwaipilot/KAT-Dev-72B-Exp


KAT-Dev-72B-Exp的框架實(shí)現(xiàn)了訓(xùn)練邏輯與智能體的完全解耦,能夠靈活支持多智能體和在線強(qiáng)化學(xué)習(xí)等復(fù)雜場(chǎng)景。針對(duì)復(fù)雜Agent場(chǎng)景,Kwaipilot團(tuán)隊(duì)引入了Trie Packing機(jī)制,并對(duì)訓(xùn)練引擎進(jìn)行了重構(gòu)優(yōu)化,使模型能夠高效地在共享前綴軌跡上開(kāi)展訓(xùn)練,還通過(guò)難度感知的策略?xún)?yōu)化,實(shí)現(xiàn)了探索與利用的平衡。值得注意的是,快手發(fā)布KAT-Dev-72B-Exp模型開(kāi)源消息的賬號(hào)歸屬為溪流湖科技,企查查信息顯示這是一家快手的關(guān)聯(lián)企業(yè)。在溪流湖科技的官網(wǎng)上,還能看到一款名為“CodeFlicker”AI IDE產(chǎn)品已經(jīng)進(jìn)入預(yù)約階段,其產(chǎn)品界面與Cursor類(lèi)似。


01.

雙管齊下給強(qiáng)化學(xué)習(xí)提效

在KAT-Dev-72B-Exp的強(qiáng)化學(xué)習(xí)訓(xùn)練中,Kwaipilot推出了一套融合樹(shù)形軌跡訓(xùn)練優(yōu)化(Trie Packing)與熵感知優(yōu)勢(shì)縮放的新方法,顯著提升了強(qiáng)化學(xué)習(xí)訓(xùn)練的吞吐量與策略探索能力。

在傳統(tǒng)的大模型Agent訓(xùn)練中,由于模型在執(zhí)行任務(wù)時(shí)會(huì)產(chǎn)生包含分支與回溯的樹(shù)狀token軌跡,業(yè)界普遍采用拆分為多條線性序列的簡(jiǎn)化訓(xùn)練方案。然而,這種方法忽略了軌跡之間的共享結(jié)構(gòu),容易造成計(jì)算冗余。

Kwaipilot的工程團(tuán)隊(duì)重新設(shè)計(jì)了訓(xùn)練引擎與注意力內(nèi)核(attention kernel),并通過(guò)樹(shù)形梯度修復(fù)權(quán)重機(jī)制,將共享前綴的正反向計(jì)算合并,實(shí)現(xiàn)了在樹(shù)形軌跡上的高效訓(xùn)練。

實(shí)測(cè)數(shù)據(jù)顯示,這一技術(shù)方案令整體訓(xùn)練速度平均提升至原來(lái)的2.5倍,大幅提高了強(qiáng)化學(xué)習(xí)訓(xùn)練階段的吞吐效率。

強(qiáng)化學(xué)習(xí)的優(yōu)化核心在于策略梯度,而優(yōu)勢(shì)函數(shù)(Advantage Function)直接決定了每個(gè)樣本在參數(shù)更新中的影響力。傳統(tǒng)的GRPO算法僅基于組內(nèi)收益計(jì)算優(yōu)勢(shì)值,忽視了策略的探索性,容易使模型過(guò)早收斂到局部最優(yōu)。

針對(duì)這一問(wèn)題,Kwaipilot團(tuán)隊(duì)提出了基于熵的優(yōu)勢(shì)縮放方法。該方法在每個(gè)rollout樣本中引入策略熵(Policy Entropy)作為權(quán)重調(diào)節(jié)因子,對(duì)高熵樣本(探索性強(qiáng))放大優(yōu)勢(shì),對(duì)低熵樣本(確定性強(qiáng))適度抑制。

通過(guò)這一機(jī)制,模型在保持收斂效率的同時(shí),顯著增強(qiáng)了探索能力,實(shí)現(xiàn)了更優(yōu)的探索—利用平衡。

02.

自研工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架

在訓(xùn)練KAT-Dev-72B-Exp的過(guò)程中,快手還使用了自研的SeamlessFlow工業(yè)級(jí)強(qiáng)化學(xué)習(xí)框架,以支持復(fù)雜的強(qiáng)化學(xué)習(xí)場(chǎng)景??焓諯waipilot團(tuán)隊(duì)曾于今年8月發(fā)布SeamlessFlow的技術(shù)報(bào)告。具體來(lái)看,SeamlessFlow共有兩大創(chuàng)新點(diǎn)。

首先,SeamlessFlow引入了獨(dú)立的數(shù)據(jù)平面層,徹底解耦了RL訓(xùn)練和智能體實(shí)現(xiàn)。數(shù)據(jù)平面的核心是軌跡管理器(Trajectory Manager)。軌跡管理器在智能體與語(yǔ)言模型服務(wù)之間靜默記錄所有交互細(xì)節(jié),包括輸入輸出及多輪對(duì)話的分支結(jié)構(gòu),從而構(gòu)建完整的軌跡樹(shù)。

這一設(shè)計(jì)不僅避免重復(fù)計(jì)算、提升存儲(chǔ)效率,還支持精確的在線與離線策略區(qū)分。SeamlessFlow的另一組件是推理管理器(Rollout Manager),它實(shí)現(xiàn)了對(duì)模型更新與資源調(diào)度的無(wú)感控制,使得智能體無(wú)需適配訓(xùn)練框架即可實(shí)現(xiàn)任務(wù)的無(wú)縫暫停與恢復(fù),大幅提升了系統(tǒng)靈活性與訓(xùn)練效率。


▲數(shù)據(jù)平面的序列圖(圖源:Kwaipilot)

SeamlessFlow的另一關(guān)鍵創(chuàng)新是標(biāo)簽驅(qū)動(dòng)的資源調(diào)度范式,通過(guò)為計(jì)算資源賦予如“訓(xùn)練”或“推理”等能力標(biāo)簽,統(tǒng)一了集中式(Colocated)與分布式架構(gòu)(Disaggregated)的資源管理模式。

該系統(tǒng)支持時(shí)空復(fù)用機(jī)制,使得具備多標(biāo)簽的機(jī)器可根據(jù)任務(wù)需求動(dòng)態(tài)切換角色,從而將GPU閑置率降至5%以下,徹底緩解了傳統(tǒng)架構(gòu)中的流水線空閑問(wèn)題。

在實(shí)際工業(yè)場(chǎng)景的驗(yàn)證中,SeamlessFlow在多項(xiàng)任務(wù)中實(shí)現(xiàn)了顯著的吞吐量提升與擴(kuò)展性?xún)?yōu)勢(shì)。

使用32張H800 GPU進(jìn)行的對(duì)比測(cè)試顯示,相比主流的VERL框架,SeamlessFlow在單輪RL任務(wù)(8k token上下文)中實(shí)現(xiàn)了100%的吞吐量提升,整體訓(xùn)練時(shí)間減少62%。這個(gè)提升主要來(lái)自于數(shù)據(jù)平面的流式設(shè)計(jì)和計(jì)算資源空閑期的消除。


在更復(fù)雜的智能體RL場(chǎng)景中,SeamlessFlow的優(yōu)勢(shì)更加明顯。在最大生成長(zhǎng)度64K token的代碼任務(wù)中,SeamlessFlow的吞吐量提升平均提升至原來(lái)的1.55倍。


特別值得注意的是,當(dāng)集群規(guī)模從32塊GPU擴(kuò)展到64塊時(shí),SeamlessFlow的性能優(yōu)勢(shì)進(jìn)一步擴(kuò)大,展現(xiàn)出了可擴(kuò)展性。

03.

快手持續(xù)加碼開(kāi)源模型

在快手今年的多場(chǎng)財(cái)報(bào)電話會(huì)議中,AI已經(jīng)成為了繞不開(kāi)的話題。過(guò)去數(shù)月內(nèi),除了不斷更新視頻生成模型可靈之外,快手還開(kāi)源了多款覆蓋推理、編程、Embedding等領(lǐng)域的模型,并打造了能根據(jù)問(wèn)題難度自動(dòng)切換思考模式的KAT-V1自動(dòng)思考(AutoThink)大模型。

Kwaipilot團(tuán)隊(duì)透露,除了算法與架構(gòu)優(yōu)化,Kwaipilot還在構(gòu)建一套大規(guī)模數(shù)據(jù)環(huán)境管理系統(tǒng),徹底解耦訓(xùn)練數(shù)據(jù)、訓(xùn)練沙盒與訓(xùn)練框架。這樣的模塊化設(shè)計(jì),有望實(shí)現(xiàn)數(shù)據(jù)源的獨(dú)立擴(kuò)展、沙盒環(huán)境的安全隔離和訓(xùn)練框架的靈活切換。未來(lái),這一團(tuán)隊(duì)或?qū)⒔桓陡嘀档闷诖捻?xiàng)目。

編輯:成蘊(yùn)年

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專(zhuān)委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門(mén)、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
末代港督彭定康夫婦,帶3個(gè)漂亮女兒回英國(guó),29年過(guò)去今過(guò)得咋樣

末代港督彭定康夫婦,帶3個(gè)漂亮女兒回英國(guó),29年過(guò)去今過(guò)得咋樣

攬星河的筆記
2026-03-26 00:26:09
航班在美國(guó)發(fā)生事故后加拿大航空公司CEO僅用英語(yǔ)發(fā)表講話,加總理批:我非常失望

航班在美國(guó)發(fā)生事故后加拿大航空公司CEO僅用英語(yǔ)發(fā)表講話,加總理批:我非常失望

環(huán)球網(wǎng)資訊
2026-03-26 18:26:42
315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

315曝光10個(gè)最毒食黑名單!第8個(gè)你幾乎天天在吃,看完脊背發(fā)涼

現(xiàn)代小青青慕慕
2026-03-24 08:13:54
巴基斯坦外長(zhǎng)說(shuō)美伊正進(jìn)行間接談判

巴基斯坦外長(zhǎng)說(shuō)美伊正進(jìn)行間接談判

新華社
2026-03-26 18:55:07
伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長(zhǎng):以將美國(guó)推向沖突,沒(méi)有談判余地

伊朗發(fā)動(dòng)第81波行動(dòng),打擊以色列70多處目標(biāo)!內(nèi)塔尼亞胡:48小時(shí)內(nèi)盡可能多摧毀伊朗軍工設(shè)施;伊朗外長(zhǎng):以將美國(guó)推向沖突,沒(méi)有談判余地

每日經(jīng)濟(jì)新聞
2026-03-26 08:26:06
7000 家央國(guó)企春招,本科卻成廢紙?門(mén)檻高到離譜求職者徹底破防

7000 家央國(guó)企春招,本科卻成廢紙?門(mén)檻高到離譜求職者徹底破防

眼界看視野
2026-03-24 11:00:18
性商教母復(fù)出,周媛?lián)Q平臺(tái)直播,狡辯稱(chēng)沒(méi)有違法,火速被封

性商教母復(fù)出,周媛?lián)Q平臺(tái)直播,狡辯稱(chēng)沒(méi)有違法,火速被封

非常先生看娛樂(lè)
2026-03-26 16:57:03
他倆才是最牛岳父母,3個(gè)女兒全嫁百億富豪,一個(gè)比一個(gè)漂亮厲害

他倆才是最牛岳父母,3個(gè)女兒全嫁百億富豪,一個(gè)比一個(gè)漂亮厲害

白面書(shū)誏
2026-03-26 18:13:05
多個(gè)省級(jí)黨委組織部部長(zhǎng)調(diào)整

多個(gè)省級(jí)黨委組織部部長(zhǎng)調(diào)整

上觀新聞
2026-03-26 12:48:05
這才叫殺瘋了!爛番茄100%動(dòng)作神片,這不直接碾壓《鏢人》?

這才叫殺瘋了!爛番茄100%動(dòng)作神片,這不直接碾壓《鏢人》?

動(dòng)物奇奇怪怪
2026-03-26 17:48:01
國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
長(zhǎng)期靜養(yǎng)與每天鍛煉的人,誰(shuí)更長(zhǎng)壽?調(diào)查36383名老人,給出答案

長(zhǎng)期靜養(yǎng)與每天鍛煉的人,誰(shuí)更長(zhǎng)壽?調(diào)查36383名老人,給出答案

39健康網(wǎng)
2026-03-11 20:11:03
美國(guó)標(biāo)普500股指期貨、納斯達(dá)克100股指期貨均下跌0.4%

美國(guó)標(biāo)普500股指期貨、納斯達(dá)克100股指期貨均下跌0.4%

每日經(jīng)濟(jì)新聞
2026-03-26 16:14:04
長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷(xiāo)費(fèi)用

長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷(xiāo)費(fèi)用

紅星新聞
2026-03-26 11:28:05
越扒越有!張雪峰去世早有預(yù)兆,他的3個(gè)不良愛(ài)好,或成催命符

越扒越有!張雪峰去世早有預(yù)兆,他的3個(gè)不良愛(ài)好,或成催命符

潮鹿逐夢(mèng)
2026-03-26 11:24:44
塞爾維亞購(gòu)買(mǎi)中國(guó)超音速導(dǎo)彈?國(guó)防部:正常軍貿(mào)合作,不針對(duì)第三方

塞爾維亞購(gòu)買(mǎi)中國(guó)超音速導(dǎo)彈?國(guó)防部:正常軍貿(mào)合作,不針對(duì)第三方

澎湃新聞
2026-03-26 17:24:26
戲都沒(méi)演明白還當(dāng)評(píng)委,自己都沒(méi)拿過(guò)獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

戲都沒(méi)演明白還當(dāng)評(píng)委,自己都沒(méi)拿過(guò)獎(jiǎng),坐在評(píng)審團(tuán)位置不心虛嗎

娛樂(lè)圈筆娛君
2026-03-25 10:46:06
成都“牽手門(mén)”事件女主現(xiàn)今狀況曝光,太慘了......

成都“牽手門(mén)”事件女主現(xiàn)今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
伊朗伊斯蘭革命衛(wèi)隊(duì)責(zé)令一艘擅自通過(guò)霍爾木茲海峽船只返航

伊朗伊斯蘭革命衛(wèi)隊(duì)責(zé)令一艘擅自通過(guò)霍爾木茲海峽船只返航

財(cái)聯(lián)社
2026-03-25 02:02:18
2004年,章子怡為了贏得霍啟山的真心,主動(dòng)承擔(dān)戀愛(ài)期間所有開(kāi)銷(xiāo)

2004年,章子怡為了贏得霍啟山的真心,主動(dòng)承擔(dān)戀愛(ài)期間所有開(kāi)銷(xiāo)

草莓解說(shuō)體育
2026-03-27 04:11:06
2026-03-27 05:03:00
wisemodel開(kāi)源社區(qū) incentive-icons
wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣(mài)大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱(chēng)姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車(chē)要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
數(shù)碼
教育
時(shí)尚
軍事航空

藝術(shù)要聞

北京大興機(jī)場(chǎng)和青島膠東機(jī)場(chǎng)“撞臉”,長(zhǎng)得像就是抄襲?

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專(zhuān)業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

教育要聞

2026年高考可能“扎堆報(bào)考”的五大專(zhuān)業(yè):就業(yè)缺口大,穩(wěn)定且高薪

400萬(wàn)人愛(ài)過(guò)的女孩,被黃謠網(wǎng)暴180天后

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版