国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒和楊植麟,第四次撞車

0
分享至



二人為何都瞄準(zhǔn)了視覺理解?

文|《中國(guó)企業(yè)家》見習(xí)記者 孫欣

記者 王怡潔

見習(xí)編輯|李原編輯|何伊凡

頭圖來源|視覺中國(guó)

這已經(jīng)是2025年以來的第4次,DeepSeek創(chuàng)始人梁文鋒和月之暗面創(chuàng)始人楊植麟在技術(shù)路線上精準(zhǔn)“撞車”。

1月27日,月之暗面發(fā)布并開源新模型Kimi K2.5,該模型由K2和K2-Thinking并存演進(jìn)而來。在官方視頻里,楊植麟將其形容為“全能模型”,視覺理解、代碼、多模態(tài)、思考與非思考模式、Agent及Agent集群能力,都被封裝進(jìn)了同一個(gè)模型中。

除了代碼能力極大提升之外,K2.5的一大亮點(diǎn)在于“視覺理解能力”的極大增強(qiáng),可分析用戶上傳的圖片、視頻,并據(jù)此編程或解答問題。

無獨(dú)有偶,K2.5發(fā)布的同日,DeepSeek也上線了新一代模型OCR-2。該模型同樣在視覺理解上取得重大突破,解決方法更另辟蹊徑。DeepSeek創(chuàng)新了“視覺因果流”機(jī)制,不再需要按照固定順序掃描圖片,而是能像人一樣,根據(jù)圖像內(nèi)容的語(yǔ)義和邏輯,動(dòng)態(tài)調(diào)整閱讀順序。

屢屢在同一條技術(shù)路線上探索,又?jǐn)?shù)次同日發(fā)布成果,梁文鋒與楊植麟的心有靈犀已經(jīng)很難用偶然來解釋,他們二人又為何不約而同地瞄準(zhǔn)了視覺理解這座山峰?

四次“撞車”

實(shí)際上,梁文鋒和楊植麟模型產(chǎn)品、論文總是選擇同期發(fā)布,并非因?yàn)椤皟?nèi)卷”。拆解二人的成果會(huì)發(fā)現(xiàn),他們?cè)陉P(guān)鍵技術(shù)路線上“和而不同”的創(chuàng)新,背后是對(duì)大模型和產(chǎn)業(yè)痛點(diǎn)的相似判斷。

2025年1月20日,DeepSeek-R1上線后火速破圈。Kimi 1.5也緊隨其后發(fā)布,且同樣采用了“基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)”路線。

2025年2月18日,梁文鋒和楊植麟前后腳發(fā)表了關(guān)于注意力架構(gòu)的最新論文,聚焦于解決Transformer注意力機(jī)制下,長(zhǎng)上下文處理效率低下、算力消耗過高的行業(yè)痛點(diǎn)。

其中,梁文鋒作為共同作者,提出了DeepSeek-NSA(原生稀疏注意力)架構(gòu),通過分層壓縮、關(guān)鍵令牌選擇與滑動(dòng)窗口結(jié)合的策略,大幅降低了長(zhǎng)上下文處理的算力消耗。

同日,楊植麟也作為論文共同作者,提出了MoBA(混合塊注意力)架構(gòu),并與NSA選擇了不同的優(yōu)化路徑——基于專家混合(MoE)原理,通過分塊處理與動(dòng)態(tài)門控機(jī)制,讓模型自主實(shí)現(xiàn)全注意力與稀疏注意力的切換。

只不過,NSA更側(cè)重硬件層面的優(yōu)化,MoBA則傾向于在Transformer框架內(nèi)做靈活創(chuàng)新。雖路徑不同,但二人的核心目標(biāo)一致:解決效率瓶頸,讓模型在復(fù)雜任務(wù)中更具實(shí)用性。

2025年4月,DeepSeek發(fā)布數(shù)學(xué)推理模型DeepSeek-Prover-V2。通過子目標(biāo)分解的強(qiáng)化學(xué)習(xí)推進(jìn)定理證明,讓模型能夠“自驗(yàn)證”推理過程的合理性,幾乎同期,月之暗面也上線了數(shù)學(xué)推理專項(xiàng)模型,同樣采用了“自驗(yàn)證”核心方式,大幅提升了定理證明的穩(wěn)定性與準(zhǔn)確性。


來源:AI生成

這一次“撞車”源于,彼時(shí)AI深度推理還是行業(yè)的技術(shù)難點(diǎn)。而數(shù)學(xué)推理作為核心場(chǎng)景,直接關(guān)系到大模型在科研、金融、工程等領(lǐng)域的落地能力,二人同時(shí)聚焦這一方向,背后是對(duì)驗(yàn)證AI落地價(jià)值的一致探索。

而最近的一次同臺(tái)競(jìng)技,DeepSeek的OCR-2和月之暗面的K2.5又不約而同地瞄準(zhǔn)了視覺理解。這一次同樣絕非巧合。

數(shù)月前,《中國(guó)企業(yè)家》從相關(guān)人士處了解到,DeepSeek和月暗一直在圍繞誰(shuí)能先做出具備前沿能力的視覺語(yǔ)言模型,讓大模型不再成為“聰明的瞎子”而暗自較勁。

結(jié)合2025年7月SuperCLUE發(fā)布的多模態(tài)測(cè)評(píng)報(bào)告,或可找到二人攻堅(jiān)視覺語(yǔ)言模型的答案。

報(bào)告指出,視覺語(yǔ)言模型正普遍面臨三大痛點(diǎn):1.專業(yè)領(lǐng)域知識(shí)欠缺,特別是在醫(yī)療影像分析、工業(yè)應(yīng)用等專業(yè)領(lǐng)域得分較低。2.復(fù)雜場(chǎng)景適應(yīng)不足,在自動(dòng)駕駛、空間推理等任務(wù)中表現(xiàn)較差。3.多模態(tài)融合深度不夠,圖文不一致情況下,判斷準(zhǔn)確率不足65%。

由此可見,視覺理解是大模型從“語(yǔ)言交互”走向“全場(chǎng)景交互”的必經(jīng)之路,也已成為制約模型商業(yè)化落地的瓶頸。梁文鋒與楊植麟同時(shí)聚焦這一領(lǐng)域,源于對(duì)行業(yè)痛點(diǎn)的相似洞察——誰(shuí)能率先突破,就能在多模態(tài)商業(yè)化競(jìng)爭(zhēng)中占據(jù)主動(dòng)。

如何翻越視覺理解高山?

實(shí)際上,在大語(yǔ)言模型層面,國(guó)內(nèi)模型正在與海外模型日益拉近距離。但業(yè)內(nèi)人士對(duì)《中國(guó)企業(yè)家》表示,在視覺理解層面,海外被稱為“御三家”的Google Gemini、OpenAI GPT 5.2和Claude已“卷”到下一階段,國(guó)內(nèi)大模型則還處于追趕和“補(bǔ)課”階段。

例如,數(shù)月前網(wǎng)絡(luò)上曾讓大模型做識(shí)別車型的測(cè)試。特斯拉被車主自貼了一個(gè)小米標(biāo)志,不少大模型將其認(rèn)錯(cuò)。“這說明綜合視覺信息,當(dāng)前對(duì)多模態(tài)模型依舊有困難?!鼻笆鋈耸空f。

此次發(fā)布中,楊植麟在視頻中演示了一段視頻,K2.5通過識(shí)別圖片或者視頻,復(fù)刻出一個(gè)網(wǎng)址的功能。此前國(guó)內(nèi)大模型更多需要借助語(yǔ)言、指令來實(shí)現(xiàn)?!靶枰_地告訴模型,左上角是個(gè)按鈕,需求都要用指令來描述?!?/p>

“一圖勝千言?!笨萍疾┲骱@攲?duì)《中國(guó)企業(yè)家》說。大部分情況下,用戶很難用文字一次性描述出自己想要編出的前端界面,視覺理解核心意義在于讓大模型從“讀文字”升級(jí)為“懂信息、用信息。”

K2.5是月暗在視覺理解上交出的第一份答卷。團(tuán)隊(duì)讓原生的多模態(tài)架構(gòu)設(shè)計(jì)與大規(guī)模視覺文本進(jìn)行聯(lián)合預(yù)訓(xùn)練,采用了約15萬(wàn)億個(gè)Token持續(xù)訓(xùn)練。在這個(gè)基礎(chǔ)底座之上,構(gòu)建Visual Agentic Intelligence(視覺智能體智能)系統(tǒng)。簡(jiǎn)而言之,K2.5從視覺理解編碼入手,分解Agent任務(wù),增強(qiáng)Coding能力。

接近月之暗面的人士告訴《中國(guó)企業(yè)家》,訓(xùn)練中最現(xiàn)實(shí)的困難在于多模態(tài)數(shù)據(jù)的匱乏,以及對(duì)數(shù)據(jù)的處理。“普通人每天拍的照片對(duì)模型來說沒什么用。需要高質(zhì)量的數(shù)據(jù),才能讓模型學(xué)到東西。像維基百科,也只是中等質(zhì)量的數(shù)據(jù)?!?/p>

此外,月之暗面在K2.5中也再次堅(jiān)持了對(duì)“技術(shù)品味”的追求,“如果你希望模型更加浪漫,精通軟件的UI界面、美學(xué)設(shè)計(jì),你該給它匹配什么樣的數(shù)據(jù),這都需要對(duì)世界有更多審美認(rèn)知?!鼻笆鋈耸空f。


來源:官網(wǎng)截圖

1月29日凌晨,月之暗面團(tuán)隊(duì)在Reddit上回答了網(wǎng)友問題,楊植麟表示:“模型的核心在于品味,因?yàn)橹悄鼙旧硎欠峭|(zhì)化的(non-fungible)?!?/p>

海拉魯評(píng)價(jià)道,Kimi是國(guó)內(nèi)編程不錯(cuò)的模型里面第一家真正“開眼”的。AI從業(yè)者徐再世也表示:K2.5與其他多模態(tài)模型最大的區(qū)別在于,把視覺和編程、Agent能力結(jié)合得更緊密,這降低了開發(fā)門檻,讓非程序員靠截圖錄屏也能做出原型。

除了前端設(shè)計(jì),伴隨K2.5,Kimi還推出了Kimi Code,可以在終端里直接運(yùn)行,也能集成到 VSCode、Cursor等主流編輯器中。簡(jiǎn)單來說,K2.5可以自動(dòng)發(fā)現(xiàn)用戶的編程過程,并將用戶現(xiàn)有的Skills(給AI Agent使用的技能包)遷移到新的工作流中。

相對(duì)于K2.5側(cè)重在工程化層面解決問題,DeepSeek在視覺技術(shù)源頭做出了更多創(chuàng)新。

傳統(tǒng)的視覺語(yǔ)言模型(VLM)在掃描圖片時(shí),通常是固定地從左到右、從上到下。但人類在理解圖片時(shí),會(huì)代入自身的語(yǔ)義順序和取舍,如先看標(biāo)題,再看正文。

OCR-2也模仿了人類的邏輯,其替換了原本的CLIP編碼器,引入了全新的視覺編碼器DeepEncoder V2。該架構(gòu)打破了固定順序(從左上到右下)掃描圖像的限制,而是模仿人類視覺的“因果流(Causal Flow)”邏輯。

從這個(gè)維度上看,DeepSeek和月之暗面雖然都在補(bǔ)齊視覺理解的短板,但二者的創(chuàng)新點(diǎn)發(fā)生在不同環(huán)節(jié)。K2.5是基于多模態(tài)模型提升工程化性能,更靠近商業(yè)落地側(cè);而DeepSeek更側(cè)重追溯到技術(shù)源頭,進(jìn)行創(chuàng)新。

集群重新定義Agent

除了視覺理解,此次K2.5的Agent集群功能也獲得了不少業(yè)內(nèi)人士的稱道。

徐再世在做大語(yǔ)言模型預(yù)訓(xùn)練的工作,他看到,Anthropic的Claude Opus在編程場(chǎng)景上表現(xiàn)突出,一個(gè)原因就是它很擅長(zhǎng)通過工具調(diào)用來執(zhí)行任務(wù)。但很多語(yǔ)言模型在工具調(diào)用中,出錯(cuò)概率很高。而K2.5引入的Agent Swarm(智能體集群)架構(gòu),從單一Agent進(jìn)化到Agent集群,意味著模型能力的關(guān)鍵提升。

在楊植麟對(duì)Agent集群的介紹中,K2.5不再是一個(gè)單打獨(dú)斗包攬一切的智能體,而是一支即時(shí)組建的“智能體團(tuán)隊(duì)”。即當(dāng)任務(wù)下達(dá)時(shí),主Agent能夠生出上百個(gè)“子Agent”,由主Agent支配。相較于單智能體模式,其任務(wù)執(zhí)行效率提升最高達(dá)4.5倍。

月暗團(tuán)隊(duì)演示了一段視頻,他們給Kimi Agent集群投喂了40篇關(guān)于心理學(xué)和AI的論文。K2.5先是通過多次調(diào)用工具,按順序把論文通讀一遍;隨后,其衍生出數(shù)個(gè)子Agent負(fù)責(zé)不同章節(jié)撰寫。最后,成果由主Agent負(fù)責(zé)把關(guān)驗(yàn)收,將所有內(nèi)容匯總成一份長(zhǎng)達(dá)幾十頁(yè)的PDF綜述。


來源:AI生成

要實(shí)現(xiàn)上百個(gè)Agent并發(fā)運(yùn)行并非易事,平衡調(diào)度器便是一大難點(diǎn):在訓(xùn)練初期,子Agent可能會(huì)因協(xié)同失敗而放棄并行策略。而月暗團(tuán)隊(duì)采用了PARL (并行智能體強(qiáng)化學(xué)習(xí)) 的訓(xùn)練方法,團(tuán)隊(duì)通過分階段獎(jiǎng)勵(lì),引導(dǎo)模型建立穩(wěn)定偏好。

此外,當(dāng)100個(gè)Agent同時(shí)工作,通信、算力都將產(chǎn)生巨大負(fù)載,Agent之間可能會(huì)信息復(fù)讀、相互干擾,效率可能會(huì)低于單體模型。團(tuán)隊(duì)需要讓模型學(xué)習(xí)如何自主通信,并動(dòng)態(tài)調(diào)整智能體數(shù)量和資源分配。

據(jù)《中國(guó)企業(yè)家》了解,K2.5整個(gè)Agent集群由K2.5模型全自動(dòng)創(chuàng)建與協(xié)調(diào),用戶無需對(duì)子智能體或工作流進(jìn)行預(yù)先定義。即便某個(gè)子智能體失敗,主Agent也能迅速感知并重新調(diào)度。

徐再世解釋道,無需預(yù)定義意味著K2.5的Agent集群是動(dòng)態(tài)分工,模型自己會(huì)決定這個(gè)任務(wù)需要什么角色,自動(dòng)創(chuàng)建子Agent并行工作。

1月29日,在解答網(wǎng)友詢問K2.5的“智能體蜂群”在運(yùn)行100個(gè)并行推理流時(shí),如何解決延遲和上下文信息丟失問題時(shí),月之暗面聯(lián)創(chuàng)吳育昕表示:K2.5的各個(gè)子智囊團(tuán)可以在不“腐蝕”或污染主調(diào)度器上下文的情況下獨(dú)立執(zhí)行子任務(wù),即子Agent本質(zhì)上擁有各自的工作記憶,只在必要時(shí)將結(jié)果返回給調(diào)度器。

“從K2開始,月暗團(tuán)隊(duì)每一步都走得很扎實(shí)穩(wěn)重?!彪m然徐再世認(rèn)為,月暗的產(chǎn)品形態(tài)還需要時(shí)間打磨。但從長(zhǎng)遠(yuǎn)來看,Agent集群技術(shù)的突破有著重大價(jià)值。“這意味著未來的智能體將無需人工設(shè)計(jì)工作流,真正實(shí)現(xiàn)人力的解放?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個(gè)真的好炸裂好真實(shí)

帶你感受人間冷暖
2026-02-17 01:00:24
俄軍已經(jīng)動(dòng)了,中國(guó)幫不幫伊朗?中方三句話,沒一句是美國(guó)想聽的

俄軍已經(jīng)動(dòng)了,中國(guó)幫不幫伊朗?中方三句話,沒一句是美國(guó)想聽的

墨蘭史書
2026-02-27 18:42:48
頂風(fēng)作案!上海警方:大學(xué)生湯某,刑拘!已干了50多次……

頂風(fēng)作案!上海警方:大學(xué)生湯某,刑拘!已干了50多次……

環(huán)球網(wǎng)資訊
2026-02-27 07:24:21
朝鮮閱兵式現(xiàn)場(chǎng)大將僅剩5人!戰(zhàn)略軍直接被裁?

朝鮮閱兵式現(xiàn)場(chǎng)大將僅剩5人!戰(zhàn)略軍直接被裁?

IN朝鮮
2026-02-28 10:45:32
2.28日早評(píng)|盡快撤離!黃金大消息!下周要炸了!

2.28日早評(píng)|盡快撤離!黃金大消息!下周要炸了!

龍行天下虎
2026-02-28 09:10:39
俄羅斯駐華大使館微博,27日深夜發(fā)文稱:中國(guó)網(wǎng)友誤會(huì)我們了!

俄羅斯駐華大使館微博,27日深夜發(fā)文稱:中國(guó)網(wǎng)友誤會(huì)我們了!

消失的電波
2026-02-28 08:43:31
中國(guó)不當(dāng)冤大頭了!中科院停付國(guó)際期刊發(fā)表費(fèi),老外專家也急了

中國(guó)不當(dāng)冤大頭了!中科院停付國(guó)際期刊發(fā)表費(fèi),老外專家也急了

青青子衿
2026-02-27 20:32:03
又一個(gè)大間諜落網(wǎng)了,國(guó)安部在雪地里埋伏了七天六夜

又一個(gè)大間諜落網(wǎng)了,國(guó)安部在雪地里埋伏了七天六夜

賤議你讀史
2026-02-28 10:25:03
16:00,中國(guó)男籃vs中國(guó)臺(tái)北!贏10分=升小組前二,首發(fā)面臨調(diào)整

16:00,中國(guó)男籃vs中國(guó)臺(tái)北!贏10分=升小組前二,首發(fā)面臨調(diào)整

侃球熊弟
2026-02-28 00:05:03
《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

小丸子的娛樂圈
2026-02-27 17:57:58
爆冷!國(guó)乒世界冠軍不敵法國(guó)新星,四強(qiáng)僅剩一席

爆冷!國(guó)乒世界冠軍不敵法國(guó)新星,四強(qiáng)僅剩一席

郭夷包工頭
2026-02-28 14:20:45
中領(lǐng)館提醒: 18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

中領(lǐng)館提醒: 18-65歲在俄長(zhǎng)期居留男性 須同意在俄軍事單位等至少服役1年

閃電新聞
2026-02-26 12:46:48
方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

方媛曬3胎女兒滿月禮!金鎖玉鐲多到放不下,3500的嬰兒車不算貴

小娛樂悠悠
2026-02-28 11:02:55
正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

不期而遇的緣分
2026-02-28 13:28:37
保住聯(lián)盟第一!活塞加時(shí)險(xiǎn)勝無哈登騎士 杜倫33+16三人6犯

保住聯(lián)盟第一!活塞加時(shí)險(xiǎn)勝無哈登騎士 杜倫33+16三人6犯

醉臥浮生
2026-02-28 11:33:18
比爾·蓋茨婚外情人照片曝光:與俄羅斯橋牌選手首次合影出現(xiàn)在2010年

比爾·蓋茨婚外情人照片曝光:與俄羅斯橋牌選手首次合影出現(xiàn)在2010年

臺(tái)州交通廣播
2026-02-28 00:52:28
黃金、白銀、石油直線大漲!

黃金、白銀、石油直線大漲!

吉刻新聞
2026-02-28 13:24:57
兒子3年前來杭州當(dāng)暑假工跑外賣,租電動(dòng)車3年沒還欠下2萬(wàn)多元!爸爸急了:平臺(tái)一直自動(dòng)續(xù)租,如何解決?

兒子3年前來杭州當(dāng)暑假工跑外賣,租電動(dòng)車3年沒還欠下2萬(wàn)多元!爸爸急了:平臺(tái)一直自動(dòng)續(xù)租,如何解決?

都市快報(bào)橙柿互動(dòng)
2026-02-28 09:28:18
21歲男子想花200和女騎手發(fā)生關(guān)系,被警察找上門后:我給你跪下

21歲男子想花200和女騎手發(fā)生關(guān)系,被警察找上門后:我給你跪下

社會(huì)醬
2026-02-27 17:37:31
突然被扣費(fèi),連續(xù)數(shù)月不知情! 上海已有多人遭遇! 快查, 你的錢有沒有"消失"?

突然被扣費(fèi),連續(xù)數(shù)月不知情! 上海已有多人遭遇! 快查, 你的錢有沒有"消失"?

新浪財(cái)經(jīng)
2026-02-27 17:11:04
2026-02-28 17:40:49
中國(guó)企業(yè)家雜志 incentive-icons
中國(guó)企業(yè)家雜志
本賬號(hào)由《中國(guó)企業(yè)家》雜志社有限責(zé)任公司運(yùn)營(yíng)
3019文章數(shù) 19878關(guān)注度
往期回顧 全部

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

頭條要聞

美以襲擊伊朗 華人緊急逃離德黑蘭:沒想到來得這么快

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂要聞

疑似王一博被爆私密聊天記錄

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
親子
旅游
家居

房產(chǎn)要聞

濱江九小也來了!集齊海僑北+哈羅、寰島...江東教育要炸了!

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

親子要聞

12歲之前要瘋狂刺激前庭覺,每天堅(jiān)持鍛煉,越玩越專注,越聰明!#兒童運(yùn)動(dòng) #身高管理 #感統(tǒng)訓(xùn)練 #...

旅游要聞

2026年柳州龍王出游,即將登場(chǎng)!時(shí)間、路線定了!重要提醒→

家居要聞

素色肌理 品意式格調(diào)

無障礙瀏覽 進(jìn)入關(guān)懷版