国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

總理座談會(huì)上的兩位年輕人,先后交出“萬億答卷”

0
分享至

DeepSeek V4昨天終于發(fā)布了。

V4模型擁有1.6萬億參數(shù),100萬token上下文,再次刷新了開源模型的記錄。從春節(jié)開始被大家調(diào)侃了三個(gè)月的“下周一定”,終于一錘定音。

但我們翻完V4近60頁的技術(shù)文檔,突然反應(yīng)過來一件事。這已經(jīng)是本周第二個(gè)中國萬億開源模型了。

周一,Kimi K2.6剛剛開源。萬億參數(shù)MoE模型,支持300個(gè)子Agent協(xié)同,OpenRouter調(diào)用量直接沖到全球第一。

同一周,兩個(gè)萬億參數(shù)中國開源模型先后落地。

再看V4文檔里明確寫著的Muon優(yōu)化器,正是月之暗面去年在Kimi K2中率先驗(yàn)證的技術(shù)。而K2.6底層架構(gòu)采用的MLA注意力機(jī)制,來自DeepSeek。

而這兩家公司的創(chuàng)始人,楊植麟和梁文鋒,在過去14個(gè)月里先后走進(jìn)了國務(wù)院總理李強(qiáng)的座談會(huì)現(xiàn)場(chǎng)。一個(gè)33歲,一個(gè)40歲。而這兩個(gè)人,都來自廣東。

當(dāng)“人工智能+”成為國家戰(zhàn)略,兩個(gè)廣東年輕人正在交出高度同步的答卷。



兩個(gè)廣東年輕人,先后坐到了總理對(duì)面

4月10日下午,李強(qiáng)總理主持召開經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)。8位受邀代表中,有7位是長期參與宏觀政策討論的經(jīng)濟(jì)學(xué)者和央國企代表,另一位是全場(chǎng)唯一的90后,月之暗面創(chuàng)始人楊植麟。

李強(qiáng)在會(huì)上明確提出,“深化拓展‘人工智能+’,加快制造業(yè)數(shù)智化轉(zhuǎn)型”。對(duì)于一家做基礎(chǔ)大模型的公司來說,這句話既是方向,也是命題。10天后,Kimi K2.6開源。又過4天,DeepSeek V4上線。

更耐人尋味的,是14個(gè)月前的另一次對(duì)話。

2025年1月20日,李強(qiáng)召開過一場(chǎng)同級(jí)別的座談會(huì)。那天坐在9位發(fā)言代表中的,是深度求索創(chuàng)始人梁文鋒。當(dāng)晚,DeepSeek開源了推理模型R1,引發(fā)全球熱議,被西方媒體稱為AI界的“斯普特尼克時(shí)刻”。

同一天,月之暗面發(fā)布了對(duì)標(biāo)OpenAI o1的k1.5。兩家公司從這一天起,不約而同站到了同一條賽道上。



14個(gè)月,兩場(chǎng)座談會(huì),兩位AI創(chuàng)業(yè)者先后坐到總理對(duì)面。

楊植麟1992年生于廣東汕頭,保送清華,CMU博士,師從蘋果AI研究負(fù)責(zé)人和DeepMind首席科學(xué)家。到2024年春節(jié),公司估值已突破25億美元。

梁文鋒1985年生于廣東湛江吳川,父親是小學(xué)老師。吳川一中高考狀元,浙大碩士。2015年創(chuàng)辦幻方量化,四年后管理規(guī)模突破100億,2021年突破1000億??拷灰踪崄淼腻X,他一直在悄悄買算力——2021年“螢火二號(hào)”搭載了約1萬張英偉達(dá)A100,那時(shí)候國內(nèi)擁有超過1萬枚GPU的公司不超過5家。

一個(gè)從潮汕走進(jìn)國際頂級(jí)實(shí)驗(yàn)室,一個(gè)從粵西打進(jìn)算力牌桌。出發(fā)點(diǎn)天差地別,卻在同一個(gè)房間里先后給出了“萬億答卷”。

梁文鋒說過一句話:“中國必然需要有人站到技術(shù)的前沿?!爆F(xiàn)在,這句話多了一個(gè)廣東版本的注腳。



頂尖玩家總在同一個(gè)山口相遇

回看過去15個(gè)月,DeepSeek和Kimi的技術(shù)方向和發(fā)布時(shí)機(jī),對(duì)齊到讓人懷疑是約好的。

2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模態(tài)思考模型同日上線,相隔僅兩小時(shí)。OpenAI的論文也指出,這兩家是最早復(fù)現(xiàn)o1思維鏈的團(tuán)隊(duì)。

2025年2月,兩家前后腳發(fā)論文,都在改造Transformer注意力機(jī)制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合塊注意力。

2026年4月,萬億開源模型Kimi K2.6和DeepSeek V4同周上線。

三次標(biāo)志性的同步,方向出奇一致。

除此之外,讓海外技術(shù)圈真正感到震動(dòng)的還有一件事。今年3月,Kimi放出了「注意力殘差」技術(shù),將Transformer的核心原理「注意力」應(yīng)用到殘差連接上,在海外技術(shù)社區(qū)引發(fā)了廣泛關(guān)注和激烈討論。一家中國創(chuàng)業(yè)公司在動(dòng)Transformer的地基,這件事本身就足夠讓硅谷技術(shù)圈緊張起來。

但更有意思的,是表面之下的技術(shù)交織。



你用我驗(yàn)過的注意力,我用你驗(yàn)過的優(yōu)化器

把Kimi K2.6和DeepSeek V4的官方技術(shù)文檔擺在一起,會(huì)發(fā)現(xiàn)一張近乎疊影的圖譜。

先看Kimi K2.6,這款模型總參數(shù)1萬億,激活32B,384個(gè)專家,256K上下文窗口。技術(shù)路線上沿用了MLA注意力機(jī)制,使用了一款名為MuonClip的二階優(yōu)化器,并引入了可伸縮至300個(gè)子智能體、4000步協(xié)同的Agent Swarm能力。

這樣的智能體集群能力使得其可以做到讓一個(gè)金融撮合引擎在13小時(shí)內(nèi)被自主重構(gòu),代碼改動(dòng)超過4000行。

而剛發(fā)布的DeepSeek V4是一款總參數(shù)1.6萬億,激活49B的開源模型,上下文窗口一次推到100萬token。為了實(shí)現(xiàn)百萬Token的上下文,技術(shù)文檔明確提到采用Muon優(yōu)化器,推理算力降到V3.2的27%,KV緩存只剩十分之一。

兩份技術(shù)文檔上的名詞,各有各的來歷,但逐項(xiàng)對(duì)照下來,會(huì)發(fā)現(xiàn)它們之間已經(jīng)不是簡(jiǎn)單的借鑒,而是交織。

深度求索在2024年5月發(fā)布V2時(shí)首次公開MLA后,后續(xù)在2025年初的V3/R1模型上繼續(xù)優(yōu)化,成為了主流的技術(shù)路線。2025年7月,月之暗面也選擇MLA作為K2系列的注意力機(jī)制。

Muon的出現(xiàn)則是另一個(gè)故事。美國研究員Keller Jordan在2024年底一篇博客里提出這個(gè)優(yōu)化器后,月之暗面2025年2月發(fā)表《Muon is Scalable for LLM Training》,第一次在大模型訓(xùn)練規(guī)模上把它穩(wěn)定下來,并做出了一個(gè)更穩(wěn)健的變種MuonClip,率先在Kimi K2中規(guī)?;瘧?yīng)用。

一年之后,DeepSeek在V4技術(shù)報(bào)告里寫下那句:"We employ the Muon optimizer for faster convergence and greater training stability."

一項(xiàng)技術(shù)創(chuàng)新從深度求索流向月之暗面,另一項(xiàng)又從月之暗面流向深度求索,兩家公司是在彼此驗(yàn)證過的技術(shù)節(jié)點(diǎn)上,輪番向前踩一步。

同一張圖譜里也有分岔。

DeepSeek V4設(shè)計(jì)了CSA(壓縮稀疏注意力)和HCA(重壓縮注意力)交替堆疊,核心假設(shè)是長序列中大部分KV條目對(duì)當(dāng)前query貢獻(xiàn)極小,可以安全跳過。Kimi下一代模型探索線性注意力,核心假設(shè)是注意力計(jì)算本身可以被重新表述為線性形式,把復(fù)雜度從序列長度的平方降到線性。

一個(gè)在篩選哪些token值得看,一個(gè)在改寫“看”這個(gè)動(dòng)作本身的計(jì)算規(guī)則。殊途同歸,都在往Transformer最要命的成本結(jié)構(gòu)里動(dòng)刀。

過去十年,中國AI的技術(shù)飛輪一直轉(zhuǎn)在美國。OpenAI發(fā)了新論文,中國公司跟著復(fù)現(xiàn);Meta開源了新模型,中國公司拿來微調(diào)。

這一次,一家中國公司驗(yàn)過的技術(shù)節(jié)點(diǎn),被另一家中國公司接手,再往前踩一步。中國AI的競(jìng)爭(zhēng),正在從“單點(diǎn)爆款”進(jìn)化成“生態(tài)接力”。



硅谷有些公司,已經(jīng)開始把底座換成中國模型

中國AI的故事,到這里還只是內(nèi)部故事。

但今年開春以來,硅谷的發(fā)布會(huì)PPT上,出現(xiàn)了一個(gè)讓人意外的變化。

2026年3月,英偉達(dá)GTC 2026在美國圣何塞召開。黃仁勛展示下一代Rubin機(jī)柜性能的PPT上,訓(xùn)練基準(zhǔn)用的是DeepSeek,推理吞吐和token成本基準(zhǔn)用的是Kimi K2-Thinking。同一張PPT,兩個(gè)中國開源模型。

同期GTC官方博客介紹新一代DGX Station時(shí),明確列出了這臺(tái)工作站支持的前沿開源模型清單,兩款中國模型分別是Kimi K2.5和DeepSeek V3.2。那幾天,楊植麟作為唯一一位來自獨(dú)立大模型創(chuàng)業(yè)公司的中國嘉賓,在GTC現(xiàn)場(chǎng)做了一場(chǎng)演講。

同一個(gè)月更戲劇的事發(fā)生在Cursor身上。

2026年3月19日,估值約500億美元、被視為硅谷AI編程頭號(hào)玩家的Cursor,發(fā)布了新一代旗艦?zāi)P虲omposer 2,對(duì)外宣稱“自研”。不到一天,開發(fā)者在API日志中截下了請(qǐng)求,發(fā)現(xiàn)模型ID字段赫然寫著一串字符:"kimi-k2p5-rl-0317-s515-fast"。

馬斯克親自在帖子下留言:"Yeah, it's Kimi 2.5."

Cursor聯(lián)合創(chuàng)始人Aman Sanger事后承認(rèn),他們把市面上能拿到的基座模型跑了一遍,Kimi K2.5得分最高。在Cursor后來放出的技術(shù)報(bào)告中,這個(gè)候選名單里只有GLM5、Kimi K2.5和DeepSeek V3.2——沒有Claude,沒有Gemini,沒有GPT。更關(guān)鍵的是,基于Kimi K2.5微調(diào)出來的Composer 2,在CursorBench上直接超過了Claude Opus 4.6。



一家年化收入超過20億美元、被稱作“硅谷AI編程之王”的美國公司,選擇清單里原本有Claude、有Gemini、有GPT,但引以為傲的旗艦?zāi)P?,底子是一家中國公司的開源基座。

幾乎同一時(shí)期,日本樂天集團(tuán)發(fā)布旗艦大模型Rakuten AI 3.0,7000億參數(shù),日本經(jīng)濟(jì)產(chǎn)業(yè)省資助,官方宣傳為“日本自研”。開發(fā)者很快扒出,Hugging Face頁面上帶有deepseek_v3標(biāo)簽,關(guān)鍵結(jié)構(gòu)參數(shù)幾乎和DeepSeek V3一致,被廣泛視作基于DeepSeek V3的再訓(xùn)練版本。

Meta也給了一次背書。發(fā)布Muse Spark時(shí),代碼困惑度對(duì)比圖里用來對(duì)標(biāo)的外部模型,是Llama 4 Maverick、DeepSeek-V3.1 Base和Kimi-K2 Base。

最硬的數(shù)據(jù)來自O(shè)penRouter。這個(gè)平臺(tái)被業(yè)界視作全球AI大模型API調(diào)用的公共路口。據(jù)其公共榜單統(tǒng)計(jì),到2026年一季度,中國開源大模型在該平臺(tái)的周Token調(diào)用量占比,已從2024年底的個(gè)位數(shù)上升到60%以上。截至今天,OpenRouter調(diào)用量前三中,兩個(gè)是中國模型,而他們正是Kimi和DeepSeek。

從黃仁勛的發(fā)布會(huì)PPT,到硅谷頭部應(yīng)用的底座模型,再到日本大廠“自研”的底子,“Kimi”和“DeepSeek”這兩個(gè)名字,在全球越來越常見。



從追硅谷,到硅谷回頭看中國

“加速探索智能上限”,這句話真正落地,要回到芯片這一層。

DeepSeek V4發(fā)布當(dāng)天,深度求索在推文里寫明V4使用華為昇騰進(jìn)行推理,并補(bǔ)了一句:“受限于高端算力,目前Pro的服務(wù)吞吐十分有限,預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后,Pro的價(jià)格會(huì)大幅下調(diào)?!?/p>

Kimi走的是另一條路。3月的英偉達(dá)GTC大會(huì)上,楊植麟在圣何塞做了一場(chǎng)主題演講,Kimi K2.5被列入英偉達(dá)DGX Station的官方支持清單。但同一時(shí)間,月之暗面也在走國產(chǎn)芯片路線。Kimi K2.6開源后,壁仞科技第一時(shí)間完成了適配;更早之前,Kimi K2.5已經(jīng)在國產(chǎn)昇騰平臺(tái)上跑通了多模態(tài)推理。今年4月,Kimi團(tuán)隊(duì)在一篇論文里提出了“Prefill-as-a-Service”的分離式推理架構(gòu),核心思路正是推進(jìn)國產(chǎn)芯片的混合推理。

一邊是和英偉達(dá)保持深度合作,一邊在國產(chǎn)算力上提前布局。

兩條路,同一個(gè)方向。當(dāng)美國不斷收緊高端芯片的閥門,這兩家中國創(chuàng)業(yè)公司說明了一件事:擺脫物理算力的卡脖子,不一定只有一條路。

14個(gè)月前,梁文鋒走進(jìn)第一場(chǎng)座談會(huì)時(shí),中國AI最需要證明的問題還是“能不能做出一款世界級(jí)的基礎(chǔ)模型”。14個(gè)月后,楊植麟走進(jìn)第二場(chǎng)座談會(huì)時(shí),問題已經(jīng)變成“在被封鎖的算力生態(tài)里,能不能持續(xù)地做,一起做,讓基礎(chǔ)能力的躍遷變成常態(tài)”。

答案是能。

“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚?!绷何匿h2024年夏天說的這句話,在2026年春天再讀,更像一個(gè)被時(shí)間提前寫好的注腳。

兩年前,楊植麟把月之暗面的雄心形容為“承包一片森林,而不是種一棵樹”。兩年后,這片森林里至少已經(jīng)長出了兩棵夠得著云層的樹。

過去十年,中國AI在追OpenAI,在追英偉達(dá),在追硅谷。

這一次,輪到硅谷回頭看中國了。



原創(chuàng)不易,感謝有你!

一起轉(zhuǎn)發(fā)出去,讓更多人看到。

?智谷趨勢(shì)為中產(chǎn)階級(jí)的資本覺醒服務(wù),幫助更多人獲得財(cái)富。宏觀經(jīng)濟(jì)、商業(yè)邏輯、企業(yè)興衰、產(chǎn)業(yè)轉(zhuǎn)型……這里有最真實(shí)的中國,有許多人難以察覺到的趨勢(shì)信

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
把身價(jià)打沒了!里夫斯16中3復(fù)出最差表現(xiàn) 湖媒批恐損失幾千萬

把身價(jià)打沒了!里夫斯16中3復(fù)出最差表現(xiàn) 湖媒批恐損失幾千萬

醉臥浮生
2026-05-06 11:17:50
打虎!合肥市委書記費(fèi)高云被查

打虎!合肥市委書記費(fèi)高云被查

新京報(bào)
2026-05-06 16:11:05
美媒:通過霍爾木茲海峽的美國商船上有美軍

美媒:通過霍爾木茲海峽的美國商船上有美軍

新華社
2026-05-06 15:33:09
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
26死!一員工因親屬在瀏陽花炮事故中離世請(qǐng)假,獲領(lǐng)導(dǎo)暖心批復(fù)

26死!一員工因親屬在瀏陽花炮事故中離世請(qǐng)假,獲領(lǐng)導(dǎo)暖心批復(fù)

火山詩話
2026-05-06 10:04:31
現(xiàn)場(chǎng)畫面:日本首相高市早苗下跪!

現(xiàn)場(chǎng)畫面:日本首相高市早苗下跪!

每日經(jīng)濟(jì)新聞
2026-05-06 14:13:05
四川華鎣女游客玩秋千身亡,景區(qū)清空賬號(hào)!曾承諾“包活”

四川華鎣女游客玩秋千身亡,景區(qū)清空賬號(hào)!曾承諾“包活”

南方都市報(bào)
2026-05-06 15:34:08
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

媽媽帶3歲兒子送外賣不幸遭遇車禍,孩子滿臉傷痕不哭不鬧一直守在身旁,網(wǎng)友:這一刻他就是媽媽的“守護(hù)天使”

洪觀新聞
2026-05-06 11:24:50
對(duì)話宋斐明:純電豪華市場(chǎng)中,AUDI如何保證差異化競(jìng)爭(zhēng)力

對(duì)話宋斐明:純電豪華市場(chǎng)中,AUDI如何保證差異化競(jìng)爭(zhēng)力

車云網(wǎng)
2026-04-30 16:22:12
綏化兩名小女孩失聯(lián)多日已死亡!疑當(dāng)?shù)厝吮希簜z女孩被鄰居殺害

綏化兩名小女孩失聯(lián)多日已死亡!疑當(dāng)?shù)厝吮希簜z女孩被鄰居殺害

胡侃社會(huì)百態(tài)
2026-05-06 13:23:35
斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

斯內(nèi)德打趣:歐足聯(lián)應(yīng)直接把拜仁和巴黎的比賽設(shè)置成歐冠決賽

懂球帝
2026-05-06 08:13:34
塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

塞爾比:我防住了全世界,卻沒防住徒弟的進(jìn)攻和女兒的倒戈!

小娛樂悠悠
2026-05-06 09:52:35
倫敦世乒賽爆大冷!62歲倪夏蓮領(lǐng)銜3-2掀翻巴西 將戰(zhàn)張本美和!

倫敦世乒賽爆大冷!62歲倪夏蓮領(lǐng)銜3-2掀翻巴西 將戰(zhàn)張本美和!

好乒乓
2026-05-06 12:22:14
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
湖北恩施州委書記胡超文,被查

湖北恩施州委書記胡超文,被查

大風(fēng)新聞
2026-05-06 12:24:23
望奎倆女孩失聯(lián)多日已被殺!兇手用不同方式殺害倆女孩,非常殘忍

望奎倆女孩失聯(lián)多日已被殺!兇手用不同方式殺害倆女孩,非常殘忍

胡侃社會(huì)百態(tài)
2026-05-06 13:56:32
一只青蛙如何被井外勢(shì)力蠱惑

一只青蛙如何被井外勢(shì)力蠱惑

黔有虎
2026-05-05 22:54:29
小學(xué)生赴俄慶祝勝利日一文讓有的人不安了?

小學(xué)生赴俄慶祝勝利日一文讓有的人不安了?

名人茍或
2026-05-06 12:51:00
被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
2026-05-06 17:19:00
智谷趨勢(shì) incentive-icons
智谷趨勢(shì)
十大最具影響力財(cái)經(jīng)微信公眾號(hào)
2906文章數(shù) 67988關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

陜西男子到湖北賣蘋果突發(fā)腦梗 4噸蘋果19小時(shí)被買空

頭條要聞

陜西男子到湖北賣蘋果突發(fā)腦梗 4噸蘋果19小時(shí)被買空

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

最新GDP!全國30強(qiáng)城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

教育
藝術(shù)
時(shí)尚
數(shù)碼
軍事航空

教育要聞

高考地理中的城市空間結(jié)構(gòu)

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

今年夏天最時(shí)髦的6組搭配,照著穿美出新高度!

數(shù)碼要聞

Mionix發(fā)布AVIOR AIR CARBON FIBER鼠標(biāo):手工打造,限量出售

軍事要聞

實(shí)施不到48小時(shí) 特朗普緊急喊停"霍爾木茲自由計(jì)劃"

無障礙瀏覽 進(jìn)入關(guān)懷版