国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

月之暗面Kimi,最有活人感的AI公司

0
分享至

01

當(dāng)DeepSeek-R2持續(xù)跳票,GPT-5仍在難產(chǎn),Grok-4不及預(yù)期,最近Kimi-K2的發(fā)布一時(shí)間風(fēng)光無(wú)兩。

K2從DeepSeek手中,奪過(guò)了全球開(kāi)源第一的寶座,硅谷的開(kāi)源社區(qū)的AI開(kāi)發(fā)者都在熱議Kimi-K2。英國(guó)《自然》雜志網(wǎng)站也發(fā)表文章稱,中國(guó)大模型Kimi-K2發(fā)布后引發(fā)轟動(dòng),世界迎來(lái)又一個(gè)“DeepSeek時(shí)刻”。

今天凌晨,Kimi發(fā)布了K2的技術(shù)報(bào)告,有趣的是,K2也在這87個(gè)署名作者名單里。意思很明顯,K2也參與創(chuàng)造了自己。Kimi算是第一家把AI寫進(jìn)作者名單里的大模型公司。

這種把AI當(dāng)成協(xié)作伙伴,且署名的操作方式,體現(xiàn)出Kimi內(nèi)部很強(qiáng)的“活人感”。

并非唯一例證。Kimi-K2發(fā)布前夜,工程師把它接入公司門口的電鋼琴上,演奏了一首卡農(nóng)。雖然有些磕磕絆絆,C大調(diào)和弦彈的也不完整,Kimi工程師chrysvlk在視頻號(hào)上寫道:“這算不算它的第一聲‘hello world’呢?”

工程師們浪漫起來(lái),文科生都要自愧不如。對(duì)于Kimi這家極具搖滾性的大模型公司來(lái)說(shuō),做出這種事情并不讓人感到意外。

Kimi創(chuàng)始人楊植麟是個(gè)典型的文藝青年,以至于這家公司也透露著相同的文藝氣質(zhì)。月之暗面這個(gè)名字,就來(lái)自平克弗洛伊德最著名的專輯《The Dark Side of The Moon》,團(tuán)隊(duì)工程師們同樣是一群熱愛(ài)電臺(tái)司令、平克·弗洛伊德、昆汀和庫(kù)布里克的人。

如果讓這個(gè)團(tuán)隊(duì)去玩音樂(lè)、拍電影,似乎也毫不違和,“我加入的一個(gè)重要原因,就是覺(jué)得味道很對(duì)味?!痹轮得娴膱F(tuán)隊(duì)成員Crystal說(shuō)。

Kimi的活人感,正體現(xiàn)在工程師們敢于公開(kāi)說(shuō)話。K2在鋼琴營(yíng)造的浪漫主義氛圍中發(fā)布后,Kimi的工程師們還在知乎玩起了接龍,他們發(fā)表感想,甚至自爆公司內(nèi)部決策,解答網(wǎng)友對(duì)于技術(shù)方面的疑惑。

比如,年初DeepSeek-R1爆火后,曾經(jīng)作為明星大模型公司的Kimi,完全被DeepSeek搶占風(fēng)頭,外界對(duì)Kimi有很多不好的言論,認(rèn)為Kimi團(tuán)隊(duì)一定恨死DeepSeek。

Kimi成員Justin Wong卻坦率地說(shuō):“恰恰相反,不少Kimi的成員認(rèn)為這是好事,DeepSeek證明硬實(shí)力是最好的推廣,只要模型做的好,就能獲得市場(chǎng)認(rèn)可。”

相比其他六小龍以及AI大廠閉起門來(lái)搞技術(shù),Kimi讓工程師出來(lái)發(fā)言的操作很新鮮,能感受到他們是一群有激情、有溫度的人。

Justin Wong還說(shuō),在DeepSeek的沖擊下,Kimi團(tuán)隊(duì)的反思很激進(jìn),最激進(jìn)的是楊植麟,他直接決定不再更新K1系列模型,而是集中資源搞基礎(chǔ)算法和K2。

意圖很明顯,Kimi放棄短期產(chǎn)品迭代,轉(zhuǎn)向底層技術(shù)突破和下一代模型能力的躍進(jìn)上。

這種激進(jìn),正符合一群搖滾愛(ài)好者的作風(fēng)。不過(guò)以追求AGI為目標(biāo)的Kimi,激進(jìn)中又帶著務(wù)實(shí),他們沒(méi)有因?yàn)镈eepSeek火出圈而陷入內(nèi)耗,反而借助DeepSeek的開(kāi)源,Kimi-K2的模型結(jié)構(gòu)完全繼承了DeepSeek-V3。

Kimi的工程師劉少偉說(shuō),在啟動(dòng)K2訓(xùn)練之前,他們進(jìn)行了大量模型結(jié)構(gòu)相關(guān)的scaling實(shí)驗(yàn),結(jié)果是,所有當(dāng)時(shí)與DeepSeek-V3不同的結(jié)構(gòu),沒(méi)有一個(gè)能真正打敗它的。

“在已經(jīng)有muon優(yōu)化器和更大參數(shù)量?jī)蓚€(gè)巨大變量的前提下,我們并不想引入沒(méi)有明確收益的額外變量來(lái)標(biāo)新立異?!币馑际牵魪?qiáng)行為了與DeepSeek不同,幾乎沒(méi)有一點(diǎn)優(yōu)勢(shì)。

經(jīng)過(guò)綜合考慮,Kimi最終選擇完全繼承DeepSeek-V3的結(jié)構(gòu),并調(diào)整適合他們的模型結(jié)構(gòu)參數(shù)。

這是一種妥協(xié)后的務(wù)實(shí),工程師們對(duì)此也很坦誠(chéng)。Kimi另一位成員蘇劍林說(shuō),我們最終決定,K2還是先狠狠地致敬DeepSeek了,而不是刻意地標(biāo)新立異,更多的想法和創(chuàng)意,我們把它們做得更扎實(shí)后,在K3、K4再見(jiàn)了。

02

K2被討論最多的是其總參數(shù)和價(jià)格。K2采用稀疏激活的混合專家(MoE)架構(gòu),總參數(shù)量達(dá)1萬(wàn)億,每次推理激活320億參數(shù)(約3.2%),在保持高性能的同時(shí)大幅降低算力成本。

但K2的核心亮點(diǎn)不是參數(shù),而是首次讓萬(wàn)億模型在MuonClip優(yōu)化器下實(shí)現(xiàn)零訓(xùn)練崩潰。萬(wàn)億參數(shù)在模型訓(xùn)練中存在穩(wěn)定性不足問(wèn)題,K2采用QK-Clip與Muon優(yōu)化器(這兩項(xiàng)是大模型高參數(shù)訓(xùn)練中,提升效率和解決穩(wěn)定性的先進(jìn)技術(shù))結(jié)合的方法,幫助神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更好地收斂,提升了模型的準(zhǔn)確性。

借助這種方法,K2解決了超大規(guī)模訓(xùn)練中的梯度爆炸問(wèn)題,實(shí)現(xiàn)15.5萬(wàn)億token的穩(wěn)定訓(xùn)練。在蘇劍林看來(lái),QK-Clip給了他們很大啟發(fā),在面對(duì)一個(gè)類似的難題時(shí),應(yīng)該至少要問(wèn)自己三個(gè)問(wèn)題:

1.這個(gè)方法能保證解決這個(gè)問(wèn)題嗎?(我們此前的一系列無(wú)效嘗試)

2.如果不能,有什么方法能保證解決這個(gè)問(wèn)題嗎?(QK-Clip)

3.這是解決這個(gè)問(wèn)題的最小改動(dòng)的方法嗎?(Per-Head的QK-Clip)

蘇劍林認(rèn)為QK-Clip的思路,實(shí)際上是解決很多訓(xùn)練不穩(wěn)定問(wèn)題的“抗生素”,它可以推廣成“哪里不穩(wěn)Clip哪里”,只要監(jiān)控指標(biāo)出現(xiàn)了異常,那么就可以考慮構(gòu)建類似的Clip。

Kimi成員Flood Sung,對(duì)K2的Agent能力更為興奮,他用“一生二,二生三,三生萬(wàn)物”形容K2的Agent能力。

“我們先讓模型生成幾百個(gè)場(chǎng)景,比如外賣、微博、微信...然后基于場(chǎng)景生成幾千個(gè)tools,比如點(diǎn)個(gè)外賣,發(fā)送微博,查找聯(lián)系人,然后基于不同的tool組合生成幾百上千個(gè)不同的Agent(不同的sytem prompt+不同的tool set),接下來(lái)我們針對(duì)每一個(gè)不同的agent生成從簡(jiǎn)單到復(fù)雜的具有得分點(diǎn)的任務(wù)……”

幾千個(gè)agent在虛擬世界里瘋狂交互,F(xiàn)lood Sung覺(jué)得這有點(diǎn)科幻,讓他聯(lián)想到《黑鏡》的劇情。

這次Kimi還給Scaling Law 正了身。劉少偉稱,他們還驗(yàn)證了在固定activate params(激活參數(shù))不變的前提下,單純?cè)鲩L(zhǎng) MOE總參數(shù)量,Scaling Law依然成立,且不論訓(xùn)練loss還是驗(yàn)證loss,結(jié)論始終保持,無(wú)需擔(dān)心增大總參數(shù)量會(huì)過(guò)擬合。

Scaling Law(規(guī)模定律)此前一直受到爭(zhēng)議,OpenAI前首席科學(xué)家 Ilya提出“預(yù)訓(xùn)練終結(jié)”論點(diǎn),認(rèn)為互聯(lián)網(wǎng)可用數(shù)據(jù)已接近枯竭,需轉(zhuǎn)向私域高精度數(shù)據(jù)或強(qiáng)化學(xué)習(xí)范式。

包括楊植麟此前也曾被認(rèn)為,在模型訓(xùn)練中過(guò)度相信Scaling Law。這次Kimi驗(yàn)證,借助Scaling Law依然能夠大力出奇跡。

K2在各項(xiàng)測(cè)試中成績(jī)都比較拔尖。在SWE Bench Verified(編程)、LiveCodeBench 等測(cè)試中,Kimi K2 以65.8% 和53.7% 的準(zhǔn)確率超越DeepSeek V3(46.9%)和GPT-4.1(44.7%),編程能力全球僅次于Claude 4 Sonnet。實(shí)際測(cè)試中,它能生成包含晝夜光影變化的3D HTML場(chǎng)景,并支持復(fù)雜代碼調(diào)試。

MATH-500、AIME 等數(shù)學(xué)競(jìng)賽級(jí)測(cè)試,Kimi K2分別以97.4% 和69.6% 的成績(jī)領(lǐng)先GPT-4.1(92.4%),成為當(dāng)前數(shù)學(xué)推理能力最強(qiáng)的開(kāi)源模型。

這些成績(jī)自然沒(méi)能讓Kimi像年初DeepSeek那般轟動(dòng),但在一定范圍內(nèi)確實(shí)產(chǎn)生較大影響。K2發(fā)布6天里,已在開(kāi)源平臺(tái)HuggingFace上收獲10萬(wàn)+下載,1400+點(diǎn)贊。

全球最大開(kāi)源AI平臺(tái)Hugging Face聯(lián)合創(chuàng)始人托馬斯評(píng)價(jià)稱:“來(lái)自中國(guó)的Kimi團(tuán)隊(duì)在過(guò)去幾個(gè)月推出的系列模型令人印象深刻,K2更是挑戰(zhàn)了閉源模型的極限?!?/p>

03


Kimi近大半年像是坐上了過(guò)山車,地位起起伏伏。目前Kimi 正被市場(chǎng)追捧,但也不值得懈怠,畢竟大模型競(jìng)逐賽依然很激烈。

一個(gè)很現(xiàn)實(shí)情況是,在當(dāng)前各家大模型你追我趕的情況下,基本上誰(shuí)更新版本誰(shuí)排名就能上升。可以說(shuō)是,遍地SOTA王,短暫又輝煌。

這邊K2全球開(kāi)源模型第一的位置還沒(méi)坐穩(wěn),昨夜阿里Qwen3又迎來(lái)升級(jí)。升級(jí)后的Qwen3在GQPA(知識(shí))、AIME25(數(shù)學(xué))、LiveCodeBench(編程)、Arena-Hard(人類偏好對(duì)齊)、BFCL(Agent能力)等眾多測(cè)評(píng)中表現(xiàn)出色,超過(guò)Kimi-K2和DeepSeek-V3。

要知道,今年DeepSeek R2和GPT 5都還沒(méi)發(fā)布,下半年的大模型競(jìng)賽將更加白熱化。

實(shí)際上Kimi K2的性能并沒(méi)有到達(dá)炸裂程度。一些網(wǎng)友反映,評(píng)測(cè)得分只是一方面,真實(shí)體驗(yàn)才是王道。

包括Kimi的工程師們也不是十分滿意,這一點(diǎn)從他們文章里能看出來(lái)。如劉少偉所說(shuō),K2發(fā)布前面臨的問(wèn)題是,他們的“新結(jié)構(gòu)”還沒(méi)有經(jīng)歷過(guò)足夠大規(guī)模的驗(yàn)證。K2更像是他們下一代模型的一個(gè)過(guò)渡產(chǎn)品。

前文蘇劍林也說(shuō),K2先狠狠地致敬DeepSeek,更多的想法和創(chuàng)意,等做得更扎實(shí)后,會(huì)在K3、K4面世。言辭中多少透露著不甘和遺憾。

Justin Wong知道Kimi K2還有數(shù)不清的缺點(diǎn),所以和蘇劍林一樣,他說(shuō)自己比任何時(shí)候都更想要K3。

Kimi團(tuán)隊(duì)的技術(shù)理想主義一直是追求AGI。Justin Wong認(rèn)為,2025 年智能的上限仍然完全由模型決定,“作為一家以AGI為目標(biāo)的公司,如果不去追求智能的上限,那我一天也不會(huì)多呆下去?!?/p>

他把AGI形容為極其險(xiǎn)峻的獨(dú)木橋,容不得一絲分心和猶豫,追求也許不會(huì)成功,但猶豫一定會(huì)失敗。他還提到2024年6月智源大會(huì)上,聽(tīng)到李開(kāi)復(fù)脫口而出地說(shuō):“我作為一個(gè)投資人,會(huì)關(guān)注AI應(yīng)用的RO!”當(dāng)時(shí)他就判斷,李開(kāi)復(fù)的零一萬(wàn)物活不長(zhǎng)。

無(wú)論如何,Kimi團(tuán)隊(duì)搖滾式的反叛精神,以及認(rèn)真做模型的態(tài)度,都融入到了他們?cè)趥€(gè)人社交賬號(hào)文章里。讓大家對(duì)Kimi團(tuán)隊(duì)多了一些具象的認(rèn)知。

從長(zhǎng)期主義的角度來(lái)看,在這場(chǎng)大模型競(jìng)賽中,公司文化氛圍更好的Kimi或許能走得更遠(yuǎn)。楊植麟曾說(shuō):“AI不是我在接下來(lái)一兩年找到什么PMF(產(chǎn)品市場(chǎng)匹配),而是接下來(lái)十到二十年如何改變世界。”

這位想要改變的世界的90后,眼下一切才剛剛開(kāi)始。

作者 | 孫方

編輯 | 八尺

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
河北女子不同房不離婚后續(xù):律師揭惡心內(nèi)情,女方這步棋下得太巧

河北女子不同房不離婚后續(xù):律師揭惡心內(nèi)情,女方這步棋下得太巧

六目先生
2026-03-08 09:56:47
廣東男籃碩果累累!徐杰獲正賽MVP胡明軒三分王陳家政最佳星銳

廣東男籃碩果累累!徐杰獲正賽MVP胡明軒三分王陳家政最佳星銳

狼叔評(píng)論
2026-03-08 22:54:04
臺(tái)系內(nèi)存廠:中國(guó)大陸DDR5內(nèi)存,救不了市場(chǎng),會(huì)一直漲到2027年

臺(tái)系內(nèi)存廠:中國(guó)大陸DDR5內(nèi)存,救不了市場(chǎng),會(huì)一直漲到2027年

世界圈
2026-03-09 09:30:24
3月8日,何潔前夫赫子銘自曝簽離婚保密協(xié)議,引爆輿論爭(zhēng)議

3月8日,何潔前夫赫子銘自曝簽離婚保密協(xié)議,引爆輿論爭(zhēng)議

星星沒(méi)有你亮
2026-03-09 02:07:47
特朗普回應(yīng)油價(jià)暴漲:這樣的代價(jià)微不足道

特朗普回應(yīng)油價(jià)暴漲:這樣的代價(jià)微不足道

鳳凰網(wǎng)財(cái)經(jīng)
2026-03-09 07:48:04
重磅官宣!深圳龍崗區(qū)發(fā)布“龍蝦十條”

重磅官宣!深圳龍崗區(qū)發(fā)布“龍蝦十條”

深圳晚報(bào)
2026-03-09 08:30:40
3月6日人民幣匯率指數(shù)按周漲1.07至99.65

3月6日人民幣匯率指數(shù)按周漲1.07至99.65

每日經(jīng)濟(jì)新聞
2026-03-09 08:39:14
何昶?!吨鹩瘛繁粨Q臉:一個(gè)演員消失的24小時(shí)

何昶希《逐玉》被換臉:一個(gè)演員消失的24小時(shí)

動(dòng)物奇奇怪怪
2026-03-08 08:33:46
阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個(gè)壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個(gè)壞習(xí)慣

39健康網(wǎng)
2026-02-17 18:31:37
善惡到頭終有報(bào)?57歲央視女主持王小丫,已走上另一條大路

善惡到頭終有報(bào)?57歲央視女主持王小丫,已走上另一條大路

妙知
2026-01-13 11:55:41
國(guó)民黨在花蓮選情穩(wěn)了?民進(jìn)黨擬不自提縣長(zhǎng)人選,反傅勢(shì)力難整合

國(guó)民黨在花蓮選情穩(wěn)了?民進(jìn)黨擬不自提縣長(zhǎng)人選,反傅勢(shì)力難整合

海峽導(dǎo)報(bào)社
2026-03-09 07:14:02
美媒給五角大樓提了個(gè)醒,特朗普算是看明白了:這是沖著自己來(lái)的

美媒給五角大樓提了個(gè)醒,特朗普算是看明白了:這是沖著自己來(lái)的

萬(wàn)物知識(shí)圈
2026-03-09 09:16:16
CCTV16直播!山東泰山迎戰(zhàn)北京國(guó)安,其他場(chǎng)次暫未現(xiàn)身央視節(jié)目單

CCTV16直播!山東泰山迎戰(zhàn)北京國(guó)安,其他場(chǎng)次暫未現(xiàn)身央視節(jié)目單

實(shí)事球是
2026-03-09 07:53:59
女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

女子故意扮丑去相親,男子一眼看中,女子吃驚:他是不是太餓了

丫頭舫
2026-02-10 22:18:05
92年給女廠長(zhǎng)開(kāi)車,車壞在荒郊,她看著窗外說(shuō):今晚回不去了

92年給女廠長(zhǎng)開(kāi)車,車壞在荒郊,她看著窗外說(shuō):今晚回不去了

曉艾故事匯
2025-08-22 17:28:19
“繁文縟節(jié)”竟然不讀fán wén rǔ jié,正確讀音是什么?

“繁文縟節(jié)”竟然不讀fán wén rǔ jié,正確讀音是什么?

AI讀書
2026-03-05 14:07:21
世界最貴戰(zhàn)斗機(jī)居然來(lái)自中國(guó),造價(jià)比殲20貴多了,一架就得12個(gè)億

世界最貴戰(zhàn)斗機(jī)居然來(lái)自中國(guó),造價(jià)比殲20貴多了,一架就得12個(gè)億

沒(méi)有偏旁的常慶
2026-03-07 08:35:09
23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

23支液體、15個(gè)小時(shí)的連續(xù)輸注,娃的情緒已經(jīng)接近暴躁

果殼
2026-03-08 20:08:15
翁帆近況:以訪問(wèn)學(xué)者身份去英國(guó),專注學(xué)術(shù)研究,50歲內(nèi)心很寧?kù)o

翁帆近況:以訪問(wèn)學(xué)者身份去英國(guó),專注學(xué)術(shù)研究,50歲內(nèi)心很寧?kù)o

查爾菲的筆記
2026-03-07 13:38:17
油價(jià)或迎年內(nèi)最大漲幅,實(shí)現(xiàn)四連漲,今晚24時(shí)調(diào)整!

油價(jià)或迎年內(nèi)最大漲幅,實(shí)現(xiàn)四連漲,今晚24時(shí)調(diào)整!

趣味萌寵的日常
2026-03-09 09:23:46
2026-03-09 10:40:49
白鯨實(shí)驗(yàn)室one incentive-icons
白鯨實(shí)驗(yàn)室one
記錄 AI改變世界的瞬間
100文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說(shuō)沒(méi)想到“龍蝦”這么火

頭條要聞

起底伊朗新任最高領(lǐng)袖:曾說(shuō)服其父哈梅內(nèi)伊支持內(nèi)賈德

頭條要聞

起底伊朗新任最高領(lǐng)袖:曾說(shuō)服其父哈梅內(nèi)伊支持內(nèi)賈德

體育要聞

終結(jié)大魔王36連勝 王祉怡回應(yīng)15個(gè)月首勝安洗瑩

娛樂(lè)要聞

姆巴佩戀情確認(rèn)!與26歲新歡共度良宵

財(cái)經(jīng)要聞

見(jiàn)證歷史!油價(jià)暴漲

汽車要聞

搭載1.5T發(fā)動(dòng)機(jī) 奇瑞瑞虎5運(yùn)動(dòng)版官圖發(fā)布

態(tài)度原創(chuàng)

家居
手機(jī)
本地
公開(kāi)課
軍事航空

家居要聞

獨(dú)棟獨(dú)院 精致親子墅

手機(jī)要聞

折痕已經(jīng)誕生8年了!OPPO Find N6終結(jié)折痕:折疊屏邁入無(wú)痕時(shí)代

本地新聞

食味印象|一口入魂!康樂(lè)烤肉串起千年絲路香

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

王毅:解決臺(tái)灣問(wèn)題 實(shí)現(xiàn)祖國(guó)完全統(tǒng)一不可阻擋

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版