国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

奧特曼的“溫和奇點”愿景,線性注意力的勝利?MiniMax-M1技術(shù)報告深度解析

0
分享至

OpenAI CEO 奧特曼前兩天發(fā)了一篇博文,名字叫「溫和的奇點」(The Gentle Singularity),文中有一句話是這么說的:


“Then focus on making superintelligence cheap, widely available, and not too concentrated with any person, company, or country.”

這段話明確指出,未來的超級智能(superintelligence)必須實現(xiàn)低成本、大規(guī)模普及,且不應(yīng)被少數(shù)個人、公司或國家壟斷。換言之,AI 應(yīng)像電力一樣普及——前提是要做好基礎(chǔ)設(shè)施建設(shè)并將價格壓到足夠低。然而,OpenAI 自身在這兩方面一直被人詬?。浩湟?,自 GPT-3.5 以來一直采取閉源策略;其二,ChatGPT 在世界許多地區(qū)仍無法使用。

要讓 AI 真正“廉價且廣泛可用”,并滿足當下應(yīng)用需求(奧特曼、黃仁勛等一眾將 2025 年稱為“Agent 元年”),至少需要具備以下三項能力:

  • 推理reasoning能力,對應(yīng)了應(yīng)運而生的各種復(fù)雜任務(wù),傳統(tǒng)大模型思考能力有限,只有帶有推理能力的大模型才能搞定。

  • tool calling,所謂的Agent其實就是縮小版的人類,它得熟練使用各類不同的工具(聯(lián)網(wǎng)搜索,畫圖,調(diào)用程序等),并且最好跟現(xiàn)在的各種MCP,A2A協(xié)議適配。

  • 盡可能長的上下文context:很多大型文檔或者稍大點的開源repo需要消耗大量token,短的上下文別說工作,連資料都讀不完。

這三點需求正好體現(xiàn)了 AI 模型從“寫詩對對子”的玩具階段向“具備實際工作能力”的工具階段的演進。

而演進的速度其實受到了很多方面的制約,硬件、算法和架構(gòu)缺一不可,現(xiàn)有的大模型大多基于英偉達的硬件,所以能夠做文章的地方主要就是架構(gòu)和算法。

這次MiniMax-M1的發(fā)布,在這兩個方向都有不小的創(chuàng)新。

  • Lighting Transformer的創(chuàng)新性應(yīng)用:在盡可能保留信息的前提下降低了訓(xùn)練成本

  • Hybrid MoE架構(gòu):適應(yīng)Lighting Transformer,Dense級別的消耗,10x大小模型性能

  • RL算法創(chuàng)新:CISPO

論文以及開源代碼地址:https://github.com/MiniMax-AI/MiniMax-M1

技術(shù)報告地址:https://arxiv.org/abs/2506.13585

前兩個算架構(gòu)的創(chuàng)新性應(yīng)用,特別是Lighting Transformer的應(yīng)用,現(xiàn)有的絕大多數(shù)大模型都采用的是傳統(tǒng)的Transformer結(jié)構(gòu),這個結(jié)構(gòu)圖估計大家見過非常多次了。

Transformer這個圖復(fù)雜,但其實它的原理很簡單,就是把一句話的每個詞之間的關(guān)系都找出來,比如我吃飯,它會找到(我,吃)(我,飯)(吃,飯)這些關(guān)系,但這只有三個字,如果字數(shù)變數(shù),關(guān)系數(shù)量直接翻倍(3->6)。

特別是很多朋友喜歡直接把一本幾十萬字的書扔給AI分析,那對于顯卡的負擔(dān)可想而知,而Lighting Transformer的本質(zhì)就是盡可能的保證準確的前提下,降低對于計算資源的消耗。這就是Lighting Transformer的發(fā)力的地方,它的原理其實在數(shù)學(xué)上很簡單,傳統(tǒng)的Transfomer需要Q*K^T*V,QK這兩個數(shù)的乘積會隨著輸入文字的長度劇烈的擴張,也就說傳統(tǒng)的方法好用,但是碰到超長的文本,就會算的非常吃力。

而Lighting Transformer可以說就是利用了數(shù)學(xué)上的乘法定律,A*B*C = A*(B*C),只是讓后面兩個數(shù)先乘,就這簡單的一步就可以將所需要的計算量降低很多。

但有一個問題,那就是在數(shù)學(xué)角度上看起來很直觀的公式,真正到了實際應(yīng)用中卻非常難以實現(xiàn),因為有非常多的瓶頸限制。MiniMax-M1用的lighting transformer其實并不是簡單的線性注意力,而是一個針對現(xiàn)代GPU硬件特性進行深度優(yōu)化I/O-aware的變體,它的存在可以讓理論盡可能的貼近了現(xiàn)實。

其實除了M1用的這個lighting transformer,LLM領(lǐng)域也有幾個很火的架構(gòu),分別是Mamba和RWKV,都比傳統(tǒng)的Transformer處理速度要快很多,但是他們的局限性也很強,那就是碰到超長上下文的時候會捉襟見肘,在前LLM時代還能行,但agent時代明顯不太夠用了。

特別的是M1的架構(gòu)也不是純Lighting Transformer,而是每7層Lighting后會加一層傳統(tǒng)的softmax transformer,因為只要省算力,那肯定會有代價,這是一種深思熟慮的工程權(quán)衡。

這種設(shè)計體現(xiàn)了一種務(wù)實的架構(gòu)理念:在享受線性注意力帶來的巨大計算和內(nèi)存效率的同時,周期性地利用標準softmax注意力的能力來校準和鞏固模型的表征。

感興趣的朋友可以看看,純粹的線性注意力模型雖然高效,但學(xué)術(shù)界已經(jīng)指出其存在一些固有缺陷,例如可能導(dǎo)致表征能力的“秩崩潰”(low-rank nature),從而在需要精細區(qū)分和復(fù)雜關(guān)系建模的任務(wù)上表現(xiàn)不佳 。

論文地址:

https://arxiv.org/html/2411.07635v1 https://arxiv.org/abs/2411.07635

可以看到新架構(gòu)的優(yōu)勢,同樣的生成長度(橫軸),M1的消耗幾乎是直線,而DeepSeek-R1和Qwen的消耗明顯大的多,從實際效果中也印證了線性注意力的效果。

另一部分的創(chuàng)新就是RL算法,現(xiàn)在新出的大模型基本上都是推理大模型,而推理大模型的前身就是傳統(tǒng)大模型,多加的步驟就是post-training,相當于給一個具備了高中知識的人灌了一大堆博士級別的思考方式,本質(zhì)上知識量沒變,只是掌握了更多的思考方式和技巧。

這個核心就是用強化學(xué)習(xí)RL來做,主流的算法有兩個,PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization),其中最近的大模型基本上都是后者,比如DeepSeek,Qwen3等等,它倆的核心思路都是相同的,都是讓模型朝著性能提升的方向走。

但是M1的作者們發(fā)現(xiàn)了一個問題,那就是Token Clipping,通俗來講,就是你在學(xué)數(shù)學(xué),對于一個很難的問題,你突然有了靈感,比老師設(shè)想的解題速度快很多,老師就直接把你的做法否定了,這么做當然可以讓你更扎實的學(xué)知識,但是也有問題,那就是把你那些靈光乍現(xiàn)的經(jīng)驗人為的遏制了。

但問題是在Agent時代,模型需要這種靈感乍現(xiàn),需要這種深度的長思考能力。

本文提出的CISPO就是發(fā)現(xiàn)了這個問題會導(dǎo)致模型的性能提不上去,特別是采用了獨特的Lighting Transformer,CISPO的核心思路就是不限制任何思路,只是“提醒”,如果思考的太快,那就提示“慢一點兒”,這種溫和的約束可以保持大模型的訓(xùn)練目標是正向向前的同時,還能夠穩(wěn)定的學(xué)到所有重要的地方。

紅色的部分(CISPO)實現(xiàn)了兩倍的訓(xùn)練速度,同時效果還最好。

同時有架構(gòu)和算法上的創(chuàng)新,MiniMax-M1的性能也很不錯,跟世界上最強的幾個模型相比也很不錯,特別是跟Agent相關(guān)能力的維度上,幾乎跟最強的幾個閉源模型齊平了。

別忘了,M1的幾個特性都是奔著性價比去的,你看文中的這句話,3周、512塊H800(DeepSeek R1同款),0.53M美元。

這是什么意思,也就是只用了53萬美元就完成了RL訓(xùn)練,這釋放出的信號對于大模型領(lǐng)域的玩家都是非常積極的,你想,一個世界梯隊的Reasnoing大模型,只需要租512張H800,三周時間就能迭代一輪,相比起之前動輒幾個月才能完成的訓(xùn)練,M1讓大模型這盤蛋糕變的更大,成本直接降低了一個數(shù)量級,顯而易見的入場門檻也更加友好了。

所以說,M1的這篇論文要傳達并不是單純的性價比或者技術(shù)力,更多的是一種新路徑的探索,它不僅是一個在多個基準測試上取得優(yōu)異成績的模型,它更是一次成功的技術(shù)宣言。它宣告了通過底層的架構(gòu)和算法創(chuàng)新,我們完全有能力構(gòu)建出既強大又高效的大規(guī)模AI系統(tǒng)。它所開辟的這條非Transformer、高效率、高性能的道路,為整個AI領(lǐng)域邁向更復(fù)雜、更智能、更普惠的未來,提供了一份極具價值的參考設(shè)計。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
股民坐穩(wěn)扶好!下周A股2025年最后三天,或?qū)⒅噩F(xiàn)19年歷史行情了?

股民坐穩(wěn)扶好!下周A股2025年最后三天,或?qū)⒅噩F(xiàn)19年歷史行情了?

股市皆大事
2025-12-28 16:58:39
曾顛覆一個時代的影史巨星,今天去世了

曾顛覆一個時代的影史巨星,今天去世了

虹膜
2025-12-28 21:13:03
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
重磅!勇士,濃眉哥!3隊大交易方案...

重磅!勇士,濃眉哥!3隊大交易方案...

技巧君侃球
2025-12-28 23:48:00
衡陽市委原書記劉越高最新職務(wù)確定

衡陽市委原書記劉越高最新職務(wù)確定

耒陽社區(qū)
2025-12-28 17:57:17
美國的斬殺線已經(jīng)發(fā)酵了三天,全世界都知道了,所有公知都閉嘴了

美國的斬殺線已經(jīng)發(fā)酵了三天,全世界都知道了,所有公知都閉嘴了

扶蘇聊歷史
2025-12-27 15:13:08
龐萊臣后人捐贈南博的《江南春》圖卷:從6800元購買的顧客到8800萬元的送拍人

龐萊臣后人捐贈南博的《江南春》圖卷:從6800元購買的顧客到8800萬元的送拍人

大風(fēng)新聞
2025-12-23 16:13:12
失血過重!伯恩茅斯1-4遭9輪英超不勝 從第2到第15 后5輪4硬仗

失血過重!伯恩茅斯1-4遭9輪英超不勝 從第2到第15 后5輪4硬仗

智道足球
2025-12-28 14:38:52
真學(xué)霸都是父母盯出來的!老校長透露:平時盯著3件事就行了

真學(xué)霸都是父母盯出來的!老校長透露:平時盯著3件事就行了

枕邊聊育兒
2025-12-10 09:26:30
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

鋭娛之樂
2025-12-28 08:48:03
中方對美反制落地,合作全部叫停,美國強烈抗議,3句話極其無恥

中方對美反制落地,合作全部叫停,美國強烈抗議,3句話極其無恥

云上烏托邦
2025-12-27 19:04:16
300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

300 萬支 95 式步槍迎來退役潮,它們的歸宿在哪?既不適合外銷,就連朝鮮、巴鐵也對此沒有需要

史海孤雁
2025-12-24 14:20:17
比朝鮮還封閉的國家?富得流油,首都只能開白車,建筑只能是白色

比朝鮮還封閉的國家?富得流油,首都只能開白車,建筑只能是白色

鐵錘簡科
2025-12-09 11:13:15
以好色出名的抗日名將,逃跑本事無人能比,卻能屈能伸活到103歲

以好色出名的抗日名將,逃跑本事無人能比,卻能屈能伸活到103歲

古書記史
2025-12-22 19:52:23
女朋友是體育生是什么體驗?網(wǎng)友:第二天下不來床

女朋友是體育生是什么體驗?網(wǎng)友:第二天下不來床

帶你感受人間冷暖
2025-11-06 00:20:05
痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

阿纂看事
2025-12-27 23:23:46
后院起火!澤連斯基訪美之際,烏議會大樓遭突襲

后院起火!澤連斯基訪美之際,烏議會大樓遭突襲

上游新聞
2025-12-28 22:51:04
福布斯2025年足球明星收入榜:C羅2.8億美元居首,梅西1.3億

福布斯2025年足球明星收入榜:C羅2.8億美元居首,梅西1.3億

懂球帝
2025-12-28 15:57:03
馬筱梅直播露孕肚,說臺灣坐月子滿月就回京,張?zhí)m懸著的心放下啦

馬筱梅直播露孕肚,說臺灣坐月子滿月就回京,張?zhí)m懸著的心放下啦

半窗疏影
2025-12-29 00:10:37
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
2025-12-29 01:27:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

體育要聞

MVP概率達82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

時尚
本地
家居
手機
數(shù)碼

“這頂帽子”太火了,今年流行的風(fēng)格都離不開它

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

手機要聞

澎湃OS 3正式版再次擴容:15款設(shè)備喜提升級,你收到了嗎?

數(shù)碼要聞

曝光的AirPods原型機顯示,蘋果曾計劃推出多彩配色方案!

無障礙瀏覽 進入關(guān)懷版