国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「背叛」Scaling Law??jī)晌籘ransformer作者撬動(dòng)美國開源AI革命

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】AI不應(yīng)是巨頭游戲,模型也不是越大越聰明。近日,「Transformer八子」中的Ashish Vaswani和Parmar共同推出了一個(gè)8B的開源小模型,劍指Scaling Law軟肋,為輕量化、開放式AI探索了新方向。

近期,一個(gè)80億參數(shù)的「小模型」引發(fā)AI圈熱議。

這個(gè)名為Rnj-1的開源模型,由Ashish Vaswani與Niki Parmar創(chuàng)辦的Essential AI Labs推出。


他們是2017年那篇著名論文《注意力就是你所需要的一切》(Attention is All You Need)作者中的兩位。


以上八位作者同等貢獻(xiàn) ,其中Ashish與Illia共同設(shè)計(jì)并實(shí)現(xiàn)了首個(gè)Transformer 模型,并深度參與了全部研究工作。




Ashish Vaswani

Niki在研究的早期階段負(fù)責(zé)設(shè)計(jì)、實(shí)現(xiàn)、調(diào)優(yōu)并評(píng)估了大量模型變體,是模型架構(gòu)探索與實(shí)驗(yàn)驗(yàn)證的核心貢獻(xiàn)者之一。


Niki Parmar

ChatGPT、Gemini、Claude、Llama……幾乎所有我們熟知的大模型都采用了Transformer框架。

這些早期玩家們?cè)趲啄旰髮⒄麄€(gè)行業(yè)引向了比拼參數(shù)規(guī)模的AI軍備競(jìng)賽。

前不久,Google DeepMind CEO哈薩比斯(Demis Hassabis)還斷言,要實(shí)現(xiàn)通用人工智能(AGI),當(dāng)下主流大模型必須把「擴(kuò)規(guī)?!惯@件事推到極致。

他所指的「擴(kuò)規(guī)?!故歉鄶?shù)據(jù)、更多算力、更大的模型,并強(qiáng)調(diào)它「至少是通往 AGI 的關(guān)鍵組件,甚至可能就是全部路徑」。

哈薩比斯的觀點(diǎn),在一定程度上代表了大模型領(lǐng)域由Transformer和Scaling Law所催生的「模型越大越強(qiáng)」的主流觀點(diǎn)。

7年后,同為Transformer論文的作者,Ashish Vaswani和Niki Parmar開始向這一主流觀點(diǎn)發(fā)起了挑戰(zhàn):

模型不一定越大就越聰明。



至少從算力效率的角度來看,就像上面這位網(wǎng)友說的那樣:

「大模型時(shí)代已經(jīng)結(jié)束,真正懂行的人打造的小模型時(shí)代開始了?!?/p>

在ChatGPT、Gemini、Claude之外,以Rnj-1為代表的小模型開辟了另一種思路。

Vaswani的擔(dān)憂與Rnj-1的誕生

過去幾年,砸向AI領(lǐng)域的錢越來越多、模型越來越大、訓(xùn)練越來越昂貴。

Vaswani認(rèn)為,AI領(lǐng)域巨額資金的涌入可能會(huì)妨礙技術(shù)本身的發(fā)展,因?yàn)橐岳麧?rùn)為導(dǎo)向的企業(yè)逐漸從科學(xué)家和學(xué)者手中奪取了主導(dǎo)權(quán):

「少數(shù)公司掌控著先進(jìn)AI技術(shù)的生產(chǎn)、節(jié)奏和方向。他們決定了AI的演化方式,也決定了誰能從中受益……我們不能讓封閉式的AI開發(fā)阻礙我們探索新的前沿?!?/p>

Vaswani和Parmar希望推動(dòng)構(gòu)建一個(gè)健康、開放的生態(tài),而不是封閉的塔尖。

Essential AI Labs以及它的首款開源模型Rnj-1正是在這種理念下誕生的。


Essential AI將構(gòu)建前沿開源平臺(tái)和智能工具作為自己的使命。

Rnj-1的名稱,則是來自著名數(shù)學(xué)家拉馬努金(Srinivasa Ramanujan)。

據(jù)Essential AI官方介紹,這款從零開始訓(xùn)練的80億參數(shù)模型,在代碼、數(shù)學(xué)與「智能體」推理上可「對(duì)齊前沿」水平,還可以在消費(fèi)級(jí)GPU上運(yùn)行,自由使用與修改。

一把「瑞士軍刀」式的小模型

和動(dòng)輒萬億參數(shù)的前沿大模型相比,Rnj-1并不起眼。

它只是一個(gè)80億參數(shù)的小模型,僅僅32k的上下文長(zhǎng)度,遵循開源Gemma 3架構(gòu)。

既然不能和比別人比「身板」,就要拼技術(shù)。

Rnj-1采用全局自注意力機(jī)制(global self-attention)和YaRN技術(shù)。

global self-attention好比為模型配備了一雙「全景眼睛」,無論給它多長(zhǎng)的輸入,都能一次全部看清。

而YaRN則像是「長(zhǎng)距離閱讀輔助器」,讓模型能在32k上下文中仍然保持清晰思考。

Rnj-1的基礎(chǔ)版與指令版在同尺寸開源模型中表現(xiàn)十分亮眼。



代碼生成

在HumanEval+、MBPP+ 等算法類代碼任務(wù),以及BigCodeBench這類更廣泛的編程任務(wù)中,Rnj-1 Base與Instruct的表現(xiàn)能與最強(qiáng)同規(guī)模開源模型競(jìng)爭(zhēng),有時(shí)甚至超越更大的GPT OSS 20B。

智能體能力

Rnj-1 Instruct是Rnj-1重點(diǎn)打造的能力之一, 在智能體式編碼任務(wù)中表現(xiàn)尤為突出。

在SWE-bench 上,Rnj-1 Instruct的表現(xiàn)比同尺寸模型強(qiáng)出近一個(gè)數(shù)量級(jí),已接近大規(guī)模模型的水平。

它會(huì)用 profiler(性能分析器)檢查瓶頸,然后主動(dòng)提出優(yōu)化方案,甚至多輪迭代。

例如在Enamel這一考察高效算法實(shí)現(xiàn)的任務(wù)中,Rnj-1 Instruct 超過了強(qiáng)力基線。

在伯克利函數(shù)調(diào)用排行榜(BFCL)中,Rnj-1 Instruct的工具使用能力也領(lǐng)先同類模型。

數(shù)學(xué)與科學(xué)推理

在AIME'25(高難度高中數(shù)學(xué))中,Rnj-1 Instruct的數(shù)學(xué)能力可與最強(qiáng)開源模型匹敵。

Rnj-1 Base在Minerva-MATH上也與同規(guī)模模型保持一致。

在GPQA-Diamond(包含生物、物理、化學(xué)的高難度題目)上,Rnj-1的表現(xiàn)也接近同尺寸模型中的領(lǐng)先水平。

量化穩(wěn)定,不掉質(zhì)量

Rnj-1對(duì)量化也非常穩(wěn)健。

這意味著它能在更便宜、更省電的顯卡上跑得很快,模型質(zhì)量幾乎不受影響,真正實(shí)現(xiàn)人人可用。


從BF16到FP8再到NVFP4,在顯著提升提示密集型工作負(fù)載的token吞吐量的同時(shí),模型質(zhì)量幾乎不受影響。

Token吞吐量數(shù)據(jù)基于NVIDIA B200 GPU測(cè)得,其中KV Cache的數(shù)據(jù)類型設(shè)為FP8,批大小為128。

回到起點(diǎn),不想再做「宇宙巨獸」了

今年2月,Essential AI做了一個(gè)重要的決定:

專注于基礎(chǔ)能力的本身。

在做研究和做產(chǎn)品兩者之間,Essential AI更傾向于提升模型能力。

DeepSeek R1發(fā)布后,世界都在討論RL的強(qiáng)大,但Vaswani認(rèn)為,壓縮是模擬智能的核心要素,而語言模型的預(yù)測(cè)式預(yù)訓(xùn)練才是更合理的路徑。

Essential AI在早期預(yù)訓(xùn)練階段便觀察到模型出現(xiàn)反思與探索式推理的跡象,這印證了「強(qiáng)預(yù)訓(xùn)練是下游成功基礎(chǔ)」的判斷。

他們認(rèn)為強(qiáng)大的預(yù)訓(xùn)練本身就會(huì)產(chǎn)生推理能力,而不是靠后期堆RL補(bǔ)課。

這是Essential AI迄今為止第一個(gè)也是最具根本性的抉擇。



上圖記錄了Essential AI在每個(gè)階段所取得的進(jìn)展。

Rnj-1是Essential AI從頭開始訓(xùn)練的大模型。

他們希望大模型在學(xué)習(xí)階段不僅是「看很多數(shù)據(jù)」,而是能自己把數(shù)據(jù)分類、轉(zhuǎn)換、混合,形成更好的理解方式。

這樣模型的「可測(cè)能力」(比如數(shù)學(xué)、代碼、科學(xué)等可驗(yàn)證任務(wù))會(huì)更強(qiáng)。

研究團(tuán)隊(duì)通過數(shù)據(jù)分類研究,得到了一種新的「帶重復(fù)懲罰的數(shù)據(jù)分布聚類與混合方法」,這種方法尤其提升了模型在STEM(科學(xué)、技術(shù)、工程、數(shù)學(xué))方面的能力。

此外,訓(xùn)練模型需要「優(yōu)化器」來調(diào)整參數(shù)。

Essential AI證明了Muon優(yōu)化器相較AdamW更高效, 并開發(fā)了適配大模型的分片策略。

Essential AI的研究人員認(rèn)為,大模型應(yīng)該不僅能理解代碼,更應(yīng)該模擬程序在不同環(huán)境中的執(zhí)行行為,Rnj-1在這一方向上進(jìn)行了大規(guī)模嘗試。

為了讓基礎(chǔ)模型學(xué)會(huì)自動(dòng)「改進(jìn)代碼」,研究人員還投入研究「代碼演化」的建模。

這些方向均在小模型上通過驗(yàn)證,顯著提升了Rnj-1的工程能力。

在預(yù)訓(xùn)練末期,Essential AI團(tuán)隊(duì)確信Rnj-1已具備數(shù)學(xué)、編程與科學(xué)知識(shí)等潛在能力。

接下來的問題是如何通過適量監(jiān)督微調(diào),喚醒其指令遵循與復(fù)雜推理能力,并驗(yàn)證其在長(zhǎng)對(duì)話與現(xiàn)實(shí)難題中的表現(xiàn)。

Essential AI在后訓(xùn)練方案上借鑒了YaRN長(zhǎng)上下文中期訓(xùn)練、Nemotron以及簡(jiǎn)單智能體環(huán)境。

其后訓(xùn)練主要有三項(xiàng)任務(wù):

  • 研究定向數(shù)據(jù)對(duì)推理與智能體能力的影響;

  • 團(tuán)隊(duì)親自「上手體驗(yàn)」模型,觀察質(zhì)變;

  • 收集下游反饋,為下一輪預(yù)訓(xùn)練下注提供依據(jù)

Vaswani認(rèn)為,有許多令人難以抗拒的想法正在爭(zhēng)奪研究團(tuán)隊(duì)的注意力。

比如,他們對(duì)條件計(jì)算、擴(kuò)展并增強(qiáng)模型處理更長(zhǎng)上下文的能力,以及低精度訓(xùn)練充滿熱情。

在中期內(nèi),Essential AI將繼續(xù)推進(jìn)壓縮這一核心理念,拓展計(jì)劃模擬的程序行為的類型和范圍,并推動(dòng)代碼演化。

Vaswani預(yù)計(jì),諸如將強(qiáng)化學(xué)習(xí)等擴(kuò)展性思路用于培養(yǎng)復(fù)雜推理能力的方法,將很快出現(xiàn)在Essential AI的路線圖上。

在官方博客中,Vaswani用先驅(qū)計(jì)算機(jī)科學(xué)家Alan Perlis的話表達(dá)了自己的心聲:

我認(rèn)為,在計(jì)算機(jī)科學(xué)領(lǐng)域,我們必須始終讓計(jì)算保持趣味性,這一點(diǎn)極其重要……

我認(rèn)為,我們有責(zé)任不斷拓展計(jì)算機(jī)的邊界,引領(lǐng)它們走向新的方向,并讓這種樂趣持續(xù)存在……

最重要的是,我希望我們不要變成傳教士。不要覺得自己像個(gè)推銷圣經(jīng)的推銷員。這世上那樣的人已經(jīng)太多了。你所了解的計(jì)算知識(shí),別人終會(huì)學(xué)到。不要覺得成功計(jì)算的鑰匙只掌握在你手中。

我相信并希望,你手中握有的是智慧:一種能夠超越最初接觸機(jī)器時(shí)的認(rèn)知,看到它更多可能性,并讓它變得更強(qiáng)的能力。

開源平臺(tái)Essential AI的創(chuàng)建,以及此次Rnj-1的推出,旨在推動(dòng)美國AI開源領(lǐng)域的發(fā)展,搶奪在輕量化開源生態(tài)話語權(quán),目前這一領(lǐng)域正由中國企業(yè)主導(dǎo)。

開源生態(tài),將推動(dòng)大模型在「越大越好」行業(yè)競(jìng)爭(zhēng)格局之外,探索開放、輕量化的新路徑,加速AI人人可用時(shí)代的到來。

參考資料:

https://www.bloomberg.com/news/articles/2025-12-08/transformer-paper-authors-at-ai-startup-debut-open-source-model?srnd=phx-ai%20

https://www.essential.ai/research/rnj-1

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

敖德薩遭襲,此前澤連斯基變卦、變卦、又變卦

新民晚報(bào)
2025-12-26 09:03:19
姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

姜昆回應(yīng),視頻為拼接,人一直在國內(nèi),蹭熱度的楊儀又被打臉了

李健政觀察
2025-12-26 12:19:52
殲-36雙機(jī)編隊(duì)首飛,用實(shí)力為美國航母劃下4000公里生死紅線

殲-36雙機(jī)編隊(duì)首飛,用實(shí)力為美國航母劃下4000公里生死紅線

哲叔視野
2025-12-26 10:26:31
韋瑟斯龐28分青島終結(jié)山西4連勝 王睿澤19分迪亞洛22+4+4

韋瑟斯龐28分青島終結(jié)山西4連勝 王睿澤19分迪亞洛22+4+4

醉臥浮生
2025-12-26 21:33:19
多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

多地黨委主要領(lǐng)導(dǎo)調(diào)整!其中有一人是中央委員

上觀新聞
2025-12-26 13:52:06
50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個(gè)富婆

50歲佘詩曼私生活曝光:未婚,身價(jià)過億,獨(dú)居客廳僅10㎡小破宅,只想當(dāng)個(gè)富婆

黎兜兜
2025-12-25 21:56:18
洪森提出4大?;饤l件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

洪森提出4大?;饤l件,泰柬談判失敗,汪文斌終于表態(tài),措辭特殊

時(shí)時(shí)有聊
2025-12-26 15:09:40
今年圣誕節(jié)沒人抵制了,為啥還更冷清了?網(wǎng)友:3個(gè)原因,很現(xiàn)實(shí)

今年圣誕節(jié)沒人抵制了,為啥還更冷清了?網(wǎng)友:3個(gè)原因,很現(xiàn)實(shí)

劍道萬古似長(zhǎng)夜
2025-12-25 15:39:57
精準(zhǔn)斬首!泰國無人機(jī)斬首行動(dòng)震驚東南亞!洪森指揮鏈遭團(tuán)滅!

精準(zhǔn)斬首!泰國無人機(jī)斬首行動(dòng)震驚東南亞!洪森指揮鏈遭團(tuán)滅!

深度報(bào)
2025-12-24 22:47:16
一家五口駕車在江門施工棧橋墜江遇難 老家村委會(huì)負(fù)責(zé)人:車上有7歲小孩和六旬老人

一家五口駕車在江門施工棧橋墜江遇難 老家村委會(huì)負(fù)責(zé)人:車上有7歲小孩和六旬老人

紅星新聞
2025-12-26 13:15:16
加時(shí)18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

加時(shí)18分歷史首人!約基奇56+16+15刷7紀(jì)錄 小丑皇登全美熱搜第一

顏小白的籃球夢(mèng)
2025-12-26 14:55:39
央視曝光新毒物!已流竄到全國,長(zhǎng)期食用傷肝腎,孩子淪為重災(zāi)區(qū)

央視曝光新毒物!已流竄到全國,長(zhǎng)期食用傷肝腎,孩子淪為重災(zāi)區(qū)

有范又有料
2025-12-26 12:20:20
徐杰22+5+8+5三分拯救廣東:決戰(zhàn)連中關(guān)鍵三分 率廣東6戰(zhàn)全勝

徐杰22+5+8+5三分拯救廣東:決戰(zhàn)連中關(guān)鍵三分 率廣東6戰(zhàn)全勝

醉臥浮生
2025-12-26 21:40:31
知名熟食品牌致歉,10倍現(xiàn)金補(bǔ)償消費(fèi)者!很多人吃過

知名熟食品牌致歉,10倍現(xiàn)金補(bǔ)償消費(fèi)者!很多人吃過

中國經(jīng)濟(jì)網(wǎng)
2025-12-26 16:28:03
嘉興市原市長(zhǎng)李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

嘉興市原市長(zhǎng)李軍調(diào)任浙江省海洋經(jīng)濟(jì)發(fā)展廳黨組書記,曾在湖南工作27年

上觀新聞
2025-12-26 20:49:34
俄方最新回應(yīng):戰(zhàn)場(chǎng)上見

俄方最新回應(yīng):戰(zhàn)場(chǎng)上見

魯中晨報(bào)
2025-12-26 13:05:09
佛山企業(yè)家被“以刑化債”后,批辦檢察長(zhǎng)落馬,法官、律師獲罪

佛山企業(yè)家被“以刑化債”后,批辦檢察長(zhǎng)落馬,法官、律師獲罪

追月數(shù)星
2025-12-26 12:09:28
獨(dú)家:南博前院長(zhǎng)徐湖平“監(jiān)守自盜”,工人逆襲院長(zhǎng)發(fā)跡史曝光!

獨(dú)家:南博前院長(zhǎng)徐湖平“監(jiān)守自盜”,工人逆襲院長(zhǎng)發(fā)跡史曝光!

微評(píng)社
2025-12-26 12:59:10
不打了!廣東最大對(duì)手慘遭重創(chuàng),男籃第一中鋒因傷缺陣!

不打了!廣東最大對(duì)手慘遭重創(chuàng),男籃第一中鋒因傷缺陣!

緋雨兒
2025-12-26 16:14:37
從“萬輛猛士M817下線”到“登峰行動(dòng)”,猛士品牌的“三新”蛻變

從“萬輛猛士M817下線”到“登峰行動(dòng)”,猛士品牌的“三新”蛻變

大眾侃車
2025-12-26 19:24:00
2025-12-26 22:16:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14189文章數(shù) 66399關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

多名中國女明星已立遺囑 關(guān)之琳無子將遺產(chǎn)都留給弟弟

頭條要聞

多名中國女明星已立遺囑 關(guān)之琳無子將遺產(chǎn)都留給弟弟

體育要聞

開翻航母之后,他決定親手造一艘航母

娛樂要聞

王傳君生病后近照變化大,面部浮腫

財(cái)經(jīng)要聞

投資巨鱷羅杰斯最新持倉:只留四種資產(chǎn)

汽車要聞

兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

態(tài)度原創(chuàng)

家居
游戲
數(shù)碼
藝術(shù)
公開課

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

你也是龍宮禮奈?《寂靜嶺f》曾計(jì)劃"柴刀"當(dāng)武器!

數(shù)碼要聞

千元旗艦封神!哈趣H3 Ultra:巨幕畫質(zhì)+哈曼音質(zhì)承包全家影音

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫家

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版