国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

把8B模型塞進(jìn)iPhone,這家公司讓AI速度起飛,功耗省掉80%

0
分享至

當(dāng)整個(gè) AI 行業(yè)還在比拼參數(shù)規(guī)模、堆算力時(shí),有家初創(chuàng)在相反的方向發(fā)力:把模型壓縮到只剩 1 比特。

當(dāng)?shù)貢r(shí)間 3 月 31 日,美國(guó) AI 初創(chuàng)公司 PrismML 發(fā)布了一款旗艦?zāi)P?1-bit Bonsai 8B。該模式使用 Google TPU v4 進(jìn)行訓(xùn)練,在接近同等性能的前提下,可將模型權(quán)重壓縮至單個(gè)比特(原生 1 比特架構(gòu))。

多項(xiàng)智能基準(zhǔn)測(cè)試結(jié)果顯示,與傳統(tǒng) FP16 8B 模型相比,該模型在高保真推理和語(yǔ)音理解能力相當(dāng)?shù)那疤嵯?,?nèi)存占用從 16GB 降至 1.15GB,推理速度提升 8 倍,能效提升 4-5 倍。在現(xiàn)有硬件平臺(tái)上,該模型還能將能耗降低 75% 到 80%。也就是說(shuō),該技術(shù)以更少的資源完成了相同的工作,并有效降低了能耗成本。

值得關(guān)注的是,該公司在三種主流平臺(tái)跑通了這款模型。根據(jù)技術(shù)報(bào)告,Bonsai 8B 可通過(guò) MLX 或 Metal 接口在 Apple 設(shè)備(Mac、iPhone、iPad),也可基于 llama.cpp CUDA 在 NVIDIA GPU ,還可以通過(guò) MLXSwift 或 OpenCL 路徑在移動(dòng)端上運(yùn)行。

該技術(shù)有望催生新的 AI 系統(tǒng):既能在邊緣高效運(yùn)行,又能在云端經(jīng)濟(jì)高效擴(kuò)展。讓 AI 直接在手機(jī)、筆記本電腦等消費(fèi)電子設(shè)備本地運(yùn)行,并有望進(jìn)一步拓展至數(shù)據(jù)中心。有助于減少對(duì)云的依賴,而是基于該模型直接在設(shè)備上執(zhí)行的復(fù)雜 AI 應(yīng)用程序,進(jìn)而解鎖機(jī)器人、可穿戴設(shè)備和個(gè)人計(jì)算應(yīng)用程序等邊緣場(chǎng)景。

“人工智能的未來(lái)有望不再取決于誰(shuí)能建造最大的數(shù)據(jù)中心,而是取決于誰(shuí)能以單位能源和成本提供最大的智能。”該公司投資人、Khosla Ventures 創(chuàng)始人 Vinod Khosla 表示。


(來(lái)源:資料圖)

PrismML 是在加州理工學(xué)院團(tuán)隊(duì)技術(shù)支持下衍生而來(lái)。目前,該公司已通過(guò)種子輪融資和 SAFE 融資籌集 1,625 萬(wàn)美元,投資者包括 Khosla Ventures、Cerberus Capital 和加州理工學(xué)院。

該公司聯(lián)合創(chuàng)始人兼 CEO、加州理工學(xué)院教授 Babak Hassibi 稱,該技術(shù)是一種能夠適應(yīng)各種硬件環(huán)境,并“在單位能耗和成本下釋放更高智能密度”的數(shù)學(xué)突破。


圖丨1-bit Bonsai 8B 的技術(shù)報(bào)告(來(lái)源:PrismML)

隨著 AI 模型規(guī)模和計(jì)算量的提升,部署高級(jí)智能技術(shù)越來(lái)越需要龐大的數(shù)據(jù)中心基礎(chǔ)設(shè)施。但由于延遲、硬件和隱私等方面的限制,實(shí)時(shí)、本地化的 AI 體驗(yàn)仍面臨嚴(yán)峻的挑戰(zhàn)。

PrismML 指出了一個(gè)容易忽略的事實(shí):在端側(cè)推理場(chǎng)景下,真正“卡脖子”的是內(nèi)存帶寬而非算力。該公司的關(guān)鍵優(yōu)勢(shì)在于,通過(guò)數(shù)年時(shí)間研發(fā)了壓縮神經(jīng)網(wǎng)絡(luò)所需的數(shù)學(xué)理論來(lái)應(yīng)對(duì)這一挑戰(zhàn)。

與傳統(tǒng)的 FP16 架構(gòu)不同,PrismML 創(chuàng)建了具有原生 1 比特結(jié)構(gòu)的模型。在不犧牲推理、編碼和通用知識(shí)能力的前提下,同時(shí)壓縮計(jì)算復(fù)雜度與內(nèi)存占用。


(來(lái)源:PrismML)

根據(jù) PrismML 發(fā)布的技術(shù)報(bào)告,他們將智能密度定義為模型智能與規(guī)模的比值(以比特為單位測(cè)量,或等效地以 GB 為單位)。按此標(biāo)準(zhǔn)衡量,1-bit Bonsai 8B 的智能密度得分達(dá) 1.06/GB。在參數(shù)數(shù)量相近的模型中,最接近的 Qwen3 8B 得分僅 0.10/GB。


(來(lái)源:PrismML)

在 MMLU-Redux 知識(shí)測(cè)試、MuSR 多步推理、GSM8K 數(shù)學(xué)解題、HumanEval+代碼生成、IFEval 指令遵循和 BFCLv3 工具調(diào)用六個(gè)維度的測(cè)試中,1-bit Bonsai 8B 的平均得分達(dá) 70.5 分,與 Qwen 3 8B 的 79.3 分差距不到 9 分,但其內(nèi)存占用僅為 1.15 GB,比同類產(chǎn)品小約 12-14 倍。這正是智能密度的核心所在:不僅具有高性能,而且以更易于部署的方式提供性能支持。

研究人員在不同設(shè)備上進(jìn)行了吞吐量數(shù)據(jù)對(duì)比。在 M4 Pro Mac 上,Bonsai 8B 的運(yùn)行速度可達(dá)每秒 136 token;在 RTX 4090 上,可達(dá)每秒 440 token;在 iPhone 17 Pro Max 上,其運(yùn)行速度約每秒 44 token。這些性能表現(xiàn)指向了一個(gè)與依賴云端的 AI 截然不同的可能性:其所帶來(lái)的體驗(yàn),可能會(huì)速度更快、更直接、更易用。

這種優(yōu)勢(shì)在處理長(zhǎng)周期智能體工作負(fù)載時(shí)更加明顯。在上面視頻的演示中,研究團(tuán)隊(duì)模擬了 50 個(gè)工單匯總和分配任務(wù)。結(jié)果顯示,在相同時(shí)間窗口內(nèi),Bonsai 8B 能夠完成所有 50 個(gè)工單,而標(biāo)準(zhǔn)的 FP 16 8B 模型在同一時(shí)間段內(nèi)只能完成 6 個(gè)。

對(duì)于需要持續(xù)進(jìn)行多步驟推理的智能體而言,更高的吞吐量和更低的內(nèi)存占用不僅能提升系統(tǒng)速度,還有利于擴(kuò)展智能體實(shí)際完成的工作量。


圖丨各種硬件平臺(tái)的能耗對(duì)比(來(lái)源:PrismML)

從模型效率來(lái)看,Bonsai 8B 的能耗也具有優(yōu)勢(shì),而這一點(diǎn)與經(jīng)濟(jì)效益直接相關(guān)。數(shù)據(jù)結(jié)果顯示,其遠(yuǎn)低于 FP 16 版本,能效大約提升 4-5 倍。在 M4 Pro 上,其能耗為 0.074 毫瓦時(shí)/token,而在 iPhone 17 Pro Max 上,其能耗僅為 0.068 毫瓦時(shí)/token。


(來(lái)源:PrismML)

為進(jìn)一步展示技術(shù)的擴(kuò)展性,PrismML 還同步推出了兩款更小的型號(hào):Bonsai 4B 和 Bonsai 1.7B,內(nèi)存占用分別是 0.5GB 和 0.24GB。研究人員選取了從 1.2GB(Qwen3 0.6B)到 16.4GB(Qwen3 8B)的 20 款主流模型。從與同量級(jí)競(jìng)品對(duì)比結(jié)果來(lái)看,PrismML 的三款模型在“智能密度”指標(biāo)上具有優(yōu)勢(shì)。

該公司承認(rèn)技術(shù)當(dāng)前仍具有局限性:一方面,這些結(jié)果仍是在通用硬件和軟件優(yōu)化的前提下實(shí)現(xiàn);另一方面,移動(dòng)端的能耗數(shù)據(jù)來(lái)自電池耗電速率的間接估算。


如果適配專門為 1 比特模型設(shè)計(jì)的硬件,有可能減少對(duì)復(fù)雜數(shù)學(xué)乘法的需求。在此前提下 PrismML 預(yù)測(cè),未來(lái)硬件只需執(zhí)行簡(jiǎn)單的加減運(yùn)算,有望進(jìn)一步將性能和能效提升 1 個(gè)數(shù)量級(jí)。

總體來(lái)說(shuō),這種“以小博大”的新范式,正在打破算力和設(shè)備之間的物理邊界:以往需要權(quán)衡取舍的場(chǎng)景,例如企業(yè)級(jí)本地部署、隱私敏感場(chǎng)景、間歇性連接環(huán)境、成本受限的 GPU 服務(wù)等,未來(lái)有望通過(guò)同一套方案覆蓋。

參考資料:

https://github.com/PrismML-Eng/Bonsai-demo/blob/main/1-bit-bonsai-8b-whitepaper.pdf

https://prismml.com/news/prismml-launches-worlds-first-1-bit-ai-model

https://prismml.com/news/bonsai-8b

https://www.wsj.com/cio-journal/caltech-researchers-claim-radical-compression-of-high-fidelity-ai-models-e66f31c9?mod=tech_feat1_ai_pos1

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
孫穎莎賽后全隊(duì)離場(chǎng),唯獨(dú)邱貽可獨(dú)坐看臺(tái)等她,師徒同框太暖心

孫穎莎賽后全隊(duì)離場(chǎng),唯獨(dú)邱貽可獨(dú)坐看臺(tái)等她,師徒同框太暖心

小娛樂(lè)悠悠
2026-04-03 08:46:34
中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

中央終于放手!中央交出“定價(jià)權(quán)”,地方以后只能靠自己搶錢?

混沌錄
2026-03-31 17:03:12
張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
張雪機(jī)車兩連冠!必須提醒:你們動(dòng)巨頭500億的蛋糕,一定要小心

張雪機(jī)車兩連冠!必須提醒:你們動(dòng)巨頭500億的蛋糕,一定要小心

達(dá)文西看世界
2026-03-31 18:53:29
從千億到虧損邊緣,越秀地產(chǎn)還有多少“坑”要填?

從千億到虧損邊緣,越秀地產(chǎn)還有多少“坑”要填?

智趣財(cái)經(jīng)
2026-04-02 10:33:20
伊朗對(duì)美以發(fā)動(dòng)第89波攻勢(shì),自殺式無(wú)人機(jī)突進(jìn)北印度洋,逼退“林肯”號(hào)航母

伊朗對(duì)美以發(fā)動(dòng)第89波攻勢(shì),自殺式無(wú)人機(jī)突進(jìn)北印度洋,逼退“林肯”號(hào)航母

上觀新聞
2026-04-02 04:24:13
35國(guó)獲知華盛頓出局,特朗普憤怒,英國(guó)為何不邀請(qǐng)他

35國(guó)獲知華盛頓出局,特朗普憤怒,英國(guó)為何不邀請(qǐng)他

星星會(huì)墜落
2026-04-03 09:19:10
德黑蘭出現(xiàn)了不對(duì)的苗頭,伊朗總統(tǒng)已經(jīng)被革命衛(wèi)隊(duì)完全壓制?

德黑蘭出現(xiàn)了不對(duì)的苗頭,伊朗總統(tǒng)已經(jīng)被革命衛(wèi)隊(duì)完全壓制?

深析古今
2026-04-03 09:31:32
日被嚇得不輕!中俄聯(lián)手提前“演練”臺(tái)海之戰(zhàn),美:是時(shí)候出手了

日被嚇得不輕!中俄聯(lián)手提前“演練”臺(tái)海之戰(zhàn),美:是時(shí)候出手了

夏末moent
2026-04-02 13:40:54
“清明吃一鮮,一年病不沾”!清明前后使勁吃,一護(hù)肝、二利水、

“清明吃一鮮,一年病不沾”!清明前后使勁吃,一護(hù)肝、二利水、

馬蹄燙嘴說(shuō)美食
2026-04-03 06:00:03
英特爾把顯卡塞進(jìn)了CPU插槽,384單元核顯直接焊在主板上

英特爾把顯卡塞進(jìn)了CPU插槽,384單元核顯直接焊在主板上

碳基打工人
2026-04-03 09:16:56
十年效忠,半夜卷鋪蓋:司法部長(zhǎng)帕姆·邦迪的“頭號(hào)忠臣”幻滅記

十年效忠,半夜卷鋪蓋:司法部長(zhǎng)帕姆·邦迪的“頭號(hào)忠臣”幻滅記

冰汝看美國(guó)
2026-04-03 05:02:08
粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

粉底液將軍事件再升級(jí)!網(wǎng)友懷疑反華勢(shì)力入侵,張凌赫恐被當(dāng)炮灰

千言?shī)蕵?lè)記
2026-04-02 12:32:24
降價(jià)152萬(wàn)再拍賣,常州市這棟千萬(wàn)級(jí)豪宅別墅被人撿漏607萬(wàn)競(jìng)得

降價(jià)152萬(wàn)再拍賣,常州市這棟千萬(wàn)級(jí)豪宅別墅被人撿漏607萬(wàn)競(jìng)得

天天話事
2026-04-03 08:50:29
程正昌:作為中國(guó)人,我很高興球隊(duì)擁有楊瀚森這樣的潛力新星

程正昌:作為中國(guó)人,我很高興球隊(duì)擁有楊瀚森這樣的潛力新星

懂球帝
2026-04-03 08:11:20
開(kāi)戰(zhàn)34天,普京全球發(fā)聲,俄伊斷交,以色列邊境告急

開(kāi)戰(zhàn)34天,普京全球發(fā)聲,俄伊斷交,以色列邊境告急

愛(ài)不愛(ài)都依你
2026-04-03 08:19:32
周薪30萬(wàn)鎊 31歲曼城隊(duì)長(zhǎng)確定自由身離隊(duì) 9年隨隊(duì)奪19冠 去向曝光

周薪30萬(wàn)鎊 31歲曼城隊(duì)長(zhǎng)確定自由身離隊(duì) 9年隨隊(duì)奪19冠 去向曝光

我愛(ài)英超
2026-04-03 05:55:59
被外交部揭底的極右翼分子,曝光了

被外交部揭底的極右翼分子,曝光了

環(huán)球時(shí)報(bào)國(guó)際
2026-04-02 23:52:23
姆巴佩和女友近照,27歲已是超巨,身家過(guò)億,女友是火辣演員

姆巴佩和女友近照,27歲已是超巨,身家過(guò)億,女友是火辣演員

大西體育
2026-03-31 13:27:01
嚴(yán)屹寬談張凌赫“粉底液將軍”爭(zhēng)議:演員對(duì)妝造的決策權(quán)有限,有質(zhì)疑說(shuō)明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

嚴(yán)屹寬談張凌赫“粉底液將軍”爭(zhēng)議:演員對(duì)妝造的決策權(quán)有限,有質(zhì)疑說(shuō)明受到了關(guān)注,要用虛心的心態(tài)接受質(zhì)疑

極目新聞
2026-04-02 14:29:35
2026-04-03 10:35:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16526文章數(shù) 514831關(guān)注度
往期回顧 全部

科技要聞

SpaceX沖刺2萬(wàn)億美元估值,馬斯克野心太大

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

頭條要聞

專家:伊朗導(dǎo)彈數(shù)量足夠維持反擊一到兩周

體育要聞

邵佳一的改革,從讓每個(gè)人踢舒服開(kāi)始

娛樂(lè)要聞

《浪姐》人氣榜出爐!曾沛慈斷層第一

財(cái)經(jīng)要聞

全球石油危機(jī)或?qū)⒙?/h3>

汽車要聞

軸距2米7/后排能蹺腿 試駕后驅(qū)小車QQ3 EV

態(tài)度原創(chuàng)

本地
時(shí)尚
家居
游戲
公開(kāi)課

本地新聞

從學(xué)徒到世界冠軍,為什么說(shuō)張雪的底氣在重慶?

為什么“這個(gè)顏色”成為今年頂流?這樣穿好看又治愈

家居要聞

歲月靜好 典雅新章

《紅色沙漠》BOSS戰(zhàn)引玩家眾怒:設(shè)計(jì)的糟糕且無(wú)趣!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版