国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從“數(shù)據(jù)融合”邁向“原生架構”:商湯發(fā)布 NEO 架構,重新定義多模態(tài)模型效能邊界

0
分享至

商湯科技正式發(fā)布并開源了與南洋理工大學 S-Lab合作研發(fā)的全新多模態(tài)模型架構 —— NEO,為日日新 SenseNova 多模態(tài)模型奠定了新一代架構的基石。

作為行業(yè)內率先實現(xiàn)深層次融合的可用原生多模態(tài)架構(Native VLM),NEO 從底層原理出發(fā),打破了傳統(tǒng)“模塊化”范式的桎梏,以“專為多模態(tài)而生”的創(chuàng)新設計,通過核心架構層面的多模態(tài)深層融合,實現(xiàn)了性能、效率和通用性的整體突破,重新定義了多模態(tài)模型的效能邊界,標志著人工智能多模態(tài)技術正式邁入“原生架構”的新時代。



論文網(wǎng)址:https://arxiv.org/abs/2510.14979

打破瓶頸:告別“拼湊”,擁抱“原生”



當前,業(yè)內主流的多模態(tài)模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴展方式,雖然實現(xiàn)了圖像輸入的兼容,但本質上仍以語言為中心,圖像與語言的融合僅停留在數(shù)據(jù)層面。這種“拼湊”式的設計不僅學習效率低下,更限制了模型在復雜多模態(tài)場景下(比如涉及圖像細節(jié)捕捉或復雜空間結構理解)的處理能力。

商湯 NEO 架構正是為了解決這一痛點而生。早在2024 年下半年,商湯便在國內率先突破多模態(tài)原生融合訓練技術,以單一模型在 SuperCLUE 語言評測 和 OpenCompass 多模態(tài)評測中奪冠,并基于這一核心技術打造了日日新 SenseNova 6.0,實現(xiàn)多模態(tài)推理能力領先。之后,在2025 年 7 月發(fā)布日日新 SenseNova 6.5 通過實現(xiàn)編碼器層面的早期融合,把多模態(tài)模型性價比提升 3 倍,并在國內率先推出商用級別的圖文交錯推理。商湯此次更進一步,徹底摒棄了傳統(tǒng)的模塊化結構,從底層原理出發(fā),推出了從零設計的 NEO 原生架構。

三大內核創(chuàng)新:實現(xiàn)視覺和語言的深層統(tǒng)一



NEO 架構以極致效率和深度融合為核心理念,通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創(chuàng)新,讓模型天生具備了統(tǒng)一處理視覺與語言的能力:

  • 原生圖塊嵌入 (Native Patch Embedding): 摒棄了離散的圖像 tokenizer,通過獨創(chuàng)的 Patch Embedding Layer (PEL) 自底向上構建從像素到詞元的連續(xù)映射。這種設計能更精細地捕捉圖像細節(jié),從根本上突破了主流模型的圖像建模瓶頸。
  • 原生三維旋轉位置編碼 (Native-RoPE): 創(chuàng)新性地解耦了三維時空頻率分配,視覺維度采用高頻、文本維度采用低頻,完美適配兩種模態(tài)的自然結構。這使得 NEO 不僅能精準捕獲圖像的空間結構,更具備向視頻處理、跨幀建模等復雜場景無縫擴展的潛力。
  • 原生多頭注意力 (Native Multi-Head Attention): 針對不同模態(tài)特點,NEO 在統(tǒng)一框架下實現(xiàn)了文本 token 的自回歸注意力和視覺 token 的雙向注意力并存。這種設計極大地提升了模型對空間結構關聯(lián)的利用率,從而更好地支撐復雜的圖文混合理解與推理。

此外,配合創(chuàng)新的 Pre-Buffer & Post-LLM 雙階段融合訓練策略,NEO 能夠在吸收原始 LLM 完整語言推理能力的同時,從零構建強大的視覺感知能力,徹底解決了傳統(tǒng)跨模態(tài)訓練中語言能力受損的難題。

實測表現(xiàn):十分之一的數(shù)據(jù),追平旗艦級性能



在架構創(chuàng)新的驅動下,NEO 展現(xiàn)出了驚人的數(shù)據(jù)效率與性能優(yōu)勢:

極高數(shù)據(jù)效率: 僅需業(yè)界同等性能模型 1/10 的數(shù)據(jù)量(3.9億圖像文本示例),NEO 便能開發(fā)出頂尖的視覺感知能力。無需依賴海量數(shù)據(jù)及額外視覺編碼器,其簡潔的架構便能在多項視覺理解任務中追平 Qwen2-VL、InternVL3 等優(yōu)質模塊化旗艦模型。

性能卓越且均衡: 在 MMMU、MMB、MMStar、SEED-I、POPE 等多項公開權威評測中,NEO 架構均斬獲高分,展現(xiàn)出優(yōu)于其他原生 VLM 的綜合性能,真正實現(xiàn)了原生架構的“精度無損”。

極致推理性價比: 特別是在 0.6B-8B 的參數(shù)區(qū)間內,NEO 在邊緣部署方面優(yōu)勢顯著。它不僅實現(xiàn)了精度與效率的雙重躍遷,更大幅降低了推理成本,顯著提升了多模態(tài)視覺感知的“性價比”。

開源共建:構建下一代 AI 基礎設施

架構是模型的“骨架”,只有骨架扎實,才能支撐起多模態(tài)技術的未來。NEO 架構的早期融合設計支持任意分辨率與長圖像輸入,能夠無縫擴展至視頻、具身智能等前沿領域,實現(xiàn)了從底層到頂層、端到端的真正融合。從應用角度,端到端的“原生一體化”設計,為機器人具身交互、智能終端多模態(tài)響應、視頻理解、3D交互及具身智能等多元化場景的應用,提供了堅實的技術支撐。

目前,商湯已正式開源基于 NEO 架構的 2B 與 9B 兩種規(guī)格模型,以推動開源社區(qū)在原生多模態(tài)架構上的創(chuàng)新與應用。商湯科技表示,致力于通過開源協(xié)作與場景落地雙輪驅動,將 NEO 打造為可擴展、可復用的下一代 AI 基礎設施,推動原生多模態(tài)技術從實驗室走向廣泛的產(chǎn)業(yè)化應用,加速構建下一代產(chǎn)業(yè)級原生多模態(tài)技術標準。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南京博物館已暫停金獸展覽,網(wǎng)購平臺出現(xiàn)大量仿制品

南京博物館已暫停金獸展覽,網(wǎng)購平臺出現(xiàn)大量仿制品

映射生活的身影
2025-12-25 22:58:40
龐家在香港發(fā)布會上“火力全開”,龐家發(fā)言怒懟:你們也配是記者

龐家在香港發(fā)布會上“火力全開”,龐家發(fā)言怒懟:你們也配是記者

范剬舍長
2025-12-23 22:52:07
中國電信員工爆出年終獎已到賬,這個數(shù)!

中國電信員工爆出年終獎已到賬,這個數(shù)!

通信頭條
2025-12-27 20:25:18
逃亡王妃哈雅罕見現(xiàn)身。變胖變老了,女兒逃離王室后面相都變了

逃亡王妃哈雅罕見現(xiàn)身。變胖變老了,女兒逃離王室后面相都變了

黃謀仕
2025-12-28 12:33:05
076型配套艦載無人機,至少已經(jīng)有了兩款

076型配套艦載無人機,至少已經(jīng)有了兩款

三叔的裝備空間
2025-12-28 14:27:26
揚眉吐氣!一年后,王星昊再完勝韓第一人申真谞,晉級棋仙戰(zhàn)4強

揚眉吐氣!一年后,王星昊再完勝韓第一人申真谞,晉級棋仙戰(zhàn)4強

L76號
2025-12-28 11:50:56
統(tǒng)一已成定局,五角大樓通告全球:美軍介入臺海,恐被解放軍殲滅

統(tǒng)一已成定局,五角大樓通告全球:美軍介入臺海,恐被解放軍殲滅

南宗歷史
2025-12-27 13:48:16
冠軍拼圖!上海申花簽下前德甲銀靴安德烈·席爾瓦!身價300萬歐!

冠軍拼圖!上海申花簽下前德甲銀靴安德烈·席爾瓦!身價300萬歐!

海浪星體育
2025-12-26 15:15:44
小孩子哪里會撒謊呢?美國一萌娃走丟,畫出其父畫像,超級抽象

小孩子哪里會撒謊呢?美國一萌娃走丟,畫出其父畫像,超級抽象

趣筆談
2025-12-25 10:42:34
今天傍晚至夜間北風漸強,明天起氣溫進入下行道

今天傍晚至夜間北風漸強,明天起氣溫進入下行道

新浪財經(jīng)
2025-12-28 12:00:59
弘一法師:人最大的悲哀,是一輩子都沒參透,這些簡單的道理

弘一法師:人最大的悲哀,是一輩子都沒參透,這些簡單的道理

木言觀
2025-12-28 09:37:17
徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

西門老爹
2025-12-25 18:42:42
57年張愛萍參加軍委會議后,彭德懷約他談話:你今天的講話過激了

57年張愛萍參加軍委會議后,彭德懷約他談話:你今天的講話過激了

海佑講史
2025-12-28 14:10:06
宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應過,要和她葬在一起。”

宋慶齡不愿與孫中山合葬,直言緣由:“這個人陪了我 53年,我早就答應過,要和她葬在一起!

史海孤雁
2025-12-27 20:40:17
呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

呂良偉70大壽:楊受成彎腰舉杯、章小惠胖出水桶腰、王晶鍋蓋頭

小小李娛
2025-12-25 20:50:09
驚天互換?巴薩被曝想用德容+3000萬,砸切爾西“億元先生”!

驚天互換?巴薩被曝想用德容+3000萬,砸切爾西“億元先生”!

田先生籃球
2025-12-27 20:30:38
12年視同繳費+42年工齡,退休金3644?這2個數(shù)決定高低

12年視同繳費+42年工齡,退休金3644?這2個數(shù)決定高低

趣味萌寵的日常
2025-12-28 13:31:52
53歲吳越自曝單身生活,為父母買上海大平層,坦言孤獨是一種福報

53歲吳越自曝單身生活,為父母買上海大平層,坦言孤獨是一種福報

好賢觀史記
2025-12-16 17:01:31
鄭麗文揮刀清黨,盧秀燕180度轉向表忠誠,韓流5萬力挺掀變局

鄭麗文揮刀清黨,盧秀燕180度轉向表忠誠,韓流5萬力挺掀變局

星辰夜語
2025-12-24 23:11:11
U22國足首位落選U23亞洲杯后衛(wèi)人選預測,曾是主帥愛將,引發(fā)熱議

U22國足首位落選U23亞洲杯后衛(wèi)人選預測,曾是主帥愛將,引發(fā)熱議

安?
2025-12-28 14:10:32
2025-12-28 15:35:00
財經(jīng)新媒體 incentive-icons
財經(jīng)新媒體
源于《財經(jīng)》,廣于財經(jīng)。
4709文章數(shù) 34141關注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭什么?

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

頭條要聞

四川原副省長葉寒冰被通報:長期出入私人會所聚餐飲酒

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

姚晨打卡絕版機位 高崎機場背后的遺憾

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
藝術
健康
教育

數(shù)碼要聞

內存漲價,日本秋葉原部分店鋪對高顯存顯卡限購

房產(chǎn)要聞

年銷20億+!中交·藍色港灣用好房子致敬好生活

藝術要聞

360天津總部,以“0與1”打造科技地標!

這些新療法,讓化療不再那么痛苦

教育要聞

孩子職業(yè)規(guī)劃越早越好

無障礙瀏覽 進入關懷版