国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

號(hào)稱1200萬(wàn)token上下文的模型來(lái)了,數(shù)據(jù)亮眼但疑點(diǎn)重重

0
分享至



當(dāng)?shù)貢r(shí)間 5 月 5 日,邁阿密一家名為 Subquadratic 的公司走出隱身模式。CTO Alexander Whedon 在 X 上把首款模型 SubQ 稱作“a major breakthrough in LLM intelligence”(LLM 智能領(lǐng)域的重大突破),聲稱這是首個(gè)完全基于次平方稀疏注意力(Subquadratic Sparse Attention,SSA)架構(gòu)的前沿模型,1,200 萬(wàn) token 上下文,1M token 場(chǎng)景下比 FlashAttention 快 52 倍,成本不到 Claude Opus 的 5%。同日宣布完成 2,900 萬(wàn)美元種子輪,估值 5 億美元。

融資由 Tinder 聯(lián)合創(chuàng)始人 Justin Mateen 旗下 JAM Fund 與前軟銀愿景基金合伙人 Javier Villamizar 領(lǐng)投,參投方包括 Anthropic、OpenAI、Stripe、Brex 的早期投資人。CEO Justin Dangel 是連續(xù)創(chuàng)業(yè)者,履歷集中在健康科技、保險(xiǎn)科技和消費(fèi)品。

CTO Alex Whedon 此前在 Meta 擔(dān)任軟件工程師,之后在咨詢公司 TribeAI 出任 Head of Generative AI。官網(wǎng)稱團(tuán)隊(duì)還有 11 名來(lái)自 Meta、Google、牛津、劍橋、字節(jié)跳動(dòng)、Adobe的 PhD,姓名未公開(kāi)。


圖丨相關(guān)推文(來(lái)源:X)

按官方文檔,SubQ 要解決的是 Transformer 最根深蒂固的那道天花板:注意力機(jī)制的算力消耗隨上下文長(zhǎng)度呈平方級(jí)增長(zhǎng),序列翻一倍,算力翻四倍。

Subquadratic 把這種 dense attention 視作根本性的成本瓶頸,自家方案命名為 SSA。其核心機(jī)制按報(bào)告原文是 content-dependent selection,對(duì)每個(gè) query,模型選出“值得 attend 的位置”,只對(duì)那些位置做精確的 attention 計(jì)算。博文同時(shí)把 SSA 總結(jié)為三項(xiàng)獨(dú)有優(yōu)勢(shì):在計(jì)算和內(nèi)存上都是線性擴(kuò)展、內(nèi)容相關(guān)的路由、可以從任意位置稀疏檢索。


圖丨注意力計(jì)算量(來(lái)源:Subquadratic)

據(jù)官方披露,在 B200 GPU 上對(duì)比 FlashAttention-2,128K token 時(shí) SubQ 快 7.2 倍,256K 時(shí) 13.2 倍,512K 時(shí) 23 倍,到 1M token 時(shí)拉到 52.2 倍。按官方推算,序列長(zhǎng)到 12M token 時(shí),注意力計(jì)算量比標(biāo)準(zhǔn) dense attention 減少近 1,000 倍。

Benchmark 也直接對(duì)位主流前沿模型。RULER 128K 長(zhǎng)上下文測(cè)試上 SubQ 拿到 95.0%,與 Claude Opus 4.6 的 94.8% 幾乎打平。SWE-Bench Verified 上 81.8%,超過(guò) Opus 4.6 的 80.8% 和 Gemini 3.1 Pro 的 80.6%。

在考察長(zhǎng)上下文多源證據(jù)檢索整合能力、也是最關(guān)鍵的 MRCR v2 上,SubQ 同時(shí)報(bào)了兩個(gè)分?jǐn)?shù),研究版 83,第三方驗(yàn)證的生產(chǎn)版 65.9。同項(xiàng)目下 Claude Opus 4.7 是 32.2,Gemini 3.1 Pro 26.3,GPT 5.5 74.0。

如此逆天的數(shù)據(jù)自然引發(fā)了大量關(guān)注,質(zhì)疑也隨之而來(lái)。

前 OpenAI Sora 團(tuán)隊(duì)成員、AI 工程師 Will Depue 第一時(shí)間發(fā)出質(zhì)疑:SubQ 幾乎可以肯定是對(duì) Kimi 或 DeepSeek 稀疏注意力(sparse attention)的微調(diào)。Whedon 幾個(gè)小時(shí)后的帖子部分證實(shí)了這一推測(cè),公司確實(shí)將開(kāi)源模型的權(quán)重作為起點(diǎn),“這是基于我們目前的資金規(guī)模和公司發(fā)展階段做出的選擇”。


圖丨相關(guān)推文(來(lái)源:X)

但回看此前的相關(guān)研究,Kimi Linear 實(shí)際是混合結(jié)構(gòu),3/4 的層用線性注意力,剩下 1/4 仍然用平方復(fù)雜度的 MLA,Kimi 自己在論文里就承認(rèn)純線性版本 “在精確記憶檢索和精確復(fù)制上仍然吃力”,所以沒(méi)有用在所有層。

DeepSeek Sparse Attention 內(nèi)部負(fù)責(zé)篩選 token 的 lightning indexer 自身仍是 O(n2),只是常數(shù)因子比 MLA 小一個(gè)數(shù)量級(jí),復(fù)雜度被搬了位置而已。Mamba 和 RWKV 在 FLOP 層面確實(shí)做到了線性,但在前沿規(guī)模下游任務(wù)上跑不過(guò)標(biāo)準(zhǔn)注意力,至今沒(méi)有任何前沿 LLM 單獨(dú)使用它們。

如果 SubQ 把權(quán)重起點(diǎn)放在這些已經(jīng)被業(yè)界明確畫出復(fù)雜度邊界的方案上,又是怎么在它們的基礎(chǔ)上做出“減少 1,000 倍計(jì)算量”這種數(shù)量級(jí)躍升的?

清華大學(xué)交叉信息研究院博士游嘉誠(chéng)也在 X 上提到,Subquadratic 所宣稱的計(jì)算和內(nèi)存上都是線性擴(kuò)展這個(gè)特性實(shí)際上并不是 SSA 獨(dú)有。dense attention 配合 FlashAttention 早已做到線性內(nèi)存,這是業(yè)界幾年前就普及的標(biāo)配,SubQ 卻依然把它單列為 SSA 三大獨(dú)有優(yōu)勢(shì)之一來(lái)宣傳。

按照官方博文的說(shuō)法,SSA 的核心不是對(duì) attention 做近似,而是不再假設(shè)每一對(duì) token 都可能重要,把計(jì)算只限制在真正承載信號(hào)的位置上,跳過(guò)其余。

那么問(wèn)題來(lái)了,模型如何在跑 attention 之前知道哪些位置承載信號(hào)?這本身是個(gè)循環(huán):要判斷某個(gè) token 沒(méi)有信號(hào),就必須先把它和當(dāng)前 query 比較一次,而比較本身的代價(jià)正是 quadratic 的全部來(lái)源。

Will Depue 用 phonebook eval 解釋了這件事。phonebook 是衡量長(zhǎng)上下文檢索能力的一種基準(zhǔn),給模型一份 10 萬(wàn)人的電話簿,再問(wèn)其中某個(gè)特定姓名的電話。模型不知道未來(lái)會(huì)被問(wèn)到哪個(gè)姓名,理論上必須保留所有姓名在 context 里。任何 “提前丟棄信息” 的策略,在這個(gè) eval 上都會(huì)失分。

博文里沒(méi)有解釋 SSA 的 selection 機(jī)制如何解決這個(gè)循環(huán)。一種可能是 SSA 內(nèi)部有一個(gè)輕量 indexer 做評(píng)分(類似 DSA),但 selector 自身仍是 O(n2),復(fù)雜度只是被搬了位置。另一種可能是 selector 使用某種 learned gating,從訓(xùn)練數(shù)據(jù)中學(xué)到哪些位置值得保留,但這種方案在 phonebook 這類 “信息位置完全不可預(yù)測(cè)” 的任務(wù)上幾乎注定失敗。

報(bào)告稱,訓(xùn)練數(shù)據(jù)特意選用“信息密度高、交叉引用結(jié)構(gòu)豐富的長(zhǎng)文本”,因?yàn)檫@類數(shù)據(jù)“會(huì)迫使 selection 機(jī)制學(xué)會(huì)跨越大跨度位置做路由”。這相當(dāng)于承認(rèn) selection 機(jī)制是被訓(xùn)練出來(lái)的,而不是從 attention 矩陣動(dòng)態(tài)推導(dǎo)出來(lái)的。一旦 selection 是 learned gating,長(zhǎng)上下文檢索的可靠性就被鎖死在訓(xùn)練數(shù)據(jù)的分布里:訓(xùn)練數(shù)據(jù)里見(jiàn)過(guò)的位置和模式,模型能找到;分布之外的,比如 phonebook 這種全然隨機(jī)的查詢,模型只能賭。

官方公布的 benchmark 同樣疑點(diǎn)重重。最大賣點(diǎn) 12M token 并沒(méi)有完整 benchmark,所有 RULER、MRCR v2、SWE-Bench 的成績(jī)都來(lái)自 1M-Preview 版本,“12M token 上的研究結(jié)果” 對(duì)應(yīng)的只是一個(gè) 92.1% 的 needle-in-a-h(huán)aystack 分?jǐn)?shù),而這是長(zhǎng)上下文測(cè)試?yán)镒詈?jiǎn)單的一種,只考察模型能否在大堆 token 里找到一根特定的針,不評(píng)估多跳檢索或證據(jù)整合。

但它是不是騙局終究還無(wú)法實(shí)錘。Subquadratic 尚未公布詳細(xì)模型卡,目前只能通過(guò)申請(qǐng)小范圍內(nèi)測(cè)來(lái)試用,獨(dú)立基準(zhǔn)測(cè)試結(jié)果也還沒(méi)有出來(lái)。

不過(guò)說(shuō)起來(lái),類似的劇本兩年前剛上演過(guò)一次。

2024 年 8 月,舊金山公司 Magic.dev 發(fā)布 LTM-2-mini,宣稱 1 億 token 上下文窗口、相對(duì)標(biāo)準(zhǔn)注意力 1,000 倍效率優(yōu)勢(shì),憑這一發(fā)布累計(jì)融資超過(guò) 5 億美元。到 2026 年初,沒(méi)有任何 Magic 之外的開(kāi)發(fā)者或企業(yè)公開(kāi)使用 LTM-2-mini 的記錄,技術(shù)報(bào)告沒(méi)出,模型沒(méi)開(kāi)源,benchmark 也沒(méi)有第三方復(fù)現(xiàn)。

SubQ 的發(fā)布材料和 Magic 當(dāng)年高度同構(gòu),同樣的 1,000 倍效率,同樣 “打破 Transformer 平方律” 的敘事,同樣不開(kāi)源,同樣把完整技術(shù)細(xì)節(jié)推遲到 “完整模型卡片即將公布”。差別是 SubQ 這次一上來(lái)就奔著商業(yè)化產(chǎn)品去(API、CLI agent、搜索),而 Magic 當(dāng)年還停留在研究 demo 階段。

因此,它的成色究竟如何,或許能比 Magic.dev 更快見(jiàn)分曉。

參考資料:

1.https://subq.ai/introducing-subq

2.https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof

3.https://x.com/willdepue/status/2051734355509235734

運(yùn)營(yíng)/排版:何晨龍

注:封面/首圖由 AI 輔助生成

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三奪世界冠軍總獎(jiǎng)金28萬(wàn),車手到手14萬(wàn),張雪卻看到了幾個(gè)億買賣

三奪世界冠軍總獎(jiǎng)金28萬(wàn),車手到手14萬(wàn),張雪卻看到了幾個(gè)億買賣

小娛樂(lè)悠悠
2026-05-06 00:05:46
索尼促銷:電視最高45%折扣,耳機(jī)相機(jī)同步降價(jià)

索尼促銷:電視最高45%折扣,耳機(jī)相機(jī)同步降價(jià)

我是一個(gè)粉刷匠2
2026-05-05 10:15:37
又一老字號(hào)暴雷,創(chuàng)始人被查,國(guó)資剛接盤就踩雷?市值蒸發(fā)4億

又一老字號(hào)暴雷,創(chuàng)始人被查,國(guó)資剛接盤就踩雷?市值蒸發(fā)4億

阿晪美食
2026-05-06 19:08:41
太豪了!諾蘭的史詩(shī)級(jí)巨制,終于來(lái)了

太豪了!諾蘭的史詩(shī)級(jí)巨制,終于來(lái)了

來(lái)看美劇
2026-05-05 21:47:15
拖了35年才上映,首日僅393萬(wàn),我感慨:票房之王也救不了港片

拖了35年才上映,首日僅393萬(wàn),我感慨:票房之王也救不了港片

靠譜電影君
2026-05-03 22:45:48
度假穿搭:不是穿給別人看,是脫下日常的盔甲

度假穿搭:不是穿給別人看,是脫下日常的盔甲

疾跑的小蝸牛
2026-05-06 21:05:19
沒(méi)想到5月剛開(kāi)始,盧昱曉就以這種方式徹底塌房了

沒(méi)想到5月剛開(kāi)始,盧昱曉就以這種方式徹底塌房了

科學(xué)發(fā)掘
2026-05-06 19:19:55
曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國(guó),84歲活成這樣,引人熱議!

許三歲
2026-04-25 06:45:10
何賽飛霸氣回應(yīng)兒子跟她姓:這是我結(jié)婚的唯一條件,不同意就換人

何賽飛霸氣回應(yīng)兒子跟她姓:這是我結(jié)婚的唯一條件,不同意就換人

五四觀娛
2026-05-05 12:11:52
國(guó)際原油期貨繼續(xù)下行 美油大跌10%

國(guó)際原油期貨繼續(xù)下行 美油大跌10%

財(cái)聯(lián)社
2026-05-06 18:36:15
43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

43歲身材還這么“滿”?王心凌的身材到底是怎么保持的?

馬拉松跑步健身
2026-05-04 19:32:40
伊朗稱將確保船只安全通過(guò)霍爾木茲海峽

伊朗稱將確保船只安全通過(guò)霍爾木茲海峽

21世紀(jì)經(jīng)濟(jì)報(bào)道
2026-05-06 21:51:16
現(xiàn)場(chǎng)畫面:日本首相高市早苗下跪!

現(xiàn)場(chǎng)畫面:日本首相高市早苗下跪!

每日經(jīng)濟(jì)新聞
2026-05-06 14:13:05
廣東3消息!杜鋒預(yù)言成真,胡明軒爆發(fā)難救主,張皓嘉杜潤(rùn)旺被批

廣東3消息!杜鋒預(yù)言成真,胡明軒爆發(fā)難救主,張皓嘉杜潤(rùn)旺被批

多特體育說(shuō)
2026-05-06 22:26:47
尷尬!家長(zhǎng)因孩子膝蓋磕破責(zé)怪老師被回懟,“是五一假期磕破的”

尷尬!家長(zhǎng)因孩子膝蓋磕破責(zé)怪老師被回懟,“是五一假期磕破的”

火山詩(shī)話
2026-05-06 06:39:14
女人有錢沒(méi)錢,一眼就能看出來(lái):沒(méi)錢的女人,大多有這三個(gè)窮習(xí)慣

女人有錢沒(méi)錢,一眼就能看出來(lái):沒(méi)錢的女人,大多有這三個(gè)窮習(xí)慣

荷蘭豆愛(ài)健康
2026-05-04 12:57:32
前國(guó)米射手建議23歲瓊斯離隊(duì):去意大利會(huì)比1億歐先生麥克托米奈更強(qiáng)

前國(guó)米射手建議23歲瓊斯離隊(duì):去意大利會(huì)比1億歐先生麥克托米奈更強(qiáng)

籃壇第一線
2026-05-06 22:20:21
段鵬79歲臨終前說(shuō)出隱情:和尚死在黑云寨,是因?yàn)楹蜕兄懒恕?>
    </a>
        <h3>
      <a href=呆子的故事
2026-02-10 14:44:11
特斯拉 Model Y 將大改款?網(wǎng)傳有 5 項(xiàng)升級(jí),每個(gè)都是車主想要的!

特斯拉 Model Y 將大改款?網(wǎng)傳有 5 項(xiàng)升級(jí),每個(gè)都是車主想要的!

新浪財(cái)經(jīng)
2026-05-04 22:51:52
現(xiàn)貨黃金突破4700美元/盎司

現(xiàn)貨黃金突破4700美元/盎司

每日經(jīng)濟(jì)新聞
2026-05-06 17:03:14
2026-05-06 22:55:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16668文章數(shù) 514923關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

頭條要聞

目擊者:"沒(méi)綁緊"不是遇難女孩說(shuō)的 現(xiàn)場(chǎng)不少未成年人

頭條要聞

目擊者:"沒(méi)綁緊"不是遇難女孩說(shuō)的 現(xiàn)場(chǎng)不少未成年人

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂(lè)要聞

廣電總局發(fā)布2026年“微短劇+”行動(dòng)計(jì)劃推薦劇目

財(cái)經(jīng)要聞

最新GDP!全國(guó)30強(qiáng)城市,又變了

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無(wú)論能源形式 領(lǐng)克都要快樂(lè)

態(tài)度原創(chuàng)

本地
房產(chǎn)
數(shù)碼
游戲
公開(kāi)課

本地新聞

用青花瓷的方式,打開(kāi)西溪濕地

房產(chǎn)要聞

遙遙領(lǐng)先!這個(gè)澄邁頂流紅盤,憑什么持續(xù)霸榜

數(shù)碼要聞

華碩天選7 Pro Max游戲本上架,搭銳龍9 9955HX處理器

TES輸一場(chǎng)就被沖爛?粉絲貼臉怒罵新人:快退役吧,不要影響JKL!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版