国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Agent原生模型時代開啟!階躍Step 3.5 Flash上線,2天登頂OpenRouter全球趨勢榜

0
分享至


從 chatbot 到 Agent,大模型以「缸中之腦」為起點,正在悄然進化出屬于自己的四肢百骸。

但在 Agent 應(yīng)用狂飆突進的同時,各種安全事故也層出不窮。初具雛形的 Agent 應(yīng)用,正在急切呼喚一個更聰明、更可靠的「原生大腦」。

爆改基模結(jié)構(gòu),開啟 AI 模型

「Agent 原生」時代

Agent 時代,由于外部工具和任務(wù)重試需求等因素的介入,令上下文長度相比 coding、chatbot 等應(yīng)用場景,迎來了一輪暴漲。同時,用戶對即時性也有了更高的要求。相比 chatbot 時代,吐字比閱讀速度快的基本訴求,等待 Agent 工具交付結(jié)果的時間,必須被進一步壓縮。

所以,上一個時代的 Reasoning 模型,已經(jīng)不能再適應(yīng)本世代的需求。一個好的 Agent 原生模型,在推理成本、速度和智能水平三個層面,都必須再次迎來進化。

基于此,階躍星辰新上線的 Step 3.5 Flash,可謂「多快好省」:

為了滿足 Agent 時代的訴求,Step 3.5 Flash 從基礎(chǔ)模型層面,就采用了十分獨特的結(jié)構(gòu)設(shè)計。作為一款旗艦級語言推理模型,它并未盲目追逐模型尺寸,而是選擇了稀疏混合專家(MoE)架構(gòu)??倕?shù)量為 1960 億,每次推理僅激活約 110 億參數(shù)。

同時,Step 3.5 Flash,將傳統(tǒng)的 Linear Attention(線性注意力機制),打散為滑動窗口注意力(SWA)+ 全局注意力(Full Attention)3:1 的混合架構(gòu)。如果要找個比喻的話,這種結(jié)構(gòu),十分接近推理小說的閱讀體驗:大部分注意力依舊集中在當(dāng)前段落附近的文本,但當(dāng)一個伏筆回收時,幾章之前埋下的劇情鉤子,仍然能快速的浮現(xiàn)出來。

最后,在模型技術(shù)層面,Step 3.5 Flash 還使用了 MTP-3「多 token 并行預(yù)測」機制。

如果說傳統(tǒng)大模型,是一個詞接一個詞的“文字接龍”,那么 MTP-3,就像是先打草稿,再深入潤色。在 Transformer 主干之后,MTP-3 會附加一個專用的預(yù)測網(wǎng)絡(luò)層,讓模型根據(jù)當(dāng)前上下文同時推斷多個未來 token 的概率分布。這樣的設(shè)計,在保證因果一致性的前提下,實現(xiàn)了多 token 的并行推理。

架構(gòu)精巧,推理速度

可達每秒 350 個 token

多方加持下,Step 3.5 Flash 擁有了高達 256K 的超長上下文,和十分夸張的推理速度。在單請求代碼類任務(wù)上,Step 3.5 Flash 最高推理速度可達每秒 350 個 token,確保了復(fù)雜 Agent 任務(wù)的低延遲響應(yīng)。

和它的名字一樣,「快」,是 Step 3.5 Flash 最顯著的特點。但速度不能以犧牲智力為代價。在推理速度狂飆突進的同時,它的邏輯能力,同樣不容小覷。

在例行刷榜環(huán)節(jié)當(dāng)中,Step 3.5 Flash 拿下了 AIME 2025(美國數(shù)學(xué)邀請賽)97.3 分; IMOAnswerBench(國際奧林匹克數(shù)學(xué)基準測試)85.4 分;HMMT 2025(哈佛 - 麻省理工數(shù)學(xué)競賽) 96.2 分的好成績。

與國內(nèi)頂級開源模型相比,上述項目得分,Step 3.5 Flash 均為第一。

縮放定律似乎暗示我們,模型的能力,直接和尺寸掛鉤。但 Step 3.5 Flash 用事實證明,合適尺寸 + 充分的后訓(xùn)練,完全可以兼顧速度與效率,得到一個精致、且有強邏輯內(nèi)核的大模型。

拋棄「規(guī)模迷信」的背后,是階躍星辰對大模型的獨特理解:模型應(yīng)該凝縮「邏輯」,而非用超大規(guī)模,簡單地對文本模式死記硬背。

「高智商」,才是硬道理

這種認知的回報,在真實世界的任務(wù)當(dāng)中體現(xiàn)的尤為明顯:coding 榜單當(dāng)中,Step 3.5 Flash 拿下了 Terminal-Bench 2.0(終端任務(wù)自動化),和 LiveCodeBench-V6(實時編碼調(diào)試)國內(nèi)開源第一的好成績,整體測試水平屬于全球第一梯隊。

Agent 相關(guān)的測試項目更是手到擒來:τ2-Bench(多步任務(wù)規(guī)劃)88.2 分 ;xbench-DeepSearch(深度搜索與信息整合)54 分,均為國內(nèi)開源模型第一。BrowseComp(網(wǎng)頁瀏覽與上下文管理) 69 分,實現(xiàn)了對海外御三家模型的成功反超。

更大的認可,來自 AI 社群:在真實世界任務(wù)中,Step 3.5 Flash 以高達 167 Tokens/s 的推理速度,發(fā)布首日,即進入全球知名 AI 模型聚合平臺 OpenRouter “Fastest Models”速度榜前列。


發(fā)布 2 天,登頂 OpenRouter 全球趨勢榜(Trending)榜單。


作為匯聚了 OpenAI、Anthropic、Google 等主流模型的 API 平臺,OpenRouter 的全球趨勢榜單,實時反映著開發(fā)者在實際應(yīng)用中的模型偏好與付費選擇。此次登頂,意味著 Step 3.5 Flash 在真實任務(wù)當(dāng)中的表現(xiàn),已收獲了全球 AI 開發(fā)者的積極認可。

Reddit、X 等平臺上也有不少用戶,對 Step 3.5 Flash 的表現(xiàn)給出了很高的評價:多語言混用時切換自然,很少出現(xiàn)同尺寸模型身上常見的「夾雜」情況;行事穩(wěn)定可靠,幻覺率極低,且對自身的能力邊界有著清晰的認知,不會為了強行接話而編造答案。




而這一切,都發(fā)生在一臺 128G 內(nèi)存、M3 Max 芯片的 mac 電腦上。

本地 Agent,從此平權(quán)

據(jù)社區(qū)反饋,借助 llama.cpp,Step 3.5 Flash 在 mac 平臺上的推理速度極佳。平均速度 35 tokens/ 秒,約為該平臺理論最大效率的 70%。

某種程度上,這是階躍星辰 CTO 朱亦博「私心」的結(jié)果:他希望這個模型,能支持 4-bit 量化后,運行在 128GB 內(nèi)存的 MacBook 上。

但 Step 3.5 Flash 最終發(fā)布時的支持范圍遠不止于此:云服務(wù)層面,包括華為昇騰、沐曦股份、壁仞科技、燧原科技、天數(shù)智芯、阿里平頭哥等在內(nèi)的多家芯片廠商,均已率先完成了對 Step 3.5 Flash 的適配工作。同時,經(jīng)過 4-bit 量化以后,Step 3.5 Flash 也支持在 NVIDIA DGX Spark、Apple M3/M4 Max 以及 AMD AI Max+ 395 等主流個人 AI 終端上,進行本地部署——同時依然保持著 256K context 的超長上下文能力。

朱亦博在博客文章里不無自豪地表示,這是你在 128GB 內(nèi)存的 Macbook 和 DGX Spark 上,用 4-bit 暢快跑 256K context 的最強模型,沒有之一。

AI 模型的又一個「中國時刻」?

在過去的一年中,來自中國的開源模型,用更低的獲取門檻、推理成本和打平的性能,一舉擊碎了“超大規(guī)模 + 閉源 = 先進”的行業(yè)迷信,無數(shù) AI 應(yīng)用因此涌現(xiàn),也將大模型競爭,重新拉回了效率與架構(gòu)創(chuàng)新的主航道。

現(xiàn)在,國內(nèi)幾家 AI 公司動作頻頻、傳聞不斷,今年大模型領(lǐng)域的「春節(jié)檔」,注定熱鬧非常。而最近發(fā)布的 Step 3.5 Flash,或許正悄然復(fù)刻又一個 AI 領(lǐng)域的「中國時刻」——高性能、低門檻、新范式。只是這一次,范式轉(zhuǎn)移的焦點,從“推理模型”轉(zhuǎn)向了更具顛覆性的“Agent 原生(開源)基座模型”。

當(dāng)行業(yè)還在用稠密模型硬扛 Agent 場景時,它用 1960 億總參數(shù)、僅 110 億激活參數(shù)的精巧架構(gòu),同時解決了 Agent 時代的三大死結(jié)——超長上下文下的低延遲響應(yīng)、復(fù)雜任務(wù)中的高幻覺風(fēng)險、以及終端設(shè)備上的本地化部署。

當(dāng)海外巨頭將 Agent 能力鎖死在云端 API 時,Step 3.5 Flash,讓 256K 上下文的 Agent 大腦,跑在 128GB 內(nèi)存的 MacBook 上——這是對 AI 權(quán)力結(jié)構(gòu)的重構(gòu):Agent 的智能不應(yīng)被云廠商壟斷,開發(fā)者理應(yīng)擁有在終端側(cè)構(gòu)建私有化 Agent 工作流的自由。

這種“終端平權(quán)”邏輯,恰是此前中國 AI 大模型引領(lǐng)的范式轉(zhuǎn)移,在新環(huán)境下進一步的延續(xù)與深化:從模型獲取的平權(quán),進階到 Agent 能力的平權(quán)。

歷史從不重復(fù),但常常押韻。如果說之前的國產(chǎn)大模型,打破的是“對規(guī)模和閉源的迷信”,那么 Step 3.5 Flash 正在擊碎的,就是“速度與智能不可兼得”的新迷信。當(dāng)行業(yè)還在用“參數(shù)量”“榜單分數(shù)”這類舊范式衡量模型價值時,Step 3.5 Flash 已用 OpenRouter 趨勢榜登頂、Reddit 開發(fā)者自發(fā)安利、多芯片廠商 Day 0 適配的事實證明:真正的范式轉(zhuǎn)移,永遠始于真實世界中,解決真實訴求的能力。

我們或許正站在 Agent 時代的分水嶺上:過去一年,市場狂熱追逐 Agent 應(yīng)用層的“四肢百骸”,卻忽略了為其注入靈魂的“原生大腦”。而 Step 3.5 Flash 的此時此刻,又恰似 2025 年春節(jié)的彼時彼刻——盡管暫時被 Agent 應(yīng)用的喧囂浪潮所掩蓋,但歷史終將被證明,在 Agent 時代,是階躍星辰,完成了一次基礎(chǔ)設(shè)施層,最關(guān)鍵的范式躍遷。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點,探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實現(xiàn)技術(shù)價值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點,搶占 2026 智能升級發(fā)展先機!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國際油價盤中巨震,漲幅從30%回落至13%,白銀強勢翻紅

國際油價盤中巨震,漲幅從30%回落至13%,白銀強勢翻紅

21世紀經(jīng)濟報道
2026-03-09 14:36:03
天塌了!看到早期的章若楠,初戀般的感覺徹底消失,又是人工美女

天塌了!看到早期的章若楠,初戀般的感覺徹底消失,又是人工美女

TVB的四小花
2026-03-06 20:25:23
被分手三個月之后,費雷羅越來越像個怨婦

被分手三個月之后,費雷羅越來越像個怨婦

網(wǎng)球之家
2026-03-08 13:10:27
做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

她時尚丫
2026-02-17 21:56:13
伊朗只發(fā)射15枚導(dǎo)彈,特朗普卻已陷入被動!無條件投降原來這意思

伊朗只發(fā)射15枚導(dǎo)彈,特朗普卻已陷入被動!無條件投降原來這意思

鷹眼Defence
2026-03-08 12:25:56
專家警告:貴金屬市場已進入根本性重置

專家警告:貴金屬市場已進入根本性重置

政法頻道
2026-03-09 11:05:48
年終獎我只拿了零頭,我工作態(tài)度佛系,一個月后領(lǐng)導(dǎo)徹底慌了

年終獎我只拿了零頭,我工作態(tài)度佛系,一個月后領(lǐng)導(dǎo)徹底慌了

奶茶麥子
2026-03-07 17:37:19
美取消俄石油禁令,烏數(shù)千萬美元遭匈牙利扣押,澤連斯基徹底憤怒

美取消俄石油禁令,烏數(shù)千萬美元遭匈牙利扣押,澤連斯基徹底憤怒

肖茲探秘說
2026-03-09 16:18:52
“經(jīng)常鍛煉”被推翻?提醒:過了60歲,建議最好保持3個鍛煉習(xí)慣

“經(jīng)常鍛煉”被推翻?提醒:過了60歲,建議最好保持3個鍛煉習(xí)慣

今日養(yǎng)生之道
2026-03-09 00:06:03
云南大理一?;ㄌ亮耍砀?70五官精致,美得讓人移不開眼

云南大理一校花太漂亮了,身高170五官精致,美得讓人移不開眼

東方不敗然多多
2026-03-09 15:09:13
劉建業(yè)談執(zhí)教中超首秀:沒啥特殊感受,帶U18和中甲也都平局

劉建業(yè)談執(zhí)教中超首秀:沒啥特殊感受,帶U18和中甲也都平局

懂球帝
2026-03-09 13:33:20
王毅:我們希望能在深圳找到答案

王毅:我們希望能在深圳找到答案

21世紀經(jīng)濟報道
2026-03-08 11:35:33
央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學(xué)習(xí)

央視怒批,目不識丁、洋相百出,難怪兩會上馮遠征建議演員多學(xué)習(xí)

傲傲講歷史
2026-03-05 16:08:43
對肝最好的“3種食物”,建議:春天要多吃,養(yǎng)肝排毒強免疫

對肝最好的“3種食物”,建議:春天要多吃,養(yǎng)肝排毒強免疫

阿龍美食記
2026-03-09 13:28:40
表姑向我借了85000,17年沒還,我去銀行注銷舊卡時,柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

表姑向我借了85000,17年沒還,我去銀行注銷舊卡時,柜員看了眼卡說:女士,最后一筆轉(zhuǎn)賬留言您要看嗎?

二胡的歲月如歌
2026-03-02 18:50:23
新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

仙仙先生
2026-01-30 09:35:22
美國戰(zhàn)爭研究所:紅軍城方向戰(zhàn)斗逐漸減弱,俄軍正在囤積更多物資

美國戰(zhàn)爭研究所:紅軍城方向戰(zhàn)斗逐漸減弱,俄軍正在囤積更多物資

碳基生物關(guān)懷組織
2026-03-06 23:27:45
王毅通告全球,拒絕脫離聯(lián)合國,中美已無法共治,沙利文判斷沒錯

王毅通告全球,拒絕脫離聯(lián)合國,中美已無法共治,沙利文判斷沒錯

影孖看世界
2026-03-09 14:04:20
戲子當(dāng)?shù)溃茄雵蠊芾碇械囊淮笸袋c

戲子當(dāng)?shù)?,是央國企管理中的一大痛點

細說職場
2026-03-06 20:01:27
安德列娃閃電制造血案達成一項了不起成就,IW用時最長紀錄誕生

安德列娃閃電制造血案達成一項了不起成就,IW用時最長紀錄誕生

網(wǎng)球之家
2026-03-09 13:56:11
2026-03-09 17:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

沖上熱搜,馬化騰說沒想到“龍蝦”這么火

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

頭條要聞

媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

體育要聞

36連勝終結(jié)!大魔王也是可以戰(zhàn)勝的

娛樂要聞

姆巴佩戀情確認!與26歲新歡共度良宵

財經(jīng)要聞

亞太股市黑色星期一 這次A股有點不一樣

汽車要聞

對標奔馳小號G級 路虎小型衛(wèi)士最新消息曝光

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
游戲
公開課

房產(chǎn)要聞

國家要砸400億!海南這個超級項目又有新消息!

親子要聞

愛被“排卵試紙”綁架?別讓求子心切,殺死了你們的親密

旅游要聞

廣州解鎖“影視+文旅”消費新場景

《刺客信條4》重制版新細節(jié):現(xiàn)代劇情移除 海戰(zhàn)重做

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版