国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

匿名模型“大象”攪局OpenRouter:100B參數(shù)沖到熱榜第一,實(shí)測(cè)結(jié)果如何

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西4月16日?qǐng)?bào)道,這兩天,一款名為Elephant(大象)的匿名模型,在OpenRouter上悄然亮相。上線不到48小時(shí),這一模型已經(jīng)沖到OpenRouter熱榜(Trending)第一,目前調(diào)用量超過1850億個(gè)token。


在調(diào)用量日榜上,Elephant排名全球第八。


根據(jù)OpenRouter對(duì)其介紹,Elephant是一個(gè)100B參數(shù)量的純文本模型,主打高token效率,支持256k上下文和32k輸出,適合的任務(wù)包括代碼補(bǔ)全、調(diào)試、快速文檔處理和輕量級(jí)Agent交互等等。


目前,Elephant在網(wǎng)友反復(fù)的“拷打”下,暫時(shí)還沒供出自己是哪家的模型。有網(wǎng)友猜測(cè)這可能是國產(chǎn)最新模型的Flash版本,或海外全新實(shí)驗(yàn)室搗鼓出來的新品。

有不少開發(fā)者已經(jīng)曬出他們對(duì)Elephant的使用體驗(yàn),Hermes Agent的作者拿它跑了個(gè)基準(zhǔn)測(cè)試,發(fā)現(xiàn)這一模型在大部分工具調(diào)用任務(wù)中表現(xiàn)還行,不過偶爾會(huì)出現(xiàn)幻覺和對(duì)環(huán)境的錯(cuò)誤理解,這對(duì)一個(gè)100B的模型來說其實(shí)也正常。


輸出速度是這一模型的一大亮點(diǎn),其在OpenRouter上的平均速度就達(dá)到了67 token/s,首token延遲為0.89秒,在即時(shí)交互場(chǎng)景展現(xiàn)出了潛力。有網(wǎng)友感嘆,雖然質(zhì)量還不確定,但這是他用過最快的模型,讓他想起了Grok Fast 1的體驗(yàn)。


不過,光看別人的評(píng)價(jià)終究隔了一層。接下來,我們將親自上手,從編程、文檔處理到Agent交互,逐個(gè)任務(wù)實(shí)測(cè)一遍。

一、編程、長文本、Agent實(shí)測(cè):前端編程響應(yīng)快,支持多輪工具調(diào)用

在OpenRouter上,Elephant的編程能力排名在同尺寸模型中靠前,于是我們先嘗試了幾個(gè)編程的小項(xiàng)目,看看它能否快速完成。

首先是一個(gè)網(wǎng)站,這主要考察模型的前端能力。拿到開發(fā)任務(wù)后,Elephant對(duì)網(wǎng)站的幾個(gè)核心組件進(jìn)行了規(guī)劃,并主動(dòng)為這一網(wǎng)站加入了明暗模式切換、移動(dòng)端響應(yīng)式設(shè)計(jì)等我們并未要求的功能,最終耗時(shí)1分鐘左右完成開發(fā)。


當(dāng)我們要求它將網(wǎng)站的主色調(diào)改成綠色后,Elephant用不到10秒鐘就完成了修改。相信使用過其他模型的用戶都知道,大部分模型在處理修改任務(wù)時(shí)往往需要通讀上下文,逐一修改,一些細(xì)枝末節(jié)的修改可能要花上幾分鐘。

而Elephant基本做到了指哪兒打哪兒,這對(duì)于一些快速、高頻的網(wǎng)站調(diào)試需求是很實(shí)用的。


我們也試了試Elephant有沒有打造項(xiàng)目級(jí)任務(wù)的能力,讓它根據(jù)自己的內(nèi)部知識(shí),復(fù)刻一個(gè)支付軟件。我們是在Kilo Code插件中體驗(yàn)的模型編程,由Elephant驅(qū)動(dòng)的多個(gè)子Agent并行工作,進(jìn)一步放大了它的輸出速度優(yōu)勢(shì),但是其最終打造的結(jié)果僅能算是一個(gè)原型。這種表現(xiàn)可能與其較小的參數(shù)量有關(guān)。


再來看看Elephant在長文本場(chǎng)景的表現(xiàn)。我們向模型發(fā)送了一份幾百頁的招股書,并給出十分詳細(xì)的IPO解讀要求,讓Elephant輸出對(duì)這家公司基本面的總結(jié)。這種復(fù)雜的提示詞,對(duì)模型的指令遵循能力是一種挑戰(zhàn)。


在執(zhí)行過程中,Elephant可以快速調(diào)用多個(gè)文件讀取工具,以極快的速度輸出解讀。它用12萬token完成了對(duì)這份復(fù)雜文件的梳理,耗時(shí)卻僅有幾十秒。

細(xì)讀它的解讀可以發(fā)現(xiàn),模型完全按照我們的要求梳理出了核心信息,沒有遺漏,數(shù)據(jù)、結(jié)論都基本準(zhǔn)確。


我們還嘗試了讓Elephant完成Agent類型的任務(wù):將其接入一個(gè)OpenClaw類的產(chǎn)品,并要求它規(guī)劃一次去泰國的7日游,搜索景點(diǎn)注意事項(xiàng)、定位等關(guān)鍵信息,最終打造一個(gè)攻略網(wǎng)站。

Elephant可以充分利用Agent框架為其提供的工具,調(diào)用搜索等工具,獲取和泰國旅行相關(guān)的信息。


最終,Elephant在這種開放式Agent任務(wù)上做得不錯(cuò),旅程規(guī)劃合理,覆蓋了重要的景點(diǎn)。它還在高德上為我們查找了對(duì)應(yīng)地點(diǎn)的定位,點(diǎn)擊后即可跳轉(zhuǎn)到相應(yīng)界面。


幾個(gè)任務(wù)跑下來,我們發(fā)現(xiàn)Elephant在執(zhí)行任務(wù)中展現(xiàn)了優(yōu)秀的速度與指令響應(yīng)能力,前端原型開發(fā)和長文件處理效率不錯(cuò),但在打造完整項(xiàng)目級(jí)應(yīng)用時(shí)仍然有些力不從心。其Agent規(guī)劃與工具調(diào)用能力可圈可點(diǎn),能自主完成旅行攻略到網(wǎng)站落地??傮w而言,這是一款在輕量級(jí)、高頻任務(wù)中具有優(yōu)勢(shì)的高效模型。

二、第三方評(píng)估:指令遵循滿分,token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基準(zhǔn)測(cè)試上的表現(xiàn)如何?AI Benchy上對(duì)這一模型的評(píng)估值得參考。

AI Benchy是一個(gè)“擠水分”的民間AI測(cè)謊儀。如果你是一名開發(fā)者,或者你需要用 AI 來做自動(dòng)化工作流,相比于各家大廠的官方跑分,AI Benchy提供的“指令遵循度”和“真實(shí)性價(jià)比”數(shù)據(jù)往往具有更高的參考價(jià)值。

從絕對(duì)實(shí)力來看,Elephant在AI Benchy上并未進(jìn)入第一梯隊(duì),但這可能本來就不是它的目標(biāo)。在同參數(shù)量級(jí)的模型中,Elephant真正主打的是高效率與高性價(jià)比。

在token消耗維度,同樣的邏輯推理或代碼審計(jì)任務(wù)交給Elephant,其token用量要遠(yuǎn)少于其他廠商的模型,基本和GPT-5.4 Mini處在同一水平線上。這種高token效率,尤其適合大規(guī)模的to-C場(chǎng)景或是重復(fù)性的日常任務(wù)。


這種高效率在Agent場(chǎng)景尤為重要。因?yàn)锳gent工作流本質(zhì)上是多輪串行或并行的循環(huán)過程,模型需要反復(fù)規(guī)劃、調(diào)用工具、觀察結(jié)果、再規(guī)劃,每一輪都會(huì)消耗token并引入延遲。高token效率意味著模型在有限的上下文窗口和預(yù)算內(nèi)可以執(zhí)行更多輪操作,能用更少的計(jì)算資源跑完更長的Agent鏈路。

而在響應(yīng)時(shí)間方面,Elephant能做到基本在1秒左右給出回答,提供幾乎無延遲感的交互體驗(yàn),這一定程度上緩解了用戶在等待生成結(jié)果時(shí)的焦躁感,提升用戶體驗(yàn)。


這種低時(shí)延效果是不少廠商追逐的重點(diǎn)。前段時(shí)間,谷歌CEO Sundar Pichai就分享了一個(gè)觀點(diǎn):“延遲是優(yōu)秀產(chǎn)品的核心特征之一,低延遲往往意味著產(chǎn)品的底層技術(shù)架構(gòu)足夠優(yōu)秀,…,這也是我們打造Gemini的核心思路,即在前沿性能與速度之間找到平衡。

換句話說,低延遲不只是“快”這么簡(jiǎn)單,它背后往往代表著一套更扎實(shí)、更成熟的技術(shù)體系和更好的用戶體驗(yàn),最終會(huì)轉(zhuǎn)化為真實(shí)的商業(yè)價(jià)值。

最后,在指令遵循方面,Elephant拿到了一致性的滿分成績和100%的通過率,也就是說這個(gè)模型比較“聽話”。這能夠降低任務(wù)執(zhí)行過程中與模型反復(fù)交互、理清需求帶來的時(shí)間和算力浪費(fèi)。


結(jié)語:不拿大炮打蚊子,輕量模型也有價(jià)值

其實(shí),在最初測(cè)試Elephant模型時(shí),我們并未被它的基礎(chǔ)能力驚艷,甚至一度有所懷疑。但隨著深入真實(shí)任務(wù)場(chǎng)景,它的實(shí)用價(jià)值才真正顯現(xiàn)出來。

當(dāng)前,前沿模型的規(guī)模正不斷擴(kuò)大,生成的答案也越來越長。然而在真實(shí)的業(yè)務(wù)流水線中,用萬億參數(shù)模型去處理基礎(chǔ)文本分類或信息抽取,無異于“大炮打蚊子”:既浪費(fèi)算力,又導(dǎo)致token無意義消耗和時(shí)延飆升。

正因如此,剝離對(duì)龐大體量的迷信,根據(jù)任務(wù)復(fù)雜度精準(zhǔn)匹配模型尺寸,讓每一個(gè)token都用在刀刃上,已經(jīng)成為大模型規(guī)?;涞剡^程中,開發(fā)者和企業(yè)的共識(shí)。

在能反映真實(shí)調(diào)用量的OpenRouter平臺(tái)上,曾由超大規(guī)模模型壟斷的榜單,正被一批講究“token效率”的精銳小模型打破。這并非是對(duì)旗艦?zāi)P湍芰Φ姆穸?,而是工程理性回歸的信號(hào)。相較于那些參數(shù)量最大、最“智能”的模型,那些能以最低成本、最快響應(yīng)速度完成任務(wù)的模型,正展現(xiàn)出成為Agent操作系統(tǒng)的成長潛力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

泠泠說史
2026-04-16 19:29:38
燃盡了!賽季最佳皇馬,敗于一個(gè)選擇

燃盡了!賽季最佳皇馬,敗于一個(gè)選擇

足球周刊
2026-04-16 11:15:30
怎么又裝上了?朝鮮人民軍海軍“崔賢”號(hào)裝了一大堆雙聯(lián)裝高射機(jī)槍,這到底是要干啥?

怎么又裝上了?朝鮮人民軍海軍“崔賢”號(hào)裝了一大堆雙聯(lián)裝高射機(jī)槍,這到底是要干啥?

軍武速遞
2026-04-15 19:29:40
江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭(zhēng)誰勝出?

江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭(zhēng)誰勝出?

書畫相約
2026-04-14 07:21:03
印度人憤怒:中國人有那么多化肥,為什么不給我們用?

印度人憤怒:中國人有那么多化肥,為什么不給我們用?

步論天下事
2026-04-15 09:32:45
炸裂!王曼昱空降上海!5萬薪酬引爆爭(zhēng)議,馬琳力挺藏多大局?

炸裂!王曼昱空降上海!5萬薪酬引爆爭(zhēng)議,馬琳力挺藏多大局?

好乒乓
2026-04-16 12:15:25
女兒對(duì)快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

女兒對(duì)快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

烙任情感
2026-04-16 17:47:24
維爾茨:球隊(duì)重心完全轉(zhuǎn)向聯(lián)賽,必須確保下賽季歐冠席位

維爾茨:球隊(duì)重心完全轉(zhuǎn)向聯(lián)賽,必須確保下賽季歐冠席位

懂球帝
2026-04-16 22:33:04
早就不是顯卡公司了!黃仁勛給NVIDIA起了一個(gè)新名字:將電子轉(zhuǎn)為Token的“轉(zhuǎn)換器”

早就不是顯卡公司了!黃仁勛給NVIDIA起了一個(gè)新名字:將電子轉(zhuǎn)為Token的“轉(zhuǎn)換器”

快科技
2026-04-16 12:33:29
晚年李銀橋臨終吐真言:毛主席對(duì)粟裕的最高評(píng)價(jià),終于瞞不住了!

晚年李銀橋臨終吐真言:毛主席對(duì)粟裕的最高評(píng)價(jià),終于瞞不住了!

山月明史
2026-04-16 20:05:53
女子分娩強(qiáng)忍劇痛兩小時(shí),痛得大叫、嘔吐、捶床,仍堅(jiān)持不打無痛!老公苦苦哀求幾乎下跪:老婆求你了

女子分娩強(qiáng)忍劇痛兩小時(shí),痛得大叫、嘔吐、捶床,仍堅(jiān)持不打無痛!老公苦苦哀求幾乎下跪:老婆求你了

新民晚報(bào)
2026-04-16 09:50:14
八旗中的“正”“鑲”旗有什么區(qū)別?進(jìn)來看看,別再鬧笑話了!

八旗中的“正”“鑲”旗有什么區(qū)別?進(jìn)來看看,別再鬧笑話了!

凡人侃史
2026-04-15 23:19:03
中國的“性蕭條”時(shí)代,正式到來了

中國的“性蕭條”時(shí)代,正式到來了

律法刑道
2025-12-15 08:28:58
四川一男子火鍋店喝酒,見老板娘長得漂亮,竟要老板娘陪他喝酒!

四川一男子火鍋店喝酒,見老板娘長得漂亮,竟要老板娘陪他喝酒!

一口娛樂
2026-04-16 16:19:41
廣東3消息!新大外自宣加盟,徐杰獲絕配幫手,杜鋒最新病情

廣東3消息!新大外自宣加盟,徐杰獲絕配幫手,杜鋒最新病情

多特體育說
2026-04-15 23:08:51
沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

健康之光
2026-01-04 09:31:45
周繼紅出手!跳水隊(duì)大換血:全紅嬋徹底下桌,陳芋汐讓人意外

周繼紅出手!跳水隊(duì)大換血:全紅嬋徹底下桌,陳芋汐讓人意外

手工制作阿殲
2026-04-16 19:41:47
俄烏戰(zhàn)爭(zhēng)打了4年,中國終于明白:統(tǒng)一臺(tái)灣前,這3種人必須鏟除

俄烏戰(zhàn)爭(zhēng)打了4年,中國終于明白:統(tǒng)一臺(tái)灣前,這3種人必須鏟除

近史博覽
2026-03-29 06:14:56
《八千里路云和月》張?jiān)瓶蠖魅私Y(jié)局,盧云慘死,孟萬福意難平

《八千里路云和月》張?jiān)瓶蠖魅私Y(jié)局,盧云慘死,孟萬福意難平

樓蘭娛姐
2026-04-16 17:10:13
126:121!附加賽黑10誕生,庫里轟破隊(duì)史紀(jì)錄,聯(lián)盟第一壓力來了

126:121!附加賽黑10誕生,庫里轟破隊(duì)史紀(jì)錄,聯(lián)盟第一壓力來了

不似少年游
2026-04-16 16:56:38
2026-04-16 23:16:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11611文章數(shù) 117031關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰在大模型上更高效

頭條要聞

美國啟動(dòng)"經(jīng)濟(jì)狂怒"行動(dòng) 對(duì)伊朗施加最大化的經(jīng)濟(jì)壓力

頭條要聞

美國啟動(dòng)"經(jīng)濟(jì)狂怒"行動(dòng) 對(duì)伊朗施加最大化的經(jīng)濟(jì)壓力

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰生意迷霧

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

旅游
房產(chǎn)
教育
時(shí)尚
藝術(shù)

旅游要聞

宜動(dòng)宜靜!上海樂高樂園悟空小俠冒險(xiǎn)項(xiàng)目正式開放,周邊住宿業(yè)態(tài)升級(jí)

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

教育要聞

孩子一遇到數(shù)學(xué)難題就想放棄?成華嘉祥名師這樣建議

爆火的前額葉梗,讓多少年輕人主動(dòng)確診「腦殘」?

藝術(shù)要聞

張大千『 花菓薈萃冊(cè)』

無障礙瀏覽 進(jìn)入關(guān)懷版