国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1/10Token 消耗干同樣的活!Ling-2.6-flash 想幫開發(fā)者把 AI 成本打下來

0
分享至


更少的 Token,更好的結(jié)果。

作者丨吳海明

編輯丨梁丙鑒 馬曉寧

用戶苦 Token 成本久矣。

“燒了幾千塊錢的 Token,Agent 還是沒把活干完”,這或許是第一批嘗鮮“養(yǎng)蝦”的弄潮兒們最不想面對、卻又最常遭遇的尷尬時(shí)刻。

當(dāng) Agent 越發(fā)全面地接管工作流,人們在交付效果的權(quán)衡中,開始更多地看到效率問題。有時(shí)候它們能自主完成需求分析、多輪修改,直接交付可用的文案或代碼,有時(shí)候卻在復(fù)雜任務(wù)的拆解中,迷失工具調(diào)用的方向。端到端的任務(wù)場景,往往會讓成本失控的問題更加凸顯。一覺醒來,Token賬單幾百美元,正事卻沒干多少。

不少開發(fā)者會將之歸咎于 Agent 的架構(gòu)設(shè)計(jì)、工具鏈的完善程度,或是 Prompt 工程的深淺。但更根本的矛盾是,大模型本身的執(zhí)行力,即高效完成任務(wù)的能力,可能遠(yuǎn)未達(dá)到工業(yè)級可用標(biāo)準(zhǔn)。

這不僅指推理質(zhì)量本身,一個(gè)常被忽視的維度是詞元效率(Token Efficiency)。

當(dāng)傳統(tǒng)模型在多輪對話中不斷膨脹上下文窗口、消耗驚人 Token 時(shí),螞蟻百靈最新發(fā)布的Ling-2.6-flash,卻在用一個(gè)簡單的主張撬動(dòng)開發(fā)者的注意:更少Token,更快響應(yīng)、更強(qiáng)執(zhí)行。

一周前,代號為 Elephant Alpha 的匿名模型登陸 OpenRouter,這正是百靈模型 Ling-2.6-flash 的匿名測試版本。上線首日,Elephant Alpha 在沒有高調(diào)預(yù)熱的情況下,就迅速?zèng)_上 OpenRouter Trending 榜單第 2 位,日榜第 13 名,Token 使用量日增高達(dá)377%,prompt tokens 突破 6.11B。

開發(fā)者社區(qū)對這一路線的反應(yīng),已經(jīng)很說明問題。


01


Token效率成新賽點(diǎn)

官方技術(shù)文檔介紹,Ling-2.6-flsah 是一款總參數(shù)量 104B、激活參數(shù) 7.4B 的 Instruct 模型,此前通過 Elephant Alpha 展示出的核心能力,主要來自三方面革新:

? 混合線性架構(gòu),釋放推理效率:通過引入混合線性架構(gòu),模型從底層優(yōu)化計(jì)算效率,在 4 卡 H20 條件下推理速度最快可達(dá)到 340 tokens/s,Prefill 吞吐達(dá)到 Nemotron-3-Super 的 2.2 倍,以更高的“費(fèi)效比”完成任務(wù)。

? Token 效率優(yōu)化,提升智效比:在訓(xùn)練過程中,研究團(tuán)隊(duì)對Ling-2.6-flsah 的 Token 效率進(jìn)行了針對性校準(zhǔn),力求以更精簡的輸出完成既定目標(biāo)。在 Artificial Analysis 的完整評測中,Ling-2.6-flash僅消耗15M tokens,約為Nemotron-3-Super 等模型的1/10,以更高的“智效比”完成任務(wù)。

? 面向 Agent 場景進(jìn)行定向增強(qiáng):針對當(dāng)前需求最旺盛的 Agent 應(yīng)用,Ling-2.6-flash 在工具調(diào)用、多步規(guī)劃與任務(wù)執(zhí)行能力上持續(xù)優(yōu)化,在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench 等評測中,即使面對激活參數(shù)更大的模型,依然能夠取得相近甚至 SOTA 級別的表現(xiàn)。


API 定價(jià)方面,Ling-2.6-flash 輸入每百萬 tokens 定價(jià) 0.1 美元,輸出 0.3 美元,屬實(shí)屬于“白菜價(jià)”了。目前其 API 服務(wù)已正式向用戶開放,并提供了為期一周的免費(fèi)試用。

單點(diǎn)極限能力的榜首,早已是你方唱罷我登場,Ling-2.6-flash 更值得關(guān)注之處在于,它在控制 Token 消耗的前提下,仍然維持住了自身在 Agent 性能之爭中的強(qiáng)大競爭力。多位海外評測者也指出,其輸出風(fēng)格與產(chǎn)品體驗(yàn)更接近“實(shí)用型而非單純強(qiáng)大”的定位,這與其宣稱的“追求極致智效比”形成了某種呼應(yīng)。

作為第一款主打 Token 效率的模型,“高智效比”究竟是營銷話術(shù),還是實(shí)打?qū)嵉哪芰Γ课覀兊谝粫r(shí)間上手了 Elephant Alpha,不追峰值能力,不刷榜單分?jǐn)?shù),而是將它放進(jìn)真實(shí)任務(wù)場景中,實(shí)測結(jié)果說話。

02


實(shí)測:少即是多,Elephant Alpha實(shí)力幾何?

? 測試一:基準(zhǔn)測試——詞元效率(Token Efficiency)基準(zhǔn)

為確??陀^性,我們以 Qwen3.5-122B-A10B (Qwen3.5) 和 Nemotron-3-Super-120B-A12B (Nemotron-3-Super)作為基準(zhǔn)參照,在同等測試條件下進(jìn)行對比測試。

我們設(shè)計(jì)了三組測試任務(wù):Token 效率基準(zhǔn)、上下文窗口驗(yàn)證和 Function Calling 與結(jié)構(gòu)化輸出。

其中,Token 效率基準(zhǔn)涵蓋代碼生成(4 道題)、Bug修復(fù)(4 道題)、文檔摘要(3 道題)、邏輯推理(5 道題)和結(jié)構(gòu)化輸出(5 道題)五大場景,統(tǒng)計(jì)各模型的信息留存率與 Token 消耗。256K 的上下文窗口是 Elephant Alpha 的核心賣點(diǎn)之一。我們分別在 64K、128K、200K 三個(gè)長度下測試模型的信息召回能力。

Elephant Alpha 的表現(xiàn)如何呢?先看測試結(jié)果:


可以看到,Elephant Alpha 在評測人員收集的 4 個(gè) Bug 修復(fù)任務(wù)上展現(xiàn)出顯著優(yōu)勢,相對于 Qwen3.5 和 Nemotron-3-Super 成功修改通過 3 道的通過率,Elephant Alpha 修改后的代碼全部通過測試。

更高的信息留存率之下,輸出 Token 反而更少。Elephant Alpha 以 1,017 個(gè) Token 完成了 Qwen3.5 和 Nemotron-3-Super 分別需要 1,539 和 1464 個(gè) Token 才能達(dá)成的同等信息量任務(wù),節(jié)省約 50%。在 AI 落地日益講究 ROI 的當(dāng)下,這個(gè)數(shù)字頗有分量。

上下文窗口驗(yàn)證方面,三者均實(shí)現(xiàn)了 100% 召回率。受限于測試環(huán)境,我們未能觸及 256K 上限,但 200K 級別的穩(wěn)定表現(xiàn)已經(jīng)證明了基礎(chǔ)能力的可靠性,足以勝任大部分任務(wù)場景。

最后,三者在 Function Calling 測試(純python環(huán)境)中均觸發(fā)工具調(diào)用,但都只完成了單步操作(搜索文件),未完成"讀文件→分析→寫入"的三步連貫操作。這一結(jié)果提示我們,當(dāng)前的 Agent 能力邊界仍需在具體環(huán)境中進(jìn)一步探索。

?測試二:Coding測試——工程能力的真實(shí)考驗(yàn)

太多模型在基礎(chǔ)測試中表現(xiàn)亮眼,但一進(jìn)入真實(shí)工程場景,立刻拉胯。因此我們決定給 Elephant Alpha 再上點(diǎn)強(qiáng)度。

我們使用開源的opencode工具,將 Elephant Alpha 放進(jìn)了一個(gè)完整的項(xiàng)目開發(fā)流程中:創(chuàng)建一個(gè)具備 CRUD 能力的 RESTful API 服務(wù),包含數(shù)據(jù)庫模型設(shè)計(jì)、路由配置、錯(cuò)誤處理和單元測試。

這項(xiàng)測試考察的是模型的 Coding 工程能力,不僅僅是寫出片段式的代碼,更在于是能否理解需求、設(shè)計(jì)架構(gòu)、處理邊界條件,并在出現(xiàn)問題時(shí)回溯修改。

Markdown
請實(shí)現(xiàn)一個(gè)可運(yùn)行、可測試的 `Task` RESTful API 服務(wù),要求包含:

- CRUD 接口:`POST /tasks`、`GET /tasks`、`GET /tasks/:id`、`PUT /tasks/:id`、`DELETE /tasks/:id`
- 數(shù)據(jù)模型字段:`id`、`title`、`description`、`status`、`priority`、`due_date`、`created_at`、`updated_at`
- 校驗(yàn)與錯(cuò)誤處理
- 單元測試
- 項(xiàng)目結(jié)構(gòu)說明與運(yùn)行說明

約束:

- `title` 必填且不能為空
- `status` 僅允許 `pending` / `in_progress` / `done`
- `priority` 僅允許 `low` / `medium` / `high`
- 不存在資源返回 `404`
- 非法輸入返回結(jié)構(gòu)化 JSON 錯(cuò)誤
- 必須先做需求分析和架構(gòu)規(guī)劃,再編碼
- 如果測試失敗或?qū)崿F(xiàn)有問題,必須自行修復(fù)并說明原因

請輸出完整項(xiàng)目,而不是零散代碼片段。
先規(guī)劃模塊,然后逐步開發(fā),最后測試。
展示你的工程化開發(fā)、測試與回溯修復(fù)能力。

先規(guī)劃,再各個(gè)擊破。Elephant Alpha 理解了“先規(guī)劃后編碼”的要求,在正式實(shí)現(xiàn)前先進(jìn)行了需求拆解和模塊設(shè)計(jì),從數(shù)據(jù)模型、路由配置、校驗(yàn)器、控制器到測試框架,形成了清晰的MVC 架構(gòu)。這說明它不是一上來就堆代碼,這種工程化思維,已經(jīng)成為了模型能在生產(chǎn)級任務(wù)中真正落地的門票。


遇到bug,堅(jiān)決改正。模塊測試過程中遇到了一些“插曲”,代碼出現(xiàn)了 Python 版本兼容性問題(async 語法、PEP 604 聯(lián)合類型寫法等),而 Elephant Alpha 從報(bào)錯(cuò)信息中快速定位問題根源,并自主完成了代碼修正,無需人工介入。

這種“遇到問題→自我修正”的閉環(huán),在傳統(tǒng)開發(fā)中往往意味著額外的 Token 消耗,Elephant Alpha 也不能免俗。但它的革新之處在于,更高的 Token 效率意味著它能在更緊湊的上下文中完成修正。對每一個(gè)環(huán)節(jié)的成本都如此砍下一刀,日積月累,不可小覷。


測試結(jié)束,不忘收個(gè)尾。Elephant Alpha 最終交付了一個(gè)包含11 個(gè)測試用例的完整項(xiàng)目,全部通過。它甚至還生成了清晰的項(xiàng)目結(jié)構(gòu)說明和運(yùn)行指南——從requirements.txt依賴管理到uvicorn啟動(dòng)命令,從安裝到測試運(yùn)行,一條龍完整交付。

對于工程師來說,這種“有始有終”的完成度已經(jīng)達(dá)到了拿來即用的標(biāo)準(zhǔn)。


Elephant Alpha 在 Coding 場景下展現(xiàn)了三大優(yōu)勢:先規(guī)劃后編碼的工程思維、自主修正的回溯能力,以及最重要的,用更少Token完成同等任務(wù)的效率優(yōu)勢。對于需要將 AI 融入開發(fā)流程的團(tuán)隊(duì)而言,這三個(gè)特質(zhì)缺一不可。

03


Token效率重塑AI評價(jià)坐標(biāo)系

如果說過去的大模型競爭,是一場“誰的參數(shù)量更大、誰的 Benchmark 分?jǐn)?shù)更高”的軍備競賽,那么 Elephant Alpha 的出現(xiàn),則是為這場競賽開辟了一個(gè)新的維度,“同樣強(qiáng)悍的智能,但我比你更省”。

無法忽視的事實(shí)是,在 Agent 逐步靠近真實(shí)場景的今天,用戶的 Token 賬單也越發(fā)承壓。保守估計(jì),一次代碼補(bǔ)全任務(wù)可能消耗幾十 Token,一次多輪對話會燒掉數(shù)百,一個(gè) Agent 任務(wù)跑下來,這個(gè)數(shù)字可能就飆升到了數(shù)千。當(dāng)Token成為硬通貨,高效就不再是錦上添花,而是核心競爭力。

值得一提的是,在英偉達(dá) Nemotron 3 Super 的一份報(bào)告中,還特意強(qiáng)調(diào)了以螞蟻此前開源的 Ling-flash-Base-2.0 和智譜的 GLM-4.5-Air-Base 做基準(zhǔn)。

由此可見,“智效比”正在成為模型 Agent 場景的通用語言。此后人們不再問“一次生成質(zhì)量有多高”,而是“每 Token 消耗能換來多少有效產(chǎn)出”。在這個(gè)坐標(biāo)系下,能用 600 Token 說清楚的事,就不該浪費(fèi) 800。


這場效率革命的影響,很快就會在產(chǎn)業(yè)鏈上下游爆發(fā)。

對開發(fā)者而言,更高的 Token 效率意味著更普惠的智能,它包括更低的調(diào)用成本、更快的響應(yīng)速度、以及在生產(chǎn)環(huán)境中真正可接受的 ROI。當(dāng) AI 落地不再需要“燒錢換體驗(yàn)”,應(yīng)用的滲透速度將以指數(shù)級增長。

而在用戶側(cè),這場效率革命也指向了一種更可靠的 Agent。更少的 Token 消耗,將直接轉(zhuǎn)化為更緊湊的上下文窗口、更低的幻覺風(fēng)險(xiǎn)、以及更穩(wěn)定的多輪執(zhí)行能力。只有當(dāng)模型能在有限上下文中完成更多任務(wù),“上下文膨脹”這個(gè) Agent 落地最大的痛點(diǎn),才真正有解。

在規(guī)模之外,當(dāng)效率同樣成為了模型價(jià)值的衡量維度,發(fā)生在模型層的爭奪將真正邁上下一個(gè)臺階。

未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
兒子始終不露面,父親一直沒下葬:關(guān)于哈梅內(nèi)伊父子的那些傳聞

兒子始終不露面,父親一直沒下葬:關(guān)于哈梅內(nèi)伊父子的那些傳聞

鷹眼Defence
2026-04-25 16:20:33
烏克蘭清除全部庫皮揚(yáng)斯克俄軍部隊(duì)!摧毀紅軍村通訊系統(tǒng)

烏克蘭清除全部庫皮揚(yáng)斯克俄軍部隊(duì)!摧毀紅軍村通訊系統(tǒng)

項(xiàng)鵬飛
2026-04-24 12:48:43
第二個(gè)惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

第二個(gè)惡魔醫(yī)生被抓,鄭大一附院王福建為94名患者植入不需要器械

大魚簡科
2026-02-18 22:03:00
余承東最后的倔強(qiáng):比小米便宜100塊,然后呢?

余承東最后的倔強(qiáng):比小米便宜100塊,然后呢?

虎嗅APP
2026-04-24 04:36:06
2026車市大亂斗:8款10萬左右新車密集上市,最高純電670km!

2026車市大亂斗:8款10萬左右新車密集上市,最高純電670km!

小怪吃美食
2026-04-25 12:37:13
膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

膽大包天!伊朗33艘快艇閃電突襲:美軍來不及出動(dòng),眼睜睜吃敗仗

伴史緣
2026-04-25 14:02:08
連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

連續(xù)三天嫖娼一次嫖倆,花800元?dú)У粢皇峙窈门?,他圖什么?

橙星文娛
2026-04-23 18:58:44
張雪峰多位愛將離職,真相很殘忍

張雪峰多位愛將離職,真相很殘忍

新浪財(cái)經(jīng)
2026-04-24 19:11:55
055型萬噸大驅(qū)和052D型驅(qū)逐艦同框俯視圖對比

055型萬噸大驅(qū)和052D型驅(qū)逐艦同框俯視圖對比

烽火觀天下
2026-04-25 13:59:43
猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長沙!另外,“五一”假期長沙天氣最新預(yù)測→

猛降14℃!降溫、降雨、雷暴大風(fēng)即將抵達(dá)長沙!另外,“五一”假期長沙天氣最新預(yù)測→

芒果都市
2026-04-25 15:31:14
第一集就全裸出鏡,女神新劇太生猛了

第一集就全裸出鏡,女神新劇太生猛了

來看美劇
2026-04-24 22:03:11
DeepSeek迎來史詩級更新

DeepSeek迎來史詩級更新

電腦吧評測室
2026-04-24 22:09:32
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

匹夫來搞笑
2026-04-20 13:24:51
昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

昔日和王鈺棟齊名并稱國少雙星 如今卻淪落中甲碌碌無為 5輪0進(jìn)球

零度眼看球
2026-04-25 08:54:32
震驚!許家印認(rèn)罪,背后隱藏的真相讓人難以置信!

震驚!許家印認(rèn)罪,背后隱藏的真相讓人難以置信!

人生錄
2026-04-24 09:21:59
中子星有多可怕?每立方厘米重10億噸,最高山峰只有1毫米

中子星有多可怕?每立方厘米重10億噸,最高山峰只有1毫米

觀察宇宙
2026-04-24 18:35:19
內(nèi)行人預(yù)測,今年夏天或許很難熬,厄爾尼諾來襲!要小心了

內(nèi)行人預(yù)測,今年夏天或許很難熬,厄爾尼諾來襲!要小心了

小談食刻美食
2026-04-24 07:43:25
永遠(yuǎn)不會倒閉的四大行業(yè),選對一輩子衣食無憂!

永遠(yuǎn)不會倒閉的四大行業(yè),選對一輩子衣食無憂!

細(xì)說職場
2026-04-08 06:22:58
59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

59歲鞏俐身材引熱議,外套都快撐不住豐腴身材了,卻被夸少女體態(tài)

一盅情懷
2026-03-16 16:52:57
方程豹鈦7 EV定價(jià)了,但這前備箱真是給“高人”準(zhǔn)備的?

方程豹鈦7 EV定價(jià)了,但這前備箱真是給“高人”準(zhǔn)備的?

華庭講美食
2026-04-25 17:19:14
2026-04-25 18:36:49
AI科技評論 incentive-icons
AI科技評論
點(diǎn)評學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查出生病歷發(fā)現(xiàn)大問題

頭條要聞

男童7歲18斤被當(dāng)腦癱治多年 父母查出生病歷發(fā)現(xiàn)大問題

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

家居
房產(chǎn)
健康
教育
游戲

家居要聞

自然肌理 溫潤美學(xué)

房產(chǎn)要聞

新一輪教育大爆發(fā)來了!???,開始瘋狂建學(xué)校!

干細(xì)胞如何讓燒燙傷皮膚"再生"?

教育要聞

秀我中國|當(dāng)大學(xué)生之前,先來村小當(dāng)“小先生”

《殺戮尖塔2》開發(fā)者堅(jiān)稱門扉締造者強(qiáng)度沒有問題

無障礙瀏覽 進(jìn)入關(guān)懷版