火山引擎譚待：AI時代,加速度最重要，云和模型需要“Agent友好”

2025-12-20 14:02:08　來源: 至頂頭條

北京舉報

分享至

2025年12月18日，火山引擎Force原動力大會在上海召開。

作者 | 高飛

來源 | 至頂科技

2011年，馬克·安德森在《華爾街日報》發(fā)表了一篇文章，標(biāo)題是《為什么軟件正在吞噬世界》。他的論點很簡單：越來越多的行業(yè)正在被軟件公司顛覆。軟件能力更強的亞馬遜、Netflix、Spotify等分別改變了零售、影視和音樂行業(yè)。

軟件吞噬世界的過程，也是計量單位不斷演變的過程。PC時代，微軟按“許可證”收費?；ヂ?lián)網(wǎng)時代，Salesforce發(fā)明了SaaS，按“訂閱”收費。云計算時代，“資源”一度成了計量單位，比如用了多少核、多少GB、多少小時。

每一次計量單位的切換，軟件就向前吞噬一步。十四年過去，安德森的判斷基本應(yīng)驗。但他當(dāng)時自然無法預(yù)料的是，軟件本身也在被吞噬。

吞噬發(fā)生在兩個層面。開發(fā)方式在變：Vibe Coding正在興起，開發(fā)者用自然語言描述需求，模型生成代碼，程序員的工作從”寫代碼”變成”審代碼”。軟件形態(tài)也在變：越來越多的軟件正在變成Agent，它們不再等待用戶點擊按鈕，而是主動感知、決策、執(zhí)行。

兩層吞噬指向同一個結(jié)果：Token正在成為新的計量單位。開發(fā)者用Token生成代碼，Agent用Token完成任務(wù)。

2025年12月18日，火山引擎Force原動力大會在上海召開?；鹕揭婵偛米T待宣布了一組數(shù)字，截至2025年12月，豆包大模型日均Token使用量已突破50萬億，居中國第一、全球第三。最驚人的是其中的加速度，因為這個數(shù)字在一年前還只是4萬億。而且，在火山引擎累計Token使用量超過一萬億的企業(yè)，也超過了100家。

譚待在會后的媒體采訪中，用“內(nèi)核”這個詞來描述這種變化。

“技術(shù)的變化，要看它的內(nèi)核。PC時代的內(nèi)核是網(wǎng)站，圍繞網(wǎng)站有了MySQL、PHP。到了移動時代，產(chǎn)業(yè)規(guī)模增長十倍，圍繞APP有了新的技術(shù)棧。到了AI時代，網(wǎng)站和APP都會在，但背后的邏輯會變成Agent。”

所以，在這次大會上，我看到火山引擎的一種打法：云的形態(tài)在變，模型的目標(biāo)也要變。具體來說，是一朵“token友好型”云，和一種“agent友好型”模型。

云的新角色

先說云。

譚待表示，大模型的出現(xiàn)，讓企業(yè)上云的必要性大幅度增加。他在記者會中講了一個觀察：年初DeepSeek還沒出來的時候，很多企業(yè)買了AI一體機，但是其中很大一部分沒有發(fā)揮作用。

這是因為企業(yè)無法把全棧AI能力都本地化，“模型三個月就更新一代，私有化的版本會落后太多。更關(guān)鍵的是，如果用模型去做Agent，模型能夠本地，但是AgentKit、RAG、向量數(shù)據(jù)庫這些周邊技術(shù)都沒法私有化。這就等于拿了一個可能幾個月就會被淘汰的上一代模型，配上一套不全的開源棧，跑在算力不夠的設(shè)備上?！?/p>

所以，他的判斷是：AI時代，云的重要性比以前更大，而不是更小。但云的角色需要重新定義。

具體而言，就是模型迭代快，生態(tài)依賴多，彈性需求大。方方面面都影響著企業(yè)的AI預(yù)算和決策。

火山引擎智能算法負(fù)責(zé)人吳迪在大會演講中以模型推理這件事為例算了一筆賬。

他說，對于大部分團隊來說，低成本、高吞吐地推理好一個大模型，可能比后訓(xùn)練好一個大模型更困難。建設(shè)初期，企業(yè)可能需要付出數(shù)百萬人民幣的投入成本，經(jīng)歷若干個月的上線周期，還要面對復(fù)雜的運維工作。進入規(guī)?；A段后，除了線性上漲的硬件成本，還有容易被忽視的隱性支出，比如更高的運維要求、更好的SRE團隊、更強的AI架構(gòu)師，這些都需要時間培養(yǎng)。而當(dāng)一個新業(yè)務(wù)的增長曲線爆發(fā)時，企業(yè)往往來不及做好準(zhǔn)備。

基于這個判斷，火山方舟推出了“推理代工”服務(wù)。吳迪用了一個比喻：就像一臺已經(jīng)調(diào)校完成的頂級賽車，只等用戶把模型插入發(fā)動機就能開跑。用戶上傳加密后的模型checkpoint，無需運維底層GPU，無需做復(fù)雜的網(wǎng)絡(luò)和調(diào)度配置，只需要關(guān)注流量本身。

數(shù)據(jù)顯示，當(dāng)企業(yè)選擇云上集群替代自建集群時，硬件和運維成本下降約一半；進一步使用方舟的推理代工后，對比云上租賃GPU算力，客戶還能獲得1.6倍的吞吐提升，并通過彈性采購避免空閑時段的資金浪費。

英偉達(dá)黃仁勛在GTC上有一句名言，“買的越多，省的越多”。火山引擎也發(fā)布了一項“AI節(jié)省計劃”，口號是”用得越多，省得越多”，最高可為用戶節(jié)省47%的使用成本。

彈性是另一個關(guān)鍵詞。吳迪在會上展示了一張真實的流量曲線圖：綠色是某業(yè)務(wù)的真實流量，藍(lán)色是方舟提供的算力，兩條曲線緊緊貼合。方舟能在分鐘級完成百卡到千卡的伸縮。

不過，一切放在云端，安全就會成為企業(yè)尤其是大企業(yè)的一種顧慮。對此，火山引擎把安全作為一個關(guān)鍵特性?；鹕揭嫱瞥隽薃ICC（AI機密計算），讓用戶可以把所有模型，包括開源的和豆包的，都納入機密計算保護。

Agent的胃口

我們再說模型。

Token不會憑空消耗。誰在大量吃Token？火山引擎的判斷是：未來消耗Token的主體將是Agent，而非人類用戶。

這個判斷初聽反直覺。畢竟現(xiàn)在用豆包APP的是人，和ChatGPT對話的也是人。但是其中內(nèi)在的邏輯是：人與AI的對話量有限，但Agent自動執(zhí)行任務(wù)時產(chǎn)生的Token消耗，將遠(yuǎn)超人工對話。

譚待在采訪中用“天花板”理論來解釋這個差異：對于AI的采用，有的行業(yè)起量特別快，但天花板低；有的行業(yè)起量特別慢，但天花板很高。陪伴型聊天的天花板就不高，因為一個人每天能夠講話的時間就那么多。但是，深度研究類Agent就正好與此相反，企業(yè)管理者一天可能只問一次“豆包，你告訴我明年什么行業(yè)會更好”。但要回答好這個問題，Agent背后可能要去做各種搜索、比對、數(shù)據(jù)清洗、假設(shè)擴展。這一個需求的Token消耗，就超過了一整天的陪伴聊天總量。

換句話說，Agent吃掉的不是“對話量”，本質(zhì)是“工作量”。它把原本需要多人多次完成的任務(wù)壓縮成一次請求，背后是成百上千次的模型調(diào)用。

企業(yè)也在用實際行動投票。譚待披露的數(shù)據(jù)顯示：2024年，平均一家企業(yè)投產(chǎn)的智能體數(shù)量是58個；到2025年，這個數(shù)字已經(jīng)達(dá)到200多個，有的企業(yè)甚至投產(chǎn)了超過1000個。

但譚待同時指出了一個悖論：“現(xiàn)在模型已經(jīng)夠強了，但是真正把這個強用好的企業(yè)也不多。這還就是因為Agent迭代太慢，它需要有一套新的、為Agent開發(fā)運行設(shè)計的AI原生架構(gòu)。”

他在演講中拆解了這個鴻溝：很多團隊能用幾天時間就搓出一個Agent的demo，但接下來要把它跑在生產(chǎn)環(huán)境，符合SLA、合規(guī)、安全、成本等各項要求，往往要花費數(shù)月甚至更久。問題的本質(zhì)是：缺少為Agent規(guī)?；\行而設(shè)計的基礎(chǔ)設(shè)施。

火山引擎發(fā)布的AgentKit平臺試圖填補這個空白。譚待把核心能力歸納為八個模塊：Identity（身份與權(quán)限管理）、Runtime（運行時環(huán)境）、Sandbox（沙箱工具服務(wù)）、Gateway（統(tǒng)一入口）、Memory（記憶庫）、可觀測能力、Evaluation（評測體系）、Guardrails（安全護欄）。

從我個人的理解，既然Agent是在協(xié)助人工作，那么它的管理邏輯也應(yīng)該借鑒人類組織的經(jīng)驗。這八個模塊的設(shè)計邏輯，某種程度上復(fù)刻了人類組織管理的基本原理。

分別拆解一下：

Identity對應(yīng)角色與責(zé)任邊界；Runtime對應(yīng)制度環(huán)境與生產(chǎn)紀(jì)律；Sandbox對應(yīng)風(fēng)險隔離與安全試點；Gateway對應(yīng)流程與入口治理；Memory對應(yīng)組織記憶；可觀測能力對應(yīng)管理可見性，畢竟德魯克說”不能衡量就難以管理”；Evaluation對應(yīng)績效評估與持續(xù)改進；Guardrails對應(yīng)規(guī)則與邊界內(nèi)建。當(dāng)Agent從工具變成執(zhí)行單元，系統(tǒng)就需要一套能讓它像組織成員一樣被授權(quán)、被約束、被評估、被追責(zé)的生產(chǎn)體系。

八個模塊顯然很多，在大會前的溝通中，我請火山引擎云基礎(chǔ)產(chǎn)品負(fù)責(zé)人田濤濤幫忙挑選企業(yè)AI負(fù)責(zé)人應(yīng)該關(guān)注的三個要素，他選擇了：身份、評測、入口。

他解釋，傳統(tǒng)應(yīng)用時代，企業(yè)只需要管理“人”的權(quán)限；在Agent時代，企業(yè)需要管理Agent、工具、系統(tǒng)之間的關(guān)系，身份不清、權(quán)限不明，就會出現(xiàn)嚴(yán)重的安全問題。評測自然同樣關(guān)鍵，開發(fā)者可能認(rèn)為Agent表現(xiàn)不錯，一旦換一個模型版本、換一種使用方式，就可能出問題。最后是網(wǎng)關(guān)，火山引擎在網(wǎng)關(guān)層提供了一套基于Ranking模型的搜索機制，通過語義匹配讓模型找到正確的工具。

對于這套Agent打法的實效，譚待用這次Force大會的報名系統(tǒng)做了現(xiàn)場演示。傳統(tǒng)開發(fā)模式下，實現(xiàn)一個Agent至少需要1500到2000行代碼。通過AgentKit，同樣的功能只需要61行，代碼量減少96%。

另外，Agent的胃口不僅大，而且雜，也就是多模態(tài)。

譚待說：以前用戶使用就是聊天，所以支持文字就行了。但現(xiàn)在讓模型幫助處理事情，輸入可能就帶視覺的，比如在車?yán)?、在線下攝像頭。工具返回的結(jié)果很多也是視覺化的，所以模型必須要有視覺化的理解，才能理解這些工具的結(jié)果。

這次大會發(fā)布的豆包大模型1.8（Doubao-Seed-1.8）正是沿著這個方向設(shè)計的。官方定位是“面向通用真實世界Agent”，核心目標(biāo)是從純語言生成走向主動決策。

技術(shù)報告顯示，在衡量通用AI助手能力的GAIA基準(zhǔn)測試中，豆包大模型1.8得分87.4，超越GPT-5 High的76.7；在多模態(tài)視覺搜索任務(wù)MM-BrowseComp上得分46.3，領(lǐng)先GPT-5 High的27.7。

更值得注意的是框架兼容性，無論是Claude Code、Trae還是OpenHands，豆包大模型1.8都能保持穩(wěn)定表現(xiàn)，說明模型具備的是內(nèi)在的工具理解能力，而非依賴特定框架的提示詞工程。

消費Token的主體是Agent，而Agent要在真實世界干活，就必須能看、能聽、能讀。

模型對Agent友好，首先意味著對多模態(tài)友好。

模型和Agent，都在”強化學(xué)習(xí)”

模型和Agent是企業(yè)AI業(yè)務(wù)落地的一體兩面。有趣的是，在兩者之間，我們還能找到一個技術(shù)上的連接點，它就是強化學(xué)習(xí)。

自模型演化至推理形態(tài)，強化學(xué)習(xí)的重要程度就與日俱增，而且?guī)硇碌腁I算力架構(gòu)需求。

吳迪在會前溝通中用了一個類比。

傳統(tǒng)的預(yù)訓(xùn)練系統(tǒng)“像一塊石頭一樣緊湊”，幾千張卡以極高的互聯(lián)同構(gòu)連接在一起。強化學(xué)習(xí)系統(tǒng)“像一個太陽系”，有Trainer、Rollout、Reward，以及散布在周圍的大量沙盒和虛擬機環(huán)境。

這個比喻就解釋了模型的強化學(xué)習(xí)和Agent的構(gòu)建，在底層邏輯是相通的，它們都需要在環(huán)境中學(xué)習(xí)。Agent需要在真實的應(yīng)用環(huán)境中執(zhí)行任務(wù)、獲得反饋、調(diào)整策略；強化學(xué)習(xí)需要在模擬環(huán)境中嘗試行動、獲得獎勵或懲罰、優(yōu)化決策。核心邏輯一致：通過與環(huán)境的交互來提升能力。

因此，吳迪在演講中也反復(fù)強調(diào)：強化學(xué)習(xí)將變得越來越重要?，F(xiàn)在大部分AI系統(tǒng)還是靜態(tài)的，難以隨著用戶數(shù)據(jù)的增長去自發(fā)進化。Agent要真正融入企業(yè)核心業(yè)務(wù)，就必須能夠自我學(xué)習(xí)。

火山方舟這次在大會上推出了Serverless RL強化學(xué)習(xí)平臺。吳迪用抖音客服的案例做了演示：算法工程師用真實客戶對話總結(jié)出訓(xùn)練劇本，設(shè)計虛擬環(huán)境讓模型扮演客戶與待優(yōu)化的客服模型大量對話，再通過多維度的Reward評分體系（語氣、流程、情緒識別等）形成自動循環(huán)。結(jié)果顯示，經(jīng)過強化學(xué)習(xí)的模型表現(xiàn)出更好的專業(yè)度和擬人度，問題解決率提升了10個百分點，并節(jié)約了80%的工程準(zhǔn)備時間。

強化學(xué)習(xí)對云是一種新的負(fù)載類型，對模型是一種讓它變得更“agent友好”的訓(xùn)練方式。它同時服務(wù)于兩端，把這朵“token友好型”云和這種”agent友好型”模型縫合在一起。

我們把這次AI變革叫第四次工業(yè)革命，技術(shù)背后自然是產(chǎn)業(yè)、商業(yè)模式變革。

譚待在采訪中提到：”我們現(xiàn)在看Token的消耗所在，不能單純從IT預(yù)算的環(huán)節(jié)里面看它。如果AI更多作為Agent去使用呈現(xiàn)，企業(yè)完全可以從BPO的角度來看AI投資。當(dāng)Agent能協(xié)助企業(yè)處理客服、財務(wù)、人力資源這些業(yè)務(wù)，它的應(yīng)用也就進入了更深層次。

這也是為什么譚待在回答競爭問題時反復(fù)說“市場足夠大”、“明年可能還要漲十倍”，因為大家看的不是存量博弈，是一起把增量做出來。

有記者問到，豆包大模型和Google DeepMind這樣的全球AI實驗室的模型相比有多大差距時，譚待用了一個說法：”你要衡量距離，那有差距；你衡量速度，可能短期也會有差距。但我覺得更重要還是看加速度?！?/p>

我理解其中言外之意時，從許可證、訂閱到資源，計量單位換了幾輪?，F(xiàn)在輪到Token。但每一輪切換，歷史上看，看的都不是誰暫時領(lǐng)先，而是誰能跟上加速度。畢竟，回到一年前，大家談AI實驗室，還言必稱OpenAI，今天就變成了DeeepMind。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.