網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

100萬億token的大模型真相:灰姑娘玻璃鞋現(xiàn)象與DeepSeek回旋鏢效應(yīng)

2025-12-08 07:29:32　來源: AI先鋒官

北京舉報(bào)

分享至

近日，AI推理平臺(tái)OpenRouter聯(lián)合硅谷知名投資機(jī)構(gòu)a16z發(fā)布了一份重磅研究報(bào)告——《AI現(xiàn)狀：基于100萬億Token的實(shí)證研究》。

基于OpenRouter平臺(tái)上超過100萬億Token的真實(shí)交互數(shù)據(jù)，系統(tǒng)分析了2024年底至2025年底全球大語言模型的實(shí)際使用情況，報(bào)告揭示了多個(gè)出乎意料的發(fā)現(xiàn)：

開源模型的使用占比已接近30%。
角色扮演類應(yīng)用的使用量超過編程。
推理模型在一年內(nèi)從零增長(zhǎng)到占據(jù)半壁江山。
中國開源模型的全球份額從1.2%飆升至近30%。
大模型是有護(hù)城河的。

這些數(shù)據(jù)為我們理解AI技術(shù)的真實(shí)應(yīng)用場(chǎng)景和發(fā)展趨勢(shì)，提供了難得的第一手觀察視角。

一、開源模型正在改寫市場(chǎng)格局

從邊緣走向主流

過去一年，開源大模型經(jīng)歷了爆發(fā)式增長(zhǎng)。報(bào)告數(shù)據(jù)顯示，截至2025年底，開源模型的使用量已占到總量的30%。這意味著在全球范圍內(nèi)，每3次AI對(duì)話中就有1次使用的是開源模型。

這一比例在2024年初還不足5%，短短一年時(shí)間增長(zhǎng)了6倍，而且增長(zhǎng)趨勢(shì)仍在持續(xù)。

這打破了"開源模型只是實(shí)驗(yàn)性工具"的固有印象，表明開源生態(tài)已經(jīng)具備了支撐大規(guī)模生產(chǎn)應(yīng)用的能力。

中國開源模型的崛起

更值得關(guān)注的是中國開源模型的表現(xiàn)。報(bào)告顯示，中國開發(fā)的開源模型（包括DeepSeek、Qwen、Kimi、Minimax等）的全球使用量占比，從2024年初的1.2%躍升至2025年底的近30%，增長(zhǎng)超過25倍。

在具體模型排名中，DeepSeek以14.37萬億Token的總使用量位居開源模型榜首，是第二名Qwen（5.59萬億）的近三倍，Meta的LLaMA系列（3.96萬億）位列第三。

中等規(guī)模模型成為新趨勢(shì)

報(bào)告還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：參數(shù)規(guī)模在150億到700億之間的"中等規(guī)模模型"正在快速崛起。

這一細(xì)分市場(chǎng)在2024年底幾乎不存在。但隨著Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的發(fā)布，中等規(guī)模模型在開源生態(tài)中的份額穩(wěn)步上升。

這類模型在性能和部署成本之間找到了更好的平衡點(diǎn)，既能滿足大多數(shù)應(yīng)用場(chǎng)景的需求，又顯著降低了算力門檻，因此受到開發(fā)者的青睞。

二、角色扮演是最高頻的使用場(chǎng)景

超過50%的使用量來自Roleplay。

報(bào)告中最令人意外的發(fā)現(xiàn)之一，是Roleplay（角色扮演/創(chuàng)意對(duì)話）占據(jù)了所有開源模型使用量的52%以上，遠(yuǎn)超編程（15-20%）、翻譯、知識(shí)問答等其他應(yīng)用場(chǎng)景。

在開源模型的使用分類中，角色扮演類應(yīng)用包括互動(dòng)式故事創(chuàng)作、虛擬角色對(duì)話、游戲場(chǎng)景模擬、粉絲創(chuàng)作等。

用戶對(duì)AI的需求并不僅限于提高生產(chǎn)力，情感陪伴和娛樂互動(dòng)同樣是重要的應(yīng)用方向。

編程場(chǎng)景的快速增長(zhǎng)

雖然角色扮演占據(jù)首位，但編程相關(guān)的使用量增長(zhǎng)速度更快。

數(shù)據(jù)顯示，編程類應(yīng)用占比從2025年初的11%增長(zhǎng)到年底的超過50%（包含所有模型）。

這反映出AI輔助編程工具正在被越來越多的開發(fā)者納入日常工作流程。

在編程場(chǎng)景中，Claude系列模型占據(jù)主導(dǎo)地位，長(zhǎng)期保持60%以上的市場(chǎng)份額。

OpenAI和Google的模型也在該領(lǐng)域占有一席之地，中國的Qwen Coder系列在開源編程輔助工具中表現(xiàn)突出。

使用場(chǎng)景的多元化

除了角色扮演和編程，報(bào)告還統(tǒng)計(jì)了翻譯（外語資源占51.1%）、科學(xué)研究（機(jī)器學(xué)習(xí)與AI占80.4%）、健康咨詢、法律文檔、金融分析等多個(gè)垂直領(lǐng)域的使用情況。

有趣的是，科學(xué)類查詢中，絕大多數(shù)是關(guān)于AI和機(jī)器學(xué)習(xí)本身的提問，而不是物理、化學(xué)等傳統(tǒng)學(xué)科。這說明AI技術(shù)從業(yè)者是當(dāng)前大模型的重要用戶群體。

三、推理模型成為新的主流

o1的發(fā)布是重要轉(zhuǎn)折點(diǎn)。

2024年12月5日，OpenAI正式發(fā)布o(jì)1推理模型，標(biāo)志著大語言模型從"單步生成"向"多步推理"的范式轉(zhuǎn)變。與傳統(tǒng)模型直接輸出答案不同，推理模型會(huì)在內(nèi)部進(jìn)行多輪思考、驗(yàn)證和自我糾錯(cuò)，然后給出最終結(jié)果。

報(bào)告數(shù)據(jù)顯示，到2025年底，推理模型的使用量已占到總量的50%以上。

僅用一年時(shí)間，推理模型就從零增長(zhǎng)到與傳統(tǒng)模型平分秋色。

推理模型的競(jìng)爭(zhēng)格局

在推理模型領(lǐng)域，競(jìng)爭(zhēng)格局變化迅速。截至報(bào)告發(fā)布時(shí)，xAI的Grok Code Fast 1占據(jù)推理模型使用量第一的位置，Google的Gemini 2.5 Pro和Gemini 2.5 Flash緊隨其后。幾周前，這一排名還是Gemini 2.5 Pro領(lǐng)先。

Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理領(lǐng)域占有重要份額。

這種快速的排名變化反映出該領(lǐng)域的競(jìng)爭(zhēng)異常激烈，各家都在快速迭代更新。

Agent化趨勢(shì)明顯

推理能力的提升帶來了另一個(gè)重要變化：AI正從"回答問題"轉(zhuǎn)向"執(zhí)行任務(wù)"。報(bào)告顯示，帶有工具調(diào)用（Tool Call）功能的請(qǐng)求量穩(wěn)步上升，平均對(duì)話序列長(zhǎng)度已是一年前的3倍。

這表明用戶越來越多地將AI作為能夠主動(dòng)調(diào)用外部工具、執(zhí)行多步驟任務(wù)的智能代理（Agent），而不僅僅是對(duì)話式的問答助手。

編程類任務(wù)的平均輸入長(zhǎng)度更是達(dá)到其他類型任務(wù)的3-4倍，顯示出復(fù)雜任務(wù)場(chǎng)景的需求正在快速增長(zhǎng)。

四、成本與性能的新平衡

開源模型的成本優(yōu)勢(shì)

報(bào)告指出，開源模型快速崛起的核心原因是顯著的成本優(yōu)勢(shì)。許多開發(fā)者和中小企業(yè)發(fā)現(xiàn)，使用開源模型可以將成本降低90%以上，而在特定場(chǎng)景下的效果與閉源模型相差無幾。

特別是在角色扮演、中文對(duì)話、代碼生成等領(lǐng)域，開源模型已經(jīng)展現(xiàn)出與閉源模型相當(dāng)甚至更優(yōu)的表現(xiàn)。

例如，在角色扮演場(chǎng)景中，開源模型（主要是中國和西方的開源模型）和閉源模型的使用量幾乎平分秋色，各占約43%和42%。

模型選擇的多元化

報(bào)告發(fā)現(xiàn)，用戶越來越傾向于針對(duì)不同場(chǎng)景選擇不同的模型，而不是使用單一模型完成所有任務(wù)。編程場(chǎng)景優(yōu)先選擇Claude或Qwen Coder，創(chuàng)意寫作選擇DeepSeek或Kimi，復(fù)雜推理選擇o1或Gemini 2.5 Pro。

用戶留存與"灰姑娘玻璃鞋"現(xiàn)象

報(bào)告對(duì)多個(gè)主流模型的用戶留存率進(jìn)行了深入分析，發(fā)現(xiàn)了一個(gè)被稱為"灰姑娘玻璃鞋效應(yīng)"的關(guān)鍵現(xiàn)象。

數(shù)據(jù)顯示，盡管大多數(shù)模型面臨高流失率和快速用戶衰減，但在這種波動(dòng)之下隱藏著更深遠(yuǎn)的信號(hào)：一小部分早期用戶群體表現(xiàn)出持久的保留率。

這些被稱為"基礎(chǔ)隊(duì)列"的用戶群體，才是模型真正的護(hù)城河。

這個(gè)效應(yīng)描述了一個(gè)獨(dú)特現(xiàn)象：在快速發(fā)展的AI生態(tài)系統(tǒng)中,存在著大量高價(jià)值工作負(fù)載，它們?cè)诘却?完美匹配"的模型出現(xiàn)。

每一個(gè)新的前沿模型實(shí)際上都是在這些未解決問題上"試穿"。當(dāng)新發(fā)布的模型恰好符合此前未被滿足的技術(shù)和經(jīng)濟(jì)限制時(shí),它就找到了精確的契合度。這就是那只"玻璃鞋"。

對(duì)于那些工作負(fù)載最終合適的開發(fā)者或組織來說,這種對(duì)齊會(huì)產(chǎn)生強(qiáng)烈的鎖定效應(yīng)。

他們的系統(tǒng)、數(shù)據(jù)管道和用戶體驗(yàn)都錨定在最先解決問題的模型上。隨著成本下降和可靠性提升,重新遷移的動(dòng)力急劇減弱。

從實(shí)證數(shù)據(jù)看，不同模型的留存表現(xiàn)差異巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期隊(duì)列在第5個(gè)月約有40%的用戶保留率，遠(yuǎn)高于后續(xù)隊(duì)列。

OpenAI GPT-4o Mini則展現(xiàn)了這一現(xiàn)象的極端案例。一個(gè)基礎(chǔ)隊(duì)列（2024年7月）在啟動(dòng)時(shí)建立了主導(dǎo)且粘性的工作負(fù)載匹配，所有后續(xù)群體的留存率都遠(yuǎn)低于這個(gè)早期隊(duì)列。

DeepSeek模型引入了更復(fù)雜的模式，展現(xiàn)出極其罕見的"回旋鏢效應(yīng)"：多個(gè)DeepSeek隊(duì)列在初期流失后顯示出明顯的保留率上升。

一些流失用戶在嘗試其他替代方案后，重新確認(rèn)DeepSeek因其專業(yè)技術(shù)性能、成本效益或其他獨(dú)特特性的優(yōu)越組合，更適合其特定工作負(fù)載。

AI工作負(fù)載的四象限格局

報(bào)告通過對(duì)數(shù)-對(duì)數(shù)尺度的成本與使用量分析，揭示了AI工作負(fù)載的獨(dú)特細(xì)分格局。以每100萬Token成本0.73美元為分界線，市場(chǎng)被自然劃分為四個(gè)象限。

每個(gè)象限展現(xiàn)出截然不同的特征：

高級(jí)工作負(fù)載（高成本+高使用）

這個(gè)象限包含technology和science等有價(jià)值且使用頻繁的專業(yè)工作負(fù)載。用戶愿意為性能或?qū)I(yè)能力支付溢價(jià)。特別值得注意的是，technology類查詢的價(jià)格遠(yuǎn)高于其他類別，可能涉及復(fù)雜系統(tǒng)設(shè)計(jì)或架構(gòu)問題，需要更強(qiáng)大且更昂貴的推理模型，但其使用量依然很高，顯示出其本質(zhì)性質(zhì)。

大眾市場(chǎng)成交量驅(qū)動(dòng)因素（低成本+高使用）

這一領(lǐng)域主要由兩個(gè)大型應(yīng)用場(chǎng)景主導(dǎo)：programming和roleplay。Programming以"殺手級(jí)專業(yè)"類別脫穎而出，展示了最高的使用量，同時(shí)擁有高度優(yōu)化的中位數(shù)成本。Roleplay的使用量極為龐大，幾乎可與programming相當(dāng)。

這是一個(gè)令人震驚的洞察：面向消費(fèi)者的角色扮演應(yīng)用能帶來與頂級(jí)專業(yè)應(yīng)用相當(dāng)?shù)幕?dòng)量。

這兩個(gè)類別的規(guī)模之大證明了，職業(yè)生產(chǎn)力和對(duì)話娛樂都是人工智能的主要且巨大的驅(qū)動(dòng)力。開源模型在這一象限的成本敏感性中找到了顯著優(yōu)勢(shì)。

專業(yè)專家（高成本+低使用）

該象限包含finance、academia、health和marketing等高風(fēng)險(xiǎn)、細(xì)分的專業(yè)領(lǐng)域。較低的總量是合乎邏輯的，因?yàn)槿藗冏稍傾I關(guān)于"健康"或"財(cái)務(wù)"的頻率遠(yuǎn)低于"編程"。用戶愿意為這些任務(wù)支付高額費(fèi)用，可能是因?yàn)閷?duì)準(zhǔn)確性、可靠性和領(lǐng)域特定知識(shí)的需求極高。

小眾實(shí)用工具（低成本+低使用）

該象限包含translation、legal和trivia等功能性強(qiáng)、成本優(yōu)化的公用事業(yè)。這些任務(wù)可能被高度優(yōu)化、"解決"或商品化，在有足夠好的廉價(jià)替代方案時(shí)，用戶對(duì)價(jià)格更加敏感。

開源vs閉源：截然不同的市場(chǎng)定位

報(bào)告的成本-使用分析顯示出強(qiáng)烈的市場(chǎng)細(xì)分。整體趨勢(shì)線幾乎持平，表明需求相對(duì)非價(jià)格彈性——價(jià)格下降10%對(duì)應(yīng)的使用量增加約0.5%至0.7%。但這個(gè)宏觀數(shù)據(jù)掩蓋了不同的微觀行為：

閉源模型占據(jù)了高成本、高使用量的區(qū)域。Claude 3.7 Sonnet和Claude 4 Sonnet約每100萬Token 2美元，但使用率依然很高，表明用戶愿意為更優(yōu)越的推理和大規(guī)模可靠度付費(fèi)。

GPT-4和GPT-5 Pro每100萬Token約35美元，雖然使用量相對(duì)較低，但服務(wù)于細(xì)分、高風(fēng)險(xiǎn)工作，輸出質(zhì)量遠(yuǎn)比邊際Token成本更重要。

開源模型則占據(jù)了低成本、高流量的區(qū)域。DeepSeek V3-0324每100萬Token約0.39美元，使用量達(dá)到10^6.55級(jí)別。Gemini 2.0 Flash每100萬Token僅0.14美元，使用量為10^6.68，低價(jià)和強(qiáng)勁的分布使其成為默認(rèn)的高產(chǎn)量主力。

數(shù)據(jù)中還出現(xiàn)了類似杰文悖論的跡象：讓某些模型變得非常便宜（且快速）后，人們用它們做更多任務(wù)，最終消耗了更多的Token。這解釋了為什么Gemini Flash和DeepSeek V3這類低價(jià)模型反而有極高的使用量。

但大量使用昂貴模型（Claude、GPT-4）表明，如果模型明顯更好或擁有信任優(yōu)勢(shì)，用戶將承擔(dān)更高的成本。這些模型通常集成在成本相對(duì)于其產(chǎn)出價(jià)值微乎其微的工作流程中，例如，節(jié)省一小時(shí)開發(fā)時(shí)間的代碼遠(yuǎn)比幾美元的API調(diào)用更值錢。

五、地域分布與全球化特征

超過50%的使用來自美國以外的地區(qū)。

OpenRouter平臺(tái)的數(shù)據(jù)顯示，超過50%的使用量來自美國以外的地區(qū)。這表明AI技術(shù)的應(yīng)用已經(jīng)呈現(xiàn)出明顯的全球化特征，不再局限于硅谷或北美市場(chǎng)。

中國、歐洲、東南亞等地區(qū)的用戶占比持續(xù)上升，不同地區(qū)的用戶在模型選擇和使用場(chǎng)景上也表現(xiàn)出一定的差異性。

六、深度討論：數(shù)據(jù)背后的關(guān)鍵洞察

這項(xiàng)基于100萬億Token的實(shí)證研究，不僅呈現(xiàn)了大模型使用的表面數(shù)據(jù)，更揭示了幾個(gè)細(xì)致入微的主題，深刻改變了我們對(duì)AI部署的傳統(tǒng)認(rèn)知。

多模型生態(tài)系統(tǒng)：沒有"一統(tǒng)天下"

數(shù)據(jù)顯示，沒有單一模型能夠主導(dǎo)所有使用場(chǎng)景，我們正在目睹一個(gè)豐富的多模型生態(tài)系統(tǒng)的形成，閉源和開源模型各自占據(jù)重要份額。

例如OpenAI和Anthropic的模型在編程和知識(shí)任務(wù)中領(lǐng)先，但像DeepSeek和Qwen這樣的開源模型共同服務(wù)了超過30%的Token使用量。這表明LLM的未來使用將是模型無關(guān)且異質(zhì)化的。

對(duì)開發(fā)者而言，這意味著保持靈活性、整合多個(gè)模型、為每個(gè)項(xiàng)目選擇最佳方案，而非把所有賭注押在單一模型上。對(duì)模型提供者來說，這強(qiáng)調(diào)了競(jìng)爭(zhēng)可能來自意想不到的地方，社區(qū)模型可能侵蝕市場(chǎng)份額，除非持續(xù)改進(jìn)和差異化。

使用多樣性超越生產(chǎn)力：陪伴與創(chuàng)意的崛起

一個(gè)令人驚訝的發(fā)現(xiàn)是角色扮演和娛樂導(dǎo)向應(yīng)用的大量使用。超過50%的開源模型使用是用于角色扮演和講故事，而非編程或辦公。即使在專有平臺(tái)上,早期ChatGPT的使用也有相當(dāng)一部分是隨意且富有創(chuàng)意的探索。

這反駁了"LLM主要用于編寫代碼、電子郵件或摘要"的假設(shè)。

實(shí)際上，許多用戶通過這些模型尋求陪伴、情感互動(dòng)或創(chuàng)意探索。

這具有重要意義：

凸顯了面向消費(fèi)者應(yīng)用在融合敘事設(shè)計(jì)、情感互動(dòng)方面的巨大機(jī)遇
為個(gè)性化開辟新前沿——能夠演化個(gè)性、記住偏好、維持長(zhǎng)期互動(dòng)的AI代理
重新定義模型評(píng)估指標(biāo)：成功可能更多依賴連貫性和持續(xù)對(duì)話能力，而非單純的事實(shí)準(zhǔn)確性
為AI與娛樂IP的跨界開辟道路，在互動(dòng)敘事、游戲和創(chuàng)作者驅(qū)動(dòng)的虛擬角色領(lǐng)域具有潛力

Agent時(shí)代來臨：從對(duì)話到執(zhí)行

LLM的使用正從單回合交互轉(zhuǎn)向智能推理模式。模型不再只是產(chǎn)出一次性響應(yīng)，而是協(xié)調(diào)工具調(diào)用、訪問外部數(shù)據(jù)、迭代優(yōu)化輸出以實(shí)現(xiàn)目標(biāo)。

早期證據(jù)顯示多步查詢和鏈?zhǔn)焦ぞ呤褂谜诳焖僭鲩L(zhǎng)。隨著這一范式擴(kuò)展，評(píng)估將從語言質(zhì)量轉(zhuǎn)向任務(wù)完成度和執(zhí)行效率。

下一個(gè)競(jìng)爭(zhēng)前沿是模型如何有效執(zhí)行持續(xù)推理。這一轉(zhuǎn)變最終可能重新定義"大規(guī)模AI代理推理"在實(shí)踐中的含義。

地理格局：全球化與去中心化

LLM的使用正變得越來越全球化和去中心化,增長(zhǎng)迅速超出北美地區(qū)。亞洲在Token需求中的份額已從約13%上升至31%,反映出企業(yè)采用和創(chuàng)新的增強(qiáng)。

中國不僅通過國內(nèi)消費(fèi)，還通過生產(chǎn)具有全球競(jìng)爭(zhēng)力的模型，成為重要力量。

更廣泛的結(jié)論是：LLM必須在全球范圍內(nèi)都非常有用，在不同語言、語境和市場(chǎng)中表現(xiàn)優(yōu)異。

下一階段的競(jìng)爭(zhēng)將取決于文化適應(yīng)性和多語言能力，而不僅僅是模型規(guī)模。

成本與使用動(dòng)態(tài)：遠(yuǎn)非簡(jiǎn)單的價(jià)格競(jìng)爭(zhēng)

LLM市場(chǎng)還不像商品市場(chǎng)——單靠?jī)r(jià)格對(duì)使用量解釋不多。用戶在權(quán)衡質(zhì)量、可靠性和能力廣度的同時(shí)考慮成本。

閉源模型繼續(xù)捕獲高價(jià)值、與收入相關(guān)的工作負(fù)載，而開源模型主導(dǎo)低成本且高流量的任務(wù)。這創(chuàng)造了一個(gè)動(dòng)態(tài)平衡，這種平衡更多是由來自下方的恒定壓力而非穩(wěn)定性所定義。

開源模型不斷推動(dòng)效率前沿，尤其在推理和編碼領(lǐng)域（例如Kimi K2）快速迭代和創(chuàng)新可以縮小性能差距。開放模型的每一次改進(jìn)都?jí)嚎s了專有系統(tǒng)的定價(jià)能力，迫使它們通過卓越的集成、一致性和企業(yè)支持來合理化溢價(jià)。

由此產(chǎn)生的競(jìng)爭(zhēng)節(jié)奏快速、不對(duì)稱且不斷變化。隨著時(shí)間推移，隨著質(zhì)量趨同加速，價(jià)格彈性可能增加，使曾經(jīng)分化的市場(chǎng)變得更加流動(dòng)。

"灰姑娘玻璃鞋現(xiàn)象"：留存率才是真正的護(hù)城河

隨著基礎(chǔ)模型能力的躍進(jìn)而非漸進(jìn)，留存率已成為衡量可防御性的真正標(biāo)準(zhǔn)。每一次突破都會(huì)創(chuàng)造一個(gè)短暫的發(fā)布窗口，讓模型能夠完美"適配"高價(jià)值工作負(fù)載——這就是"灰姑娘玻璃鞋時(shí)刻"。用戶一旦找到合適的模型，就會(huì)圍繞它構(gòu)建工作流程和習(xí)慣。

在這種范式中，產(chǎn)品市場(chǎng)契合等同于工作負(fù)載模型契合：率先解決真實(shí)痛點(diǎn)，推動(dòng)用戶圍繞該能力構(gòu)建工作流程，從而推動(dòng)深層且粘性的采用。因此，切換成本在技術(shù)和行為上都變得昂貴。

對(duì)于建設(shè)者和投資者來說，需要關(guān)注的信號(hào)不是增長(zhǎng)，而是留存曲線——建立能夠持續(xù)經(jīng)受模型更新考驗(yàn)的基礎(chǔ)用戶群體。在日益快速變化的市場(chǎng)中，及早捕捉這些關(guān)鍵未滿足需求，決定了下一次能力飛躍后誰能堅(jiān)持下去。

七、研究?jī)r(jià)值與未來展望

LLM正成為跨領(lǐng)域推理任務(wù)的重要計(jì)算基礎(chǔ)，從編程到創(chuàng)意寫作。隨著模型的不斷進(jìn)步和部署的擴(kuò)大，準(zhǔn)確了解現(xiàn)實(shí)世界的使用動(dòng)態(tài)對(duì)于做出明智決策至關(guān)重要。

人們使用LLM的方式并不總是符合預(yù)期，且因國家、地區(qū)和用例而有很大差異。通過大規(guī)模觀察使用情況，我們可以將對(duì)LLM影響的理解扎根于現(xiàn)實(shí)，確保后續(xù)的發(fā)展——無論是技術(shù)改進(jìn)、產(chǎn)品特性還是法規(guī)——都與實(shí)際使用模式和需求保持一致。

從競(jìng)爭(zhēng)到協(xié)作的范式轉(zhuǎn)變

過去一年催化了該領(lǐng)域?qū)ν评砝斫夥绞降母拘赞D(zhuǎn)變。o1類模型的出現(xiàn)使得長(zhǎng)時(shí)間思考和工具使用變得規(guī)范化，評(píng)估從單次基準(zhǔn)轉(zhuǎn)向基于過程的指標(biāo)、延遲-成本權(quán)衡以及編排下的任務(wù)成功率。

數(shù)據(jù)顯示，LLM生態(tài)系統(tǒng)在結(jié)構(gòu)上是多元的。沒有單一模式或供應(yīng)商占據(jù)主導(dǎo)地位；相反，用戶根據(jù)具體場(chǎng)景，在能力、延遲、價(jià)格和信任等多個(gè)維度上選擇系統(tǒng)。這種異質(zhì)性不是暫時(shí)階段，而是市場(chǎng)的基本特征。它促進(jìn)快速迭代，減少對(duì)任何單一模型或技術(shù)棧的系統(tǒng)性依賴。

Agent推理：下一個(gè)競(jìng)爭(zhēng)前沿

推理本身也在變化。多步驟和工具關(guān)聯(lián)交互的興起，標(biāo)志著從靜態(tài)補(bǔ)全向動(dòng)態(tài)編排的轉(zhuǎn)變。用戶正在串聯(lián)模型、API和工具以實(shí)現(xiàn)復(fù)合目標(biāo)，催生了可稱為"Agent推理"的現(xiàn)象。有充分理由相信，Agent推理的使用量將超過、甚至已經(jīng)超過人類單次推理。

實(shí)際上，o1并未終結(jié)競(jìng)爭(zhēng)，而是擴(kuò)展了設(shè)計(jì)空間。該領(lǐng)域正朝向系統(tǒng)性思維而非單一押注，向基于數(shù)據(jù)的分析取代直覺，向?qū)嵶C使用分析取代排行榜競(jìng)爭(zhēng)的方向發(fā)展。

如果過去一年證明了Agent推理在大規(guī)模上是可行的，那么明年將聚焦于運(yùn)營卓越：測(cè)量真實(shí)任務(wù)完成度、減少分布轉(zhuǎn)移下的方差，以及使模型行為與生產(chǎn)規(guī)模工作負(fù)載的實(shí)際需求保持一致。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.