国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

2025年,企業(yè)級AI的主戰(zhàn)場在哪里?

0
分享至



大模型不再只是“會說話的搜索引擎”,而正在變成一個多模型協(xié)同的推理與決策層。在這個層上,誰能先踩到自己的“玻璃鞋時刻”,誰就有機會在未來幾年的 AI 生態(tài)中,擁有屬于自己的一塊穩(wěn)固地盤。

來源|A16z

編譯|斗斗

出品|產(chǎn)業(yè)家

過去一年,AI 產(chǎn)業(yè)正在經(jīng)歷一次結構性轉折:模型不再主要用于通用聊天,而是逐漸滲入研發(fā)、運營、客服、創(chuàng)意內(nèi)容、工具鏈自動化等真正具有業(yè)務價值密度的生產(chǎn)環(huán)節(jié)。然而,關于一個最根本的問題——現(xiàn)實世界的大模型到底被企業(yè)和個人“用來做什么”——產(chǎn)業(yè)界反而缺乏基于大規(guī)模真實數(shù)據(jù)的認知。

在產(chǎn)品演示、基準測試和公開發(fā)布的光鮮敘事之外,真實的業(yè)務工作負載(workloads)、真實的模型選擇偏好(model selection)、真實的付費結構(spend distribution)與長期留存(retention),才是決定 AI 產(chǎn)業(yè)形態(tài)的主導力量。

在OpenRouter與a16z聯(lián)合發(fā)布的《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告中,首次基于超過 100 萬億個真實推理 token 做了系統(tǒng)分析,為我們揭開了真實世界的 AI 使用地圖。

本篇文章在盡可能完整保留原報告洞見的基礎上,對技術趨勢、需求結構、模型競爭格局與商業(yè)含義進行了重新梳理,力求呈現(xiàn)一幅更貼近產(chǎn)業(yè)決策、更貼近產(chǎn)品研發(fā)、更貼近實際工作負載結構的 AI 落地圖景。

如果你關心未來幾年企業(yè)級 AI 的主戰(zhàn)場在哪里?哪些模型會成為長期基礎設施,哪些只是短期熱點?開源、閉源、中外模型將在產(chǎn)業(yè)鏈中扮演怎樣的角色?如何理解 AI 模型的真實需求曲線?那么,下面這篇基于百萬億級數(shù)據(jù)的綜合分析,將為你提供一份難得的產(chǎn)業(yè)級參考底圖。

以下內(nèi)容為《State of AI: An Empirical 100 Trillion Token Study with OpenRouter》研究報告原文的二次梳理。

前言:

在很長一段時間里,大語言模型更像一個“超級輸入法”。它接受一段文本,再根據(jù)概率分布,把后面的字一句句補全。哪怕我們引入鏈式思維、RAG、工具調用,看上去模型好像在“思考”,本質上也只是一次前向推理的復雜包裝。

這種狀態(tài)在 OpenAI 推出 o1 推理模型之后出現(xiàn)了明顯變化。o1 和之后的一系列推理模型,不再滿足于“直接吐答案”,而是把思考過程內(nèi)化為多步推理:先在內(nèi)部生成、修正和篩選中間推理,再對外給出結論。也正是在這一波模型迭代的同時,現(xiàn)實世界的使用場景開始急劇擴張,從聊天寫作延伸到編程輔助、復雜工具編排和自動化代理。

可惜,與熱鬧的討論相比,我們一直缺少系統(tǒng)的數(shù)據(jù)來回答一個根本問題:這些模型到底在被怎樣使用?

為了解答這個問題,研究者基于 OpenRouter 平臺,分析了超過一百萬億 token 的真實調用記錄,覆蓋數(shù)百個模型、全球用戶和近一年的時間跨度。文章后面的所有結論,都建立在這套大樣本的統(tǒng)計之上。

要理解這些結論,先要搞清楚數(shù)據(jù)是如何收集的。

OpenRouter 是一個多模型聚合平臺,匯集了六十多家提供商、三百多個模型,對外提供統(tǒng)一接口。每一次調用都會留下結構化記錄:使用的是哪一個模型,輸入和輸出的 token 數(shù)量是多少,請求來自哪個計費地區(qū),有沒有觸發(fā)工具調用,是否采用流式輸出,以及延遲和錯誤等元數(shù)據(jù)。

出于隱私考慮,研究者看不到具體的提示詞和回答內(nèi)容,只能看到這些“殼信息”。為了推斷“這次調用是用來干什么的”,他們從所有請求里抽取了大約 0.25% 的樣本,把提示和回復送進 Google 的文本分類系統(tǒng),根據(jù)層級標簽把每次對話歸到某個使用類別,比如編程、角色扮演、翻譯、教育、成人內(nèi)容等等,然后再把細標簽歸并為少數(shù)大類。通過這種方式,報告得以在不泄露用戶具體內(nèi)容的前提下,還原真實世界的使用結構。

在模型維度上,作者又做了幾層區(qū)分:一是開源和閉源,看模型權重是否公開;二是中國模型和其他地區(qū)模型,根據(jù)開發(fā)主體所在地域劃分;三是按參數(shù)規(guī)模,把模型分成小、中、大三個檔次。用戶地域則按計費地址而非 IP 判斷,以獲得更穩(wěn)定的統(tǒng)計口徑。

而基于這套標注體系,AI落地產(chǎn)業(yè)的圖景逐漸顯現(xiàn)。

一、開源 vs 閉源:

開源已經(jīng)拿走了三分之一的盤子

有了數(shù)據(jù)基礎,接下來我們先看最直觀、爭議也最大的一個問題:開源模型究竟用得多不多?

在總 token 量維度上,閉源模型依然是絕對主力,大約占到 70% 左右;但另一頭,開源模型在一年之內(nèi)的份額一路上漲,到 2025 年底已經(jīng)穩(wěn)定在 30% 左右。也就是說,開源不再是“小圈子愛好者玩具”,而是實打實承載了全球近三分之一的大模型推理量。



這種增長并不是線性慢漲,而是和幾次關鍵的開源發(fā)布緊密綁定:Llama 3.3 70B、DeepSeek V3 / R1、Kimi K2、GPT-OSS 系列等模型的發(fā)布,都會在圖表上帶來清晰的“階梯式上升”;更關鍵的是,這些臺階不是“一陣風”,在發(fā)布之后使用量能長期維持在高位,說明它們真的被納入了穩(wěn)定的工作流和產(chǎn)品。

在開源陣營內(nèi)部,“中國模型”是一個非常亮眼的變量。



按年平均來看,中國開源模型大概占了全平臺 13% 的 token 份額,與非中國開源模型幾乎打平。有些周,甚至能達到全平臺 接近 30% 的 token 使用量。這背后,主要是 DeepSeek、Qwen 等家族在頻繁迭代、持續(xù)擴容:每次新模型發(fā)布,都會帶來一波新流量,并把舊流量遷移過來。

這意味著,中國模型不再只是本地市場的小生態(tài),而已經(jīng)成為全球開源版圖中的重要一極。

如果只看開源模型內(nèi)部份額,可以看到明顯的“多極化”趨勢:2024 年底,DeepSeek V3 + R1 在開源流量里幾乎是霸榜狀態(tài);但隨著 Qwen 3 系列、Kimi K2、GPT-OSS 等新選手不斷加入,到 2025 年底,沒有任何一個開源模型再能拿到超過 25% 的開源 token;Top 5–7 個模型的份額差距在縮小,大家一起瓜分市場。



這也給了模型開發(fā)者一個清晰信號:開源世界“爆款頻出,但生命周期并不長”。想長期留在榜首,一次性做一個很強的模型遠遠不夠,持續(xù)高頻迭代才是剛需。

二、模型大小之爭:

中等規(guī)模模型逐漸成為“甜點位”

開源世界經(jīng)常會被問一個問題:到底要做多大的模型?這份報告也給出了一些行為層面的答案。

論文按參數(shù)量把開源模型分成三類:小模型:<15B、中模型:15–70B、大模型:≥70B。



對比“模型數(shù)量”和“實際使用份額”之后,可以看出幾個趨勢。

一是小模型數(shù)量很多,但使用份額在下降。各種 LoRA、專用小模型層出不窮;但它們往往只在極小的垂類或短期試驗里出現(xiàn),生命周期短,很難形成持續(xù)大規(guī)模使用。

二是中等規(guī)模模型使用份額快速上升。這一檔被認為找到了比較好的“model–market fit”:能力足夠強,能覆蓋大部分復雜任務;成本又比超大模型低很多;像 Qwen2.5 Coder 32B、Mistral Small 3、GPT-OSS 20B 都是典型代表。

三是大模型并未出現(xiàn)單一王者。在 ≥70B 這個檔位上,并沒有哪一個模型吃掉絕大部分流量;Qwen3 235B、GLM 4.5 Air、GPT-OSS-120B 等都保持了一定份額。



換句話說,“小而美”很難吃到大眾市場,“巨大無比”又太貴,中間這檔綜合能力和成本的模型,正在成為真正的流量承載者。大模型則更多被用在評估、重要決策和極難任務上。

三、開源模型拿來干什么?

一半陪你玩,一半幫你寫代碼

知道了“誰在用什么”,下一個問題自然是:他們用模型來做什么?

在所有開源模型的任務分布中,兩個類別格外突出。一是Roleplay(角色扮演),大約占到了一半以上的 token;二是Programming(編程),大約占 15–20%。



這和大眾想象中“模型主要用來效率辦公、寫郵件”的印象相當不同。

真實情況是大量用戶在用開源模型做角色扮演、劇情創(chuàng)作、人物對話、同人故事甚至游戲系統(tǒng);另一個大頭則是代碼生成、調試和輔助編程。

從產(chǎn)品視角看,這不難理解,對于“虛構內(nèi)容”和“個性化體驗”,開源模型限制更少,也更容易定制特定人設;對于編程,開源模型可以被深度內(nèi)嵌到本地開發(fā)工具和自建基礎設施里,利于控制成本和隱私。

如果單獨抽出“中國開源模型”來看,結構又有些不同。角色扮演仍然是最大的類別,占比約33%,但編程和技術領域的使用量合計已占多數(shù),達到39%。



這說明,在全球開源生態(tài)里,中國模型更傾向于被用在技術與工程方向:寫代碼、改腳本、看日志、做基礎設施相關操作,而不僅僅是閑聊或娛樂。

進一步,如果只看“編程”這一種任務,格局又有所不同。閉源模型整體上依然承擔了大部分編程流量,尤其是 Anthropic 的 Claude 系列,一直是代碼類任務中的頭號選手;在開源陣營內(nèi)部,2025 年中期,中國開源模型一度在編程流量上占絕對優(yōu)勢(比如 QwenCoder系列);到 2025 年底,歐美開源(LLaMA Code、GPT-OSS 等)追上甚至在部分時間段反超。



而在“角色扮演”這一類中,格局則更偏向開源與閉源兩極并存,早期主要由閉源模型承載;隨著開源模型能力和自由度的提升,后來角色扮演流量開始大量遷向開源,呈現(xiàn)出幾乎對半分的狀況。



綜合看下來,開源模型在“高自由度娛樂/創(chuàng)作”場景已經(jīng)與閉源平分秋色,在高精度編程與嚴肅推理上仍處于追趕,但進展極快。

四、推理模型與工具調用:

LLM正在變成“多步?jīng)Q策引擎”

隨著任務復雜度的提高,單輪“問一句,答一句”的模式逐漸顯得吃力。因此,接下來這幾個現(xiàn)象幾乎是順理成章的:推理模型普及、工具調用變多、上下文變長。

在時間維度上看,真正優(yōu)化過“多步推理”的模型起初份額很小,甚至只是實驗性的存在。但到 2025 年底,這類模型已經(jīng)承擔了超過 50% 的 token 流量。



這些模型包括:xAI 的 Grok Code Fast 1、Grok 4 Fast;Google 的 Gemini 2.5 Pro / Flash;OpenAI 的 gpt-oss-120b 等。



這表明,開發(fā)者在默認選擇模型時,越來越偏向“會多步思考”的版本,哪怕它們的延遲稍高、成本略貴,也愿意為穩(wěn)定的復雜推理能力買單。

工具調用(tool-calling)是另一條清晰的上升曲線。論文通過“finish reason = tool_call”的比例來估算工具調用的使用程度,結果顯示工具調用的占比在一年之內(nèi)穩(wěn)步提升,只有在某些大客戶短期爆量時出現(xiàn)尖峰。



早期,只有極少數(shù)模型(如 gpt-4o-mini、部分 Claude 3.5/3.7)承擔了幾乎全部工具調用流量;隨著時間推進,越來越多模型實現(xiàn)了工具調用能力,新版本的 Claude、Gemini、xAI 模型也逐漸接力。



這也反過來說明對企業(yè)級、高價值場景來說,“沒有穩(wěn)定的工具調用”,已經(jīng)成了很多模型的硬傷。沒有 tool calling,模型就很難被納入嚴肅的自動化工作流。

如果再看輸入輸出長度,就能更直觀地感受到任務在變復雜。平均提示長度在一年內(nèi)增長了約 4 倍,從 1,500 token 左右漲到 6,000;輸出長度也從 150 漲到約 400,但增幅相對小,說明更多的 token 被用來提供上下文,而不是多寫字。

更極端的是,在編程類任務中,序列長度往往是整體平均值的 3–4 倍。這很容易理解:看代碼、分析日志、比對配置,本身就是對“長文本理解”和“局部推理”的考驗。



結合上述三個趨勢,推理模型、工具調用、長上下文,我們就能看出一個清晰的圖景。

典型的大模型請求,正在從“回答一個問題”,轉變?yōu)椤膀寗右粋€代理”:它讀一大段上下文,調用工具干具體事,在內(nèi)部做多輪思考,最后給出一個結構化的決策或結果。

五、任務類別全景:

編程和娛樂是兩個超級引擎

當我們把所有模型(而不僅僅是開源)一起看,就會發(fā)現(xiàn)一些更宏觀的趨勢。

在所有類別中,編程(Programming)的增長最為夸張,2025 年初,編程相關請求大約只占所有 token 的 1 成出頭;到 2025 年末,編程類任務已經(jīng)吃掉了超過一半的 token。



這背后是 IDE 集成、代碼助手、自動化研發(fā)流水線的全面鋪開:IDE 原生集成 LLM 成為常態(tài);自動生成單元測試、重構代碼、跨項目理解代碼庫變成頻繁操作;持續(xù)交付中的一些環(huán)節(jié)開始由模型輔助甚至主導。

在不同提供商中,分工也逐漸清晰。Anthropic 的 Claude 系列長期拿著 60% 以上的編程流量,是工程師群體的首選;Google、OpenAI、MiniMax 等各自占據(jù)部分份額,但整體來看,“寫代碼”作為 LLM 最重要的生產(chǎn)力場景之一,已經(jīng)毫無疑問。



再看 Roleplay 類別,我們會發(fā)現(xiàn)一個有趣的結構,其中接近 60% 的 token 來自 “Games / Roleplaying Games”;另外約 15% 來自寫作者資源(Writers Resources),又有 15% 來自成人內(nèi)容(Adult)。





換句話說,很多用戶并不是在隨意閑聊,而是在進行“嚴肅的幻想活動”,比如寫小說、寫劇本、做世界觀設定;扮演游戲角色、跑團、半即時敘事;以及探索成人幻想。

這部分需求在傳統(tǒng)軟件世界里幾乎沒有對標產(chǎn)品,如今被統(tǒng)統(tǒng)吸進了 LLM 里。它的商業(yè)化路徑也許和“生產(chǎn)力工具”完全不同,更接近內(nèi)容平臺、游戲和虛擬陪伴。

此外,還有一大批“既高價值又高風險”的長尾領域,那就是健康(Health):子類別高度分散,從疾病咨詢到心理支持無所不包;金融、法律、學術研究,這類使用量不低,但尚未形成像編程、角色扮演那樣清晰的主流模式。

這些領域有一個共同特點:對正確性要求極高、對錯誤容忍度極低。這也解釋了為什么它們在成本上會偏高,但使用模式仍然比較謹慎、碎片化,大家都在試水,但還不敢“全身跳下去”。

六、不同模型提供商的“畫像”:

誰在服務誰?

把任務類別再按模型提供商拆開,就能看到每家廠商在現(xiàn)實世界中的“定位”。

整體來看,大致有幾種典型畫像。

一是Anthropic(Claude),這類使用結構高度偏向編程和技術任務,Roleplay、閑聊類內(nèi)容占比極小,整體氣質非?!肮こ處?/ 企業(yè)級”。



二是Google(Gemini 系列),這類任務分布更均衡,翻譯、科學、法律、技術、知識問答都有;編程占比反而在緩慢下降,更像是“通用信息引擎”和“知識問答中樞”。



三是xAI(Grok),這類早期幾乎所有流量都集中在編程;直到開放免費后,才逐漸在 roleplay、學術問答等方向擴展;展現(xiàn)出從“硬核工程工具”向“通用助手”擴張的軌跡。



四是OpenAI,一開始,科學類問題占了很大比例(尤其是和 Machine Learning & AI 相關);隨著新模型推出,編程 + 技術任務比例持續(xù)提高,年末已經(jīng)超過一半;Roleplay 和日常聊天類請求占比顯著下降,整體使用呈現(xiàn)“專業(yè)化”趨勢。



還有就是以DeepSeek、Qwen為代表的中國廠商。DeepSeek更加偏向 roleplay 和輕量聊天,編程與科學比例相對較低,但有緩慢抬頭;Qwen恰好相反,40–60% 的 token 用在編程上,roleplay 和 science 的占比隨時間波動。





從這些畫像可以看出,多模型生態(tài)之所以存在,不只是因為“大家都想分一杯羹”,而是因為不同模型確實在現(xiàn)實中服務了不同的用戶群體和任務結構。這也是“多模型編排”未來越來越重要的原因,即沒有一個模型能在所有維度都最好。

七、全球視角:

誰在用?用的是什么語言?

模型用得多不多,只是一個維度;另一個關鍵信息是:這些模型被哪些地區(qū)、哪些語言的人在使用?

按消費支出來看北美依然是最大的單一區(qū)域,但多數(shù)時間已低于全球總支出的 50%;歐洲穩(wěn)居第二,長期維持在中高兩位數(shù)百分比;亞洲是增長最快的地區(qū),從最初約 13% 的份額,逐步提升到接近三分之一,已經(jīng)與歐洲、北美形成三足鼎立的格局。



其中很大一部分增長,正是隨著亞洲本地模型(尤其是中國模型)發(fā)布而被激發(fā)出來的——當本地語言、本地上下文、本地價格更有優(yōu)勢時,區(qū)域市場的活躍度自然會被抬高。

雖然地區(qū)分布在多極化,但在語言層面,模型使用仍然高度集中,英語占到了約 83% 的提示;簡體中文約 5%;俄語、西班牙語和其他語言合計構成剩余的一小部分。



這一結構一方面反映了當前模型訓練數(shù)據(jù)和能力的現(xiàn)實,那就是英語仍然是效果最好、資源最豐富的語言;另一方面也說明了未來的機會空間:多語言、本地化模型還有很大的成長余地。

八、留存與“玻璃鞋效應”:

好模型不是“漲一波就完事”

有了使用量,還不夠理解一個模型的真實生命力,關鍵在于:用戶會不會留下來?

論文通過 cohort 分析,把用戶按“首次使用某模型的月份”分組,觀察每一組在此后各個月份里還有多少用戶還在繼續(xù)使用。這時會發(fā)現(xiàn)一個特別有意思的現(xiàn)象,那就是大部分 cohort 的留存曲線在前幾個月都掉得很快;但通常會有一兩條“早期 cohort”的曲線明顯高于其他批次,而且能 長期維持在 30–40% 的高留存。

比如,Gemini 2.5 Pro 的 2025 年 6 月 cohort、Claude 4 Sonnet 的 2025 年 5 月 cohort,都展現(xiàn)出這種“高而穩(wěn)定”的留存特征。





作者用“Cinderella Glass Slipper(灰姑娘的玻璃鞋)”來形容這種現(xiàn)象。簡而言之,就是市場上存在著一批高價值、長期的任務,一直找不到“剛剛好”的模型;某一天,一個新模型出現(xiàn),能力和價格恰好匹配這些任務需求,那一批用戶就“試鞋成功”;一旦這類任務在某模型上跑通,上下游工具、流程、組織習慣都會圍繞它搭建,遷移成本迅速變高;即便后來有性能略強的競品出現(xiàn),這批用戶也不會輕易挪窩。

因此,一個模型是否真正抓住了高價值工作負載,不看一時的使用峰值,而要看它是否擁有這樣的“玻璃鞋 cohort”。

在 DeepSeek 的留存曲線里,還出現(xiàn)了少見的“boomerang(回旋鏢)效應”,即某些 cohort 在一開始幾個月快速流失;但過了一段時間后,留存曲線又出現(xiàn)回升,說明原本流失的用戶又回來用這款模型。





這很可能意味著一部分用戶被其他新模型吸引走,評估試用一圈之后發(fā)現(xiàn),某些指標(比如成本、速度或特定任務上的表現(xiàn))DeepSeek 仍然更適合自己的工作流,于是又遷回。

這種“出走–回歸”的行為,恰恰佐證了:行為數(shù)據(jù)不只是一次性偏好,而是持久比較之后的選擇結果。

九、成本與使用:

不是“誰便宜就用誰”

最后一個關鍵問題是:價格到底有多重要?

大部分人很容易直覺地認為 AI 已經(jīng)卷成了價格戰(zhàn),但報告的數(shù)據(jù)給出了更細致的答案。

把不同任務類別畫在“每百萬 token 成本(橫軸,log)”和“總使用量(縱軸,log)”上,可以大致分成四類。



右上是高成本、高使用,例如 Technology、Science 等技術和科研類任務;左上是低成本、高使用,例如編程和角色扮演這兩個流量怪獸;右下是高成本、低使用,例如金融、健康、學術、營銷等專業(yè)場景;左下是低成本、低使用,例如翻譯、法律咨詢、冷知識查詢等工具化場景。

特別夸張的是 Technology 類別,它在成本上是明顯的離群點,但使用量依然很高,意味著當任務本身價值特別高(比如系統(tǒng)架構設計、復雜技術咨詢)時,用戶對價格極不敏感,反而更在乎模型的可靠性和能力上限。

如果換個角度,把每個模型作為一個點畫在“成本 vs 使用”的圖上,會看到模型價格下降 10%,使用量平均只上升不到 1%,總體相關性非常弱。但在聚類上卻很清晰,即閉源模型集中在“高價、高使用”區(qū)域;開源模型則更多分布在“低價、中高使用”區(qū)域。



這說明閉源模型主要在抓高價值任務,用戶愿意為其更高的性能和可靠性付錢;開源模型則更多承載了高體量、成本敏感的任務,比如大規(guī)模角色扮演和非關鍵生產(chǎn)環(huán)境中的編程。

同時也能看到某些很貴的模型使用量一般,卻深度服務極少數(shù)關鍵任務,它們的價值不能簡單用“token 數(shù)”來衡量;大量“便宜但一般”的模型,沒有形成工作負載–模型的強匹配,即使價格壓得很低,也不會自然跑出使用量。

一句話總結就是,價格重要,但遠沒有“是否真正解決了某類高價值任務”重要。

十、整體啟示:

多模型、代理化和“玻璃鞋時刻”

把所有這些數(shù)據(jù)和現(xiàn)象放在一起,可以提煉出幾個對未來幾年都很重要的結論。

首先,未來是一個穩(wěn)定的多模型世界。不同模型在不同任務上形成各自的“使用畫像”;閉源抓高價值,開源吃高體量,各有生存空間;對應用開發(fā)者來說,押寶一個“終極大一統(tǒng)模型”風險太高,更現(xiàn)實的選擇是:做模型無關,做多模型編排。



其次,真實世界的使用遠不止“生產(chǎn)力工具”。在開源世界,超過一半的流量來自角色扮演、敘事創(chuàng)作和娛樂;這些場景需要的是持續(xù)性、趣味性、一致的人設,而不僅是事實正確;這意味著,我們需要全新的評估維度和產(chǎn)品形態(tài),而不能只用“考試分數(shù)”和“基準測試”衡量模型。

另外,編程與代理式推理是關鍵戰(zhàn)場。編程類任務成為增長最快的品類,序列最長、工具調用最多;推理優(yōu)化模型已經(jīng)占據(jù)過半流量,代理式使用成為主流;對模型和基礎設施來說,長上下文、工具調用魯棒性和整體工作流延遲的重要性,已經(jīng)超過“單次回答的華麗程度”。

最后,護城河不在價格,而在“玻璃鞋時刻”。真正能留下來的,是那些第一次“剛剛好”地解決了一類工作負載的模型;一旦形成了關鍵任務上的深度綁定,后來的玩家哪怕性能略強、價格更低,也不一定能撬走用戶;對模型提供方來說,重點不在于持續(xù)壓價,而在于找到自己最擅長的任務帶,把這部分用戶服務好,保證可靠性和持續(xù)迭代。

結語

通過對超過 100 萬億個 token 的真實調用數(shù)據(jù)進行拆解,這份研究把我們常?!皯{感覺”討論的許多問題——開源 / 閉源之爭、推理模型的價值、多模型生態(tài)、價格戰(zhàn)與留存、編程和娛樂的相對重要性——都拉回了實證層面。

如果只用一句話來概括這份報告的內(nèi)核,大概會是大模型不再只是“會說話的搜索引擎”,而正在變成一個多模型協(xié)同的推理與決策層。在這個層上,誰能先踩到自己的“玻璃鞋時刻”,誰就有機會在未來幾年的 AI 生態(tài)中,擁有屬于自己的一塊穩(wěn)固地盤。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不裝了,瓜帥突爆爭議發(fā)言!曼城很意外,球迷:這是破防了

不裝了,瓜帥突爆爭議發(fā)言!曼城很意外,球迷:這是破防了

阿泰希特
2026-03-14 14:07:36
F1巴林站、沙特站將被取消

F1巴林站、沙特站將被取消

五星體育
2026-03-13 23:10:40
突發(fā)!美國,大舉增兵中東!原油大漲,歐美股市全線跳水

突發(fā)!美國,大舉增兵中東!原油大漲,歐美股市全線跳水

證券時報
2026-03-14 07:52:31
忍了8年,中國終于對歐美航空霸權掀桌子,C919先敲開越南大門

忍了8年,中國終于對歐美航空霸權掀桌子,C919先敲開越南大門

李子櫥
2026-03-12 05:32:13
馬筱梅的體面被戳破,小楊阿姨終于說實話,家沒喜事,是被辭了

馬筱梅的體面被戳破,小楊阿姨終于說實話,家沒喜事,是被辭了

非常先生看娛樂
2026-03-13 15:54:16
文盲農(nóng)民“自創(chuàng)文字”,卻害苦了學術界,如今破譯一個字10萬元

文盲農(nóng)民“自創(chuàng)文字”,卻害苦了學術界,如今破譯一個字10萬元

收藏大視界
2026-03-12 21:41:27
伊朗人為何不驚慌?

伊朗人為何不驚慌?

西樓飲月
2026-03-11 20:59:17
樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

樓市大局已定:不出意外的話,2026年起中國房價或迎來3大變化

現(xiàn)代小青青慕慕
2026-03-12 11:13:37
50歲趙薇:女兒發(fā)照片為她慶生,她離異后無心婚戀,心疼白發(fā)父母

50歲趙薇:女兒發(fā)照片為她慶生,她離異后無心婚戀,心疼白發(fā)父母

喜歡歷史的阿繁
2026-03-14 11:39:08
震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

震驚!一網(wǎng)友稱到40多歲玩膩了,出去花錢也沒爽點,內(nèi)心一潭死水

火山詩話
2026-03-12 07:06:51
紀實 老人狂扇未讓座小伙4個耳光后猝死,家屬索賠50萬,法院判了

紀實 老人狂扇未讓座小伙4個耳光后猝死,家屬索賠50萬,法院判了

談史論天地
2026-02-19 15:41:31
黃金都要靠邊站!2026年真正“瘋漲”的,竟是你隨手扔的舊東西?

黃金都要靠邊站!2026年真正“瘋漲”的,竟是你隨手扔的舊東西?

南宗歷史
2026-03-05 13:29:16
掙再多也沒用!39歲網(wǎng)紅“王炸姐”去世,死因曝光,直播突然頭疼

掙再多也沒用!39歲網(wǎng)紅“王炸姐”去世,死因曝光,直播突然頭疼

林輕吟
2026-03-13 11:00:02
殺瘋了!56罰,1場 VS 27場,熱巴創(chuàng)NBA四項紀錄

殺瘋了!56罰,1場 VS 27場,熱巴創(chuàng)NBA四項紀錄

體育新角度
2026-03-14 17:19:43
紫牛頭條|澳洲洪災中遇難的兩中國年輕人或為達到簽證要求冒雨驅車,朋友正籌款讓他們?nèi)~落歸根

紫牛頭條|澳洲洪災中遇難的兩中國年輕人或為達到簽證要求冒雨驅車,朋友正籌款讓他們?nèi)~落歸根

揚子晚報
2026-03-13 22:23:57
網(wǎng)紅“一米大肉串”,消費者有權知道吃的是啥 | 新京報快評

網(wǎng)紅“一米大肉串”,消費者有權知道吃的是啥 | 新京報快評

新京報評論
2026-03-13 12:40:05
又一輪財富轉移開始了

又一輪財富轉移開始了

包郵區(qū)
2026-03-13 12:21:06
今天起正式暫停營業(yè)!陪伴深圳人24年,網(wǎng)友:滿滿的回憶...

今天起正式暫停營業(yè)!陪伴深圳人24年,網(wǎng)友:滿滿的回憶...

深圳好玩
2026-03-14 10:09:59
暖哭了!美以空襲炸死160名女童,中國給160個家庭20萬美元撫恤金

暖哭了!美以空襲炸死160名女童,中國給160個家庭20萬美元撫恤金

影像溫度
2026-03-13 16:57:26
伊朗將襲擊英偉達!

伊朗將襲擊英偉達!

中國半導體論壇
2026-03-12 22:31:09
2026-03-14 21:15:00
產(chǎn)業(yè)家
產(chǎn)業(yè)家
產(chǎn)業(yè)互聯(lián)網(wǎng)第一媒體
1099文章數(shù) 1337關注度
往期回顧 全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人!馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸 特朗普表態(tài)

體育要聞

NBA唯一巴西球員,增重20KG頂內(nèi)線

娛樂要聞

張藝興,犯了大忌

財經(jīng)要聞

3·15影子暗訪|神秘的“特供酒”

汽車要聞

吉利銀河M7技術首秀 實力重構主流電混SUV

態(tài)度原創(chuàng)

游戲
旅游
時尚
親子
房產(chǎn)

《紅色沙漠》實體版翻車!需聯(lián)網(wǎng)下載超大補丁包

旅游要聞

跟著熊貓春游雅安:2026年雅安市春季文旅促消費宣傳推廣活動在成都寬窄巷子舉行

年年都流行的帆布鞋,今年這樣穿酷極了!

親子要聞

美國孕產(chǎn)革命,黑人父親爭當陪產(chǎn)員,醫(yī)療系統(tǒng)終于低頭認錯

房產(chǎn)要聞

不容易啊!??诮K于又要賣地了!

無障礙瀏覽 進入關懷版