国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

100萬億token的大模型真相:灰姑娘玻璃鞋現(xiàn)象與DeepSeek回旋鏢效應(yīng)

0
分享至

近日,AI推理平臺(tái)OpenRouter聯(lián)合硅谷知名投資機(jī)構(gòu)a16z發(fā)布了一份重磅研究報(bào)告——《AI現(xiàn)狀:基于100萬億Token的實(shí)證研究》。


基于OpenRouter平臺(tái)上超過100萬億Token的真實(shí)交互數(shù)據(jù),系統(tǒng)分析了2024年底至2025年底全球大語言模型的實(shí)際使用情況,報(bào)告揭示了多個(gè)出乎意料的發(fā)現(xiàn):

  • 開源模型的使用占比已接近30%。

  • 角色扮演類應(yīng)用的使用量超過編程。

  • 推理模型在一年內(nèi)從零增長(zhǎng)到占據(jù)半壁江山。

  • 中國開源模型的全球份額從1.2%飆升至近30%。

  • 大模型是有護(hù)城河的。

這些數(shù)據(jù)為我們理解AI技術(shù)的真實(shí)應(yīng)用場(chǎng)景和發(fā)展趨勢(shì),提供了難得的第一手觀察視角。

一、開源模型正在改寫市場(chǎng)格局

從邊緣走向主流

過去一年,開源大模型經(jīng)歷了爆發(fā)式增長(zhǎng)。報(bào)告數(shù)據(jù)顯示,截至2025年底,開源模型的使用量已占到總量的30%。這意味著在全球范圍內(nèi),每3次AI對(duì)話中就有1次使用的是開源模型。


這一比例在2024年初還不足5%,短短一年時(shí)間增長(zhǎng)了6倍,而且增長(zhǎng)趨勢(shì)仍在持續(xù)。

這打破了"開源模型只是實(shí)驗(yàn)性工具"的固有印象,表明開源生態(tài)已經(jīng)具備了支撐大規(guī)模生產(chǎn)應(yīng)用的能力。

中國開源模型的崛起

更值得關(guān)注的是中國開源模型的表現(xiàn)。報(bào)告顯示,中國開發(fā)的開源模型(包括DeepSeek、Qwen、Kimi、Minimax等)的全球使用量占比,從2024年初的1.2%躍升至2025年底的近30%,增長(zhǎng)超過25倍。


在具體模型排名中,DeepSeek以14.37萬億Token的總使用量位居開源模型榜首,是第二名Qwen(5.59萬億)的近三倍,Meta的LLaMA系列(3.96萬億)位列第三。


中等規(guī)模模型成為新趨勢(shì)

報(bào)告還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:參數(shù)規(guī)模在150億到700億之間的"中等規(guī)模模型"正在快速崛起。


這一細(xì)分市場(chǎng)在2024年底幾乎不存在。但隨著Qwen2.5 Coder 32B、Mistral Small 3和GPT-OSS 20B等模型的發(fā)布,中等規(guī)模模型在開源生態(tài)中的份額穩(wěn)步上升。

這類模型在性能和部署成本之間找到了更好的平衡點(diǎn),既能滿足大多數(shù)應(yīng)用場(chǎng)景的需求,又顯著降低了算力門檻,因此受到開發(fā)者的青睞。

、角色扮演是最高頻的使用場(chǎng)景

超過50%的使用量來自Roleplay。

報(bào)告中最令人意外的發(fā)現(xiàn)之一,是Roleplay(角色扮演/創(chuàng)意對(duì)話)占據(jù)了所有開源模型使用量的52%以上,遠(yuǎn)超編程(15-20%)、翻譯、知識(shí)問答等其他應(yīng)用場(chǎng)景。


在開源模型的使用分類中,角色扮演類應(yīng)用包括互動(dòng)式故事創(chuàng)作、虛擬角色對(duì)話、游戲場(chǎng)景模擬、粉絲創(chuàng)作等。

用戶對(duì)AI的需求并不僅限于提高生產(chǎn)力,情感陪伴和娛樂互動(dòng)同樣是重要的應(yīng)用方向。

編程場(chǎng)景的快速增長(zhǎng)

雖然角色扮演占據(jù)首位,但編程相關(guān)的使用量增長(zhǎng)速度更快。

數(shù)據(jù)顯示,編程類應(yīng)用占比從2025年初的11%增長(zhǎng)到年底的超過50%(包含所有模型)。


這反映出AI輔助編程工具正在被越來越多的開發(fā)者納入日常工作流程。

在編程場(chǎng)景中,Claude系列模型占據(jù)主導(dǎo)地位,長(zhǎng)期保持60%以上的市場(chǎng)份額

OpenAI和Google的模型也在該領(lǐng)域占有一席之地,中國的Qwen Coder系列在開源編程輔助工具中表現(xiàn)突出。

使用場(chǎng)景的多元化

除了角色扮演和編程,報(bào)告還統(tǒng)計(jì)了翻譯(外語資源占51.1%)、科學(xué)研究(機(jī)器學(xué)習(xí)與AI占80.4%)、健康咨詢、法律文檔、金融分析等多個(gè)垂直領(lǐng)域的使用情況。

有趣的是,科學(xué)類查詢中,絕大多數(shù)是關(guān)于AI和機(jī)器學(xué)習(xí)本身的提問,而不是物理、化學(xué)等傳統(tǒng)學(xué)科。這說明AI技術(shù)從業(yè)者是當(dāng)前大模型的重要用戶群體。

三、推理模型成為新的主流

o1的發(fā)布是重要轉(zhuǎn)折點(diǎn)。

2024年12月5日,OpenAI正式發(fā)布o(jì)1推理模型,標(biāo)志著大語言模型從"單步生成"向"多步推理"的范式轉(zhuǎn)變。與傳統(tǒng)模型直接輸出答案不同,推理模型會(huì)在內(nèi)部進(jìn)行多輪思考、驗(yàn)證和自我糾錯(cuò),然后給出最終結(jié)果。

報(bào)告數(shù)據(jù)顯示,到2025年底,推理模型的使用量已占到總量的50%以上。


僅用一年時(shí)間,推理模型就從零增長(zhǎng)到與傳統(tǒng)模型平分秋色。

推理模型的競(jìng)爭(zhēng)格局

在推理模型領(lǐng)域,競(jìng)爭(zhēng)格局變化迅速。截至報(bào)告發(fā)布時(shí),xAI的Grok Code Fast 1占據(jù)推理模型使用量第一的位置,Google的Gemini 2.5 Pro和Gemini 2.5 Flash緊隨其后。幾周前,這一排名還是Gemini 2.5 Pro領(lǐng)先。


Anthropic的Claude系列、OpenAI的gpt-oss-120b等模型也在推理領(lǐng)域占有重要份額。

這種快速的排名變化反映出該領(lǐng)域的競(jìng)爭(zhēng)異常激烈,各家都在快速迭代更新。

Agent化趨勢(shì)明顯

推理能力的提升帶來了另一個(gè)重要變化:AI正從"回答問題"轉(zhuǎn)向"執(zhí)行任務(wù)"。報(bào)告顯示,帶有工具調(diào)用(Tool Call)功能的請(qǐng)求量穩(wěn)步上升,平均對(duì)話序列長(zhǎng)度已是一年前的3倍。


這表明用戶越來越多地將AI作為能夠主動(dòng)調(diào)用外部工具、執(zhí)行多步驟任務(wù)的智能代理(Agent),而不僅僅是對(duì)話式的問答助手。

編程類任務(wù)的平均輸入長(zhǎng)度更是達(dá)到其他類型任務(wù)的3-4倍,顯示出復(fù)雜任務(wù)場(chǎng)景的需求正在快速增長(zhǎng)。


四、成本與性能的新平衡

開源模型的成本優(yōu)勢(shì)

報(bào)告指出,開源模型快速崛起的核心原因是顯著的成本優(yōu)勢(shì)。許多開發(fā)者和中小企業(yè)發(fā)現(xiàn),使用開源模型可以將成本降低90%以上,而在特定場(chǎng)景下的效果與閉源模型相差無幾。

特別是在角色扮演、中文對(duì)話、代碼生成等領(lǐng)域,開源模型已經(jīng)展現(xiàn)出與閉源模型相當(dāng)甚至更優(yōu)的表現(xiàn)。

例如,在角色扮演場(chǎng)景中,開源模型(主要是中國和西方的開源模型)和閉源模型的使用量幾乎平分秋色,各占約43%和42%。

模型選擇的多元化

報(bào)告發(fā)現(xiàn),用戶越來越傾向于針對(duì)不同場(chǎng)景選擇不同的模型,而不是使用單一模型完成所有任務(wù)。編程場(chǎng)景優(yōu)先選擇Claude或Qwen Coder,創(chuàng)意寫作選擇DeepSeek或Kimi,復(fù)雜推理選擇o1或Gemini 2.5 Pro。

用戶留存與"灰姑娘玻璃鞋"現(xiàn)象

報(bào)告對(duì)多個(gè)主流模型的用戶留存率進(jìn)行了深入分析,發(fā)現(xiàn)了一個(gè)被稱為"灰姑娘玻璃鞋效應(yīng)"的關(guān)鍵現(xiàn)象。

數(shù)據(jù)顯示,盡管大多數(shù)模型面臨高流失率和快速用戶衰減,但在這種波動(dòng)之下隱藏著更深遠(yuǎn)的信號(hào):一小部分早期用戶群體表現(xiàn)出持久的保留率。

這些被稱為"基礎(chǔ)隊(duì)列"的用戶群體,才是模型真正的護(hù)城河。

這個(gè)效應(yīng)描述了一個(gè)獨(dú)特現(xiàn)象:在快速發(fā)展的AI生態(tài)系統(tǒng)中,存在著大量高價(jià)值工作負(fù)載,它們?cè)诘却?完美匹配"的模型出現(xiàn)。

每一個(gè)新的前沿模型實(shí)際上都是在這些未解決問題上"試穿"。當(dāng)新發(fā)布的模型恰好符合此前未被滿足的技術(shù)和經(jīng)濟(jì)限制時(shí),它就找到了精確的契合度。這就是那只"玻璃鞋"

對(duì)于那些工作負(fù)載最終合適的開發(fā)者或組織來說,這種對(duì)齊會(huì)產(chǎn)生強(qiáng)烈的鎖定效應(yīng)。

他們的系統(tǒng)、數(shù)據(jù)管道和用戶體驗(yàn)都錨定在最先解決問題的模型上。隨著成本下降和可靠性提升,重新遷移的動(dòng)力急劇減弱。

從實(shí)證數(shù)據(jù)看,不同模型的留存表現(xiàn)差異巨大。Gemini 2.5 Pro和Claude 4 Sonnet的早期隊(duì)列在第5個(gè)月約有40%的用戶保留率,遠(yuǎn)高于后續(xù)隊(duì)列。


OpenAI GPT-4o Mini則展現(xiàn)了這一現(xiàn)象的極端案例。一個(gè)基礎(chǔ)隊(duì)列(2024年7月)在啟動(dòng)時(shí)建立了主導(dǎo)且粘性的工作負(fù)載匹配,所有后續(xù)群體的留存率都遠(yuǎn)低于這個(gè)早期隊(duì)列。

DeepSeek模型引入了更復(fù)雜的模式,展現(xiàn)出極其罕見的"回旋鏢效應(yīng)":多個(gè)DeepSeek隊(duì)列在初期流失后顯示出明顯的保留率上升。


一些流失用戶在嘗試其他替代方案后,重新確認(rèn)DeepSeek因其專業(yè)技術(shù)性能、成本效益或其他獨(dú)特特性的優(yōu)越組合,更適合其特定工作負(fù)載。

AI工作負(fù)載的四象限格局

報(bào)告通過對(duì)數(shù)-對(duì)數(shù)尺度的成本與使用量分析,揭示了AI工作負(fù)載的獨(dú)特細(xì)分格局。以每100萬Token成本0.73美元為分界線,市場(chǎng)被自然劃分為四個(gè)象限。


每個(gè)象限展現(xiàn)出截然不同的特征:

高級(jí)工作負(fù)載(高成本+高使用)

這個(gè)象限包含technology和science等有價(jià)值且使用頻繁的專業(yè)工作負(fù)載。用戶愿意為性能或?qū)I(yè)能力支付溢價(jià)。特別值得注意的是,technology類查詢的價(jià)格遠(yuǎn)高于其他類別,可能涉及復(fù)雜系統(tǒng)設(shè)計(jì)或架構(gòu)問題,需要更強(qiáng)大且更昂貴的推理模型,但其使用量依然很高,顯示出其本質(zhì)性質(zhì)。

大眾市場(chǎng)成交量驅(qū)動(dòng)因素(低成本+高使用)

這一領(lǐng)域主要由兩個(gè)大型應(yīng)用場(chǎng)景主導(dǎo):programming和roleplay。Programming以"殺手級(jí)專業(yè)"類別脫穎而出,展示了最高的使用量,同時(shí)擁有高度優(yōu)化的中位數(shù)成本。Roleplay的使用量極為龐大,幾乎可與programming相當(dāng)。

這是一個(gè)令人震驚的洞察:面向消費(fèi)者的角色扮演應(yīng)用能帶來與頂級(jí)專業(yè)應(yīng)用相當(dāng)?shù)幕?dòng)量。

這兩個(gè)類別的規(guī)模之大證明了,職業(yè)生產(chǎn)力和對(duì)話娛樂都是人工智能的主要且巨大的驅(qū)動(dòng)力。開源模型在這一象限的成本敏感性中找到了顯著優(yōu)勢(shì)。

專業(yè)專家(高成本+低使用)

該象限包含finance、academia、health和marketing等高風(fēng)險(xiǎn)、細(xì)分的專業(yè)領(lǐng)域。較低的總量是合乎邏輯的,因?yàn)槿藗冏稍傾I關(guān)于"健康"或"財(cái)務(wù)"的頻率遠(yuǎn)低于"編程"。用戶愿意為這些任務(wù)支付高額費(fèi)用,可能是因?yàn)閷?duì)準(zhǔn)確性、可靠性和領(lǐng)域特定知識(shí)的需求極高。

小眾實(shí)用工具(低成本+低使用)

該象限包含translation、legal和trivia等功能性強(qiáng)、成本優(yōu)化的公用事業(yè)。這些任務(wù)可能被高度優(yōu)化、"解決"或商品化,在有足夠好的廉價(jià)替代方案時(shí),用戶對(duì)價(jià)格更加敏感。

開源vs閉源:截然不同的市場(chǎng)定位

報(bào)告的成本-使用分析顯示出強(qiáng)烈的市場(chǎng)細(xì)分。整體趨勢(shì)線幾乎持平,表明需求相對(duì)非價(jià)格彈性——價(jià)格下降10%對(duì)應(yīng)的使用量增加約0.5%至0.7%。但這個(gè)宏觀數(shù)據(jù)掩蓋了不同的微觀行為:

閉源模型占據(jù)了高成本、高使用量的區(qū)域。Claude 3.7 Sonnet和Claude 4 Sonnet約每100萬Token 2美元,但使用率依然很高,表明用戶愿意為更優(yōu)越的推理和大規(guī)模可靠度付費(fèi)。

GPT-4和GPT-5 Pro每100萬Token約35美元,雖然使用量相對(duì)較低,但服務(wù)于細(xì)分、高風(fēng)險(xiǎn)工作,輸出質(zhì)量遠(yuǎn)比邊際Token成本更重要。

開源模型則占據(jù)了低成本、高流量的區(qū)域。DeepSeek V3-0324每100萬Token約0.39美元,使用量達(dá)到10^6.55級(jí)別。Gemini 2.0 Flash每100萬Token僅0.14美元,使用量為10^6.68,低價(jià)和強(qiáng)勁的分布使其成為默認(rèn)的高產(chǎn)量主力。

數(shù)據(jù)中還出現(xiàn)了類似杰文悖論的跡象:讓某些模型變得非常便宜(且快速)后,人們用它們做更多任務(wù),最終消耗了更多的Token。這解釋了為什么Gemini Flash和DeepSeek V3這類低價(jià)模型反而有極高的使用量。

大量使用昂貴模型(Claude、GPT-4)表明,如果模型明顯更好或擁有信任優(yōu)勢(shì),用戶將承擔(dān)更高的成本。這些模型通常集成在成本相對(duì)于其產(chǎn)出價(jià)值微乎其微的工作流程中,例如,節(jié)省一小時(shí)開發(fā)時(shí)間的代碼遠(yuǎn)比幾美元的API調(diào)用更值錢。

、地域分布與全球化特征

超過50%的使用來自美國以外的地區(qū)。

OpenRouter平臺(tái)的數(shù)據(jù)顯示,超過50%的使用量來自美國以外的地區(qū)。這表明AI技術(shù)的應(yīng)用已經(jīng)呈現(xiàn)出明顯的全球化特征,不再局限于硅谷或北美市場(chǎng)。


中國、歐洲、東南亞等地區(qū)的用戶占比持續(xù)上升,不同地區(qū)的用戶在模型選擇和使用場(chǎng)景上也表現(xiàn)出一定的差異性。


六、深度討論:數(shù)據(jù)背后的關(guān)鍵洞察

這項(xiàng)基于100萬億Token的實(shí)證研究,不僅呈現(xiàn)了大模型使用的表面數(shù)據(jù),更揭示了幾個(gè)細(xì)致入微的主題,深刻改變了我們對(duì)AI部署的傳統(tǒng)認(rèn)知。

多模型生態(tài)系統(tǒng):沒有"一統(tǒng)天下"

數(shù)據(jù)顯示,沒有單一模型能夠主導(dǎo)所有使用場(chǎng)景,我們正在目睹一個(gè)豐富的多模型生態(tài)系統(tǒng)的形成,閉源和開源模型各自占據(jù)重要份額。

例如OpenAI和Anthropic的模型在編程和知識(shí)任務(wù)中領(lǐng)先,但像DeepSeek和Qwen這樣的開源模型共同服務(wù)了超過30%的Token使用量。這表明LLM的未來使用將是模型無關(guān)且異質(zhì)化的。

對(duì)開發(fā)者而言,這意味著保持靈活性、整合多個(gè)模型、為每個(gè)項(xiàng)目選擇最佳方案,而非把所有賭注押在單一模型上。對(duì)模型提供者來說,這強(qiáng)調(diào)了競(jìng)爭(zhēng)可能來自意想不到的地方,社區(qū)模型可能侵蝕市場(chǎng)份額,除非持續(xù)改進(jìn)和差異化。

使用多樣性超越生產(chǎn)力:陪伴與創(chuàng)意的崛起

一個(gè)令人驚訝的發(fā)現(xiàn)是角色扮演和娛樂導(dǎo)向應(yīng)用的大量使用。超過50%的開源模型使用是用于角色扮演和講故事,而非編程或辦公。即使在專有平臺(tái)上,早期ChatGPT的使用也有相當(dāng)一部分是隨意且富有創(chuàng)意的探索。

這反駁了"LLM主要用于編寫代碼、電子郵件或摘要"的假設(shè)。

實(shí)際上,許多用戶通過這些模型尋求陪伴、情感互動(dòng)或創(chuàng)意探索。

這具有重要意義:

  • 凸顯了面向消費(fèi)者應(yīng)用在融合敘事設(shè)計(jì)、情感互動(dòng)方面的巨大機(jī)遇

  • 為個(gè)性化開辟新前沿——能夠演化個(gè)性、記住偏好、維持長(zhǎng)期互動(dòng)的AI代理

  • 重新定義模型評(píng)估指標(biāo):成功可能更多依賴連貫性和持續(xù)對(duì)話能力,而非單純的事實(shí)準(zhǔn)確性

  • 為AI與娛樂IP的跨界開辟道路,在互動(dòng)敘事、游戲和創(chuàng)作者驅(qū)動(dòng)的虛擬角色領(lǐng)域具有潛力


Agent時(shí)代來臨:從對(duì)話到執(zhí)行

LLM的使用正從單回合交互轉(zhuǎn)向智能推理模式。模型不再只是產(chǎn)出一次性響應(yīng),而是協(xié)調(diào)工具調(diào)用、訪問外部數(shù)據(jù)、迭代優(yōu)化輸出以實(shí)現(xiàn)目標(biāo)。

早期證據(jù)顯示多步查詢和鏈?zhǔn)焦ぞ呤褂谜诳焖僭鲩L(zhǎng)。隨著這一范式擴(kuò)展,評(píng)估將從語言質(zhì)量轉(zhuǎn)向任務(wù)完成度和執(zhí)行效率。

下一個(gè)競(jìng)爭(zhēng)前沿是模型如何有效執(zhí)行持續(xù)推理。這一轉(zhuǎn)變最終可能重新定義"大規(guī)模AI代理推理"在實(shí)踐中的含義。

地理格局:全球化與去中心化

LLM的使用正變得越來越全球化和去中心化,增長(zhǎng)迅速超出北美地區(qū)。亞洲在Token需求中的份額已從約13%上升至31%,反映出企業(yè)采用和創(chuàng)新的增強(qiáng)。

中國不僅通過國內(nèi)消費(fèi),還通過生產(chǎn)具有全球競(jìng)爭(zhēng)力的模型,成為重要力量。

更廣泛的結(jié)論是:LLM必須在全球范圍內(nèi)都非常有用,在不同語言、語境和市場(chǎng)中表現(xiàn)優(yōu)異。

下一階段的競(jìng)爭(zhēng)將取決于文化適應(yīng)性和多語言能力,而不僅僅是模型規(guī)模。

成本與使用動(dòng)態(tài):遠(yuǎn)非簡(jiǎn)單的價(jià)格競(jìng)爭(zhēng)

LLM市場(chǎng)還不像商品市場(chǎng)——單靠?jī)r(jià)格對(duì)使用量解釋不多。用戶在權(quán)衡質(zhì)量、可靠性和能力廣度的同時(shí)考慮成本。

閉源模型繼續(xù)捕獲高價(jià)值、與收入相關(guān)的工作負(fù)載,而開源模型主導(dǎo)低成本且高流量的任務(wù)。這創(chuàng)造了一個(gè)動(dòng)態(tài)平衡,這種平衡更多是由來自下方的恒定壓力而非穩(wěn)定性所定義。

開源模型不斷推動(dòng)效率前沿,尤其在推理和編碼領(lǐng)域(例如Kimi K2)快速迭代和創(chuàng)新可以縮小性能差距。開放模型的每一次改進(jìn)都?jí)嚎s了專有系統(tǒng)的定價(jià)能力,迫使它們通過卓越的集成、一致性和企業(yè)支持來合理化溢價(jià)。

由此產(chǎn)生的競(jìng)爭(zhēng)節(jié)奏快速、不對(duì)稱且不斷變化。隨著時(shí)間推移,隨著質(zhì)量趨同加速,價(jià)格彈性可能增加,使曾經(jīng)分化的市場(chǎng)變得更加流動(dòng)。

"灰姑娘玻璃鞋現(xiàn)象":留存率才是真正的護(hù)城河

隨著基礎(chǔ)模型能力的躍進(jìn)而非漸進(jìn),留存率已成為衡量可防御性的真正標(biāo)準(zhǔn)。每一次突破都會(huì)創(chuàng)造一個(gè)短暫的發(fā)布窗口,讓模型能夠完美"適配"高價(jià)值工作負(fù)載——這就是"灰姑娘玻璃鞋時(shí)刻"。用戶一旦找到合適的模型,就會(huì)圍繞它構(gòu)建工作流程和習(xí)慣。

在這種范式中,產(chǎn)品市場(chǎng)契合等同于工作負(fù)載模型契合:率先解決真實(shí)痛點(diǎn),推動(dòng)用戶圍繞該能力構(gòu)建工作流程,從而推動(dòng)深層且粘性的采用。因此,切換成本在技術(shù)和行為上都變得昂貴。

對(duì)于建設(shè)者和投資者來說,需要關(guān)注的信號(hào)不是增長(zhǎng),而是留存曲線——建立能夠持續(xù)經(jīng)受模型更新考驗(yàn)的基礎(chǔ)用戶群體。在日益快速變化的市場(chǎng)中,及早捕捉這些關(guān)鍵未滿足需求,決定了下一次能力飛躍后誰能堅(jiān)持下去。

七、研究?jī)r(jià)值與未來展望

LLM正成為跨領(lǐng)域推理任務(wù)的重要計(jì)算基礎(chǔ),從編程到創(chuàng)意寫作。隨著模型的不斷進(jìn)步和部署的擴(kuò)大,準(zhǔn)確了解現(xiàn)實(shí)世界的使用動(dòng)態(tài)對(duì)于做出明智決策至關(guān)重要。

人們使用LLM的方式并不總是符合預(yù)期,且因國家、地區(qū)和用例而有很大差異。通過大規(guī)模觀察使用情況,我們可以將對(duì)LLM影響的理解扎根于現(xiàn)實(shí),確保后續(xù)的發(fā)展——無論是技術(shù)改進(jìn)、產(chǎn)品特性還是法規(guī)——都與實(shí)際使用模式和需求保持一致。

從競(jìng)爭(zhēng)到協(xié)作的范式轉(zhuǎn)變

過去一年催化了該領(lǐng)域?qū)ν评砝斫夥绞降母拘赞D(zhuǎn)變。o1類模型的出現(xiàn)使得長(zhǎng)時(shí)間思考和工具使用變得規(guī)范化,評(píng)估從單次基準(zhǔn)轉(zhuǎn)向基于過程的指標(biāo)、延遲-成本權(quán)衡以及編排下的任務(wù)成功率。

數(shù)據(jù)顯示,LLM生態(tài)系統(tǒng)在結(jié)構(gòu)上是多元的。沒有單一模式或供應(yīng)商占據(jù)主導(dǎo)地位;相反,用戶根據(jù)具體場(chǎng)景,在能力、延遲、價(jià)格和信任等多個(gè)維度上選擇系統(tǒng)。這種異質(zhì)性不是暫時(shí)階段,而是市場(chǎng)的基本特征。它促進(jìn)快速迭代,減少對(duì)任何單一模型或技術(shù)棧的系統(tǒng)性依賴。

Agent推理:下一個(gè)競(jìng)爭(zhēng)前沿

推理本身也在變化。多步驟和工具關(guān)聯(lián)交互的興起,標(biāo)志著從靜態(tài)補(bǔ)全向動(dòng)態(tài)編排的轉(zhuǎn)變。用戶正在串聯(lián)模型、API和工具以實(shí)現(xiàn)復(fù)合目標(biāo),催生了可稱為"Agent推理"的現(xiàn)象。有充分理由相信,Agent推理的使用量將超過、甚至已經(jīng)超過人類單次推理。

實(shí)際上,o1并未終結(jié)競(jìng)爭(zhēng),而是擴(kuò)展了設(shè)計(jì)空間。該領(lǐng)域正朝向系統(tǒng)性思維而非單一押注,向基于數(shù)據(jù)的分析取代直覺,向?qū)嵶C使用分析取代排行榜競(jìng)爭(zhēng)的方向發(fā)展。

如果過去一年證明了Agent推理在大規(guī)模上是可行的,那么明年將聚焦于運(yùn)營卓越:測(cè)量真實(shí)任務(wù)完成度、減少分布轉(zhuǎn)移下的方差,以及使模型行為與生產(chǎn)規(guī)模工作負(fù)載的實(shí)際需求保持一致。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
追求字母哥,5換1方案出爐,湖人也沒有想到,狀元郎淪為交易籌碼

追求字母哥,5換1方案出爐,湖人也沒有想到,狀元郎淪為交易籌碼

體育大朋說
2026-03-28 21:19:11
4年5.5億歐!巴托梅烏回應(yīng)續(xù)約梅西:以他帶來的價(jià)值,薪水不算高

4年5.5億歐!巴托梅烏回應(yīng)續(xù)約梅西:以他帶來的價(jià)值,薪水不算高

云隱南山
2026-03-29 05:28:07
123贊成3票反對(duì)!聯(lián)大出手了,美拒絕賠錢,以色列“反人類”

123贊成3票反對(duì)!聯(lián)大出手了,美拒絕賠錢,以色列“反人類”

春序娛樂
2026-03-29 06:36:21
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會(huì)醬
2026-03-23 17:34:19
「深田詠美」宣布破產(chǎn),背上8000萬債務(wù),男朋友也分手了

「深田詠美」宣布破產(chǎn),背上8000萬債務(wù),男朋友也分手了

孤獨(dú)的獨(dú)角獸影視
2026-03-27 09:30:07
退回賣紅薯的中介費(fèi)后,村民們才停止鬧事,但接下來的事他們悔死了

退回賣紅薯的中介費(fèi)后,村民們才停止鬧事,但接下來的事他們悔死了

林林故事揭秘
2025-03-26 15:19:24
她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

她是兩百年難遇的美人,靠美貌“征服”無數(shù)男人,如今49歲仍未婚

林雁飛
2026-03-22 14:47:54
調(diào)查發(fā)現(xiàn):每天飯后要午睡的人,不出5個(gè)月,身體或有這3種改變

調(diào)查發(fā)現(xiàn):每天飯后要午睡的人,不出5個(gè)月,身體或有這3種改變

蜉蝣說
2026-03-24 10:00:30
廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊(duì),比輸球更可怕的麻煩出現(xiàn)了

廣東傳1好3壞消息!關(guān)辛談焦泊喬離隊(duì),比輸球更可怕的麻煩出現(xiàn)了

后仰大風(fēng)車
2026-03-28 07:10:11
谷歌翻譯耳機(jī)實(shí)時(shí)翻譯功能正式登陸 iOS 平臺(tái),支持超 70 種語言

谷歌翻譯耳機(jī)實(shí)時(shí)翻譯功能正式登陸 iOS 平臺(tái),支持超 70 種語言

龍劍秀南
2026-03-27 07:23:23
黃曉明點(diǎn)破行業(yè)真相:AI越厲害,越離不開IP

黃曉明點(diǎn)破行業(yè)真相:AI越厲害,越離不開IP

娛樂資本論
2026-03-28 20:56:00
伊朗喊著滅掉以色列,卻不讓境內(nèi)5萬猶太人回去,這藏著什么秘密

伊朗喊著滅掉以色列,卻不讓境內(nèi)5萬猶太人回去,這藏著什么秘密

史行途
2026-03-29 06:17:22
美國商品期貨交易委員會(huì)(CFTC):截至3月24日當(dāng)周,布倫特原油期貨市場(chǎng)上的投機(jī)者將凈多頭倉位減少21,579手降至407,125手

美國商品期貨交易委員會(huì)(CFTC):截至3月24日當(dāng)周,布倫特原油期貨市場(chǎng)上的投機(jī)者將凈多頭倉位減少21,579手降至407,125手

每日經(jīng)濟(jì)新聞
2026-03-28 06:19:13
美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%

美股全線大跌,道指暴跌近800點(diǎn)!科技巨頭普跌,微軟較高點(diǎn)跌34%,國際油價(jià)大漲7%

金融界
2026-03-28 08:23:16
為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

為什么有個(gè)漂亮老婆還是想要分 網(wǎng)友講出自身經(jīng)歷真是一言難盡

侃神評(píng)故事
2026-03-10 18:50:04
夜間“偶遇”哭泣女子竟引狼入室!甘肅警方快速破獲“仙人跳”搶劫案

夜間“偶遇”哭泣女子竟引狼入室!甘肅警方快速破獲“仙人跳”搶劫案

環(huán)球網(wǎng)資訊
2026-03-28 14:47:08
凌晨,暴跌800點(diǎn)!伊朗警告:盡快撤離!美股大跳水,油價(jià)飆升!

凌晨,暴跌800點(diǎn)!伊朗警告:盡快撤離!美股大跳水,油價(jià)飆升!

證券時(shí)報(bào)
2026-03-28 09:01:05
做教培的閨蜜:張雪峰身價(jià)8億,為啥還吃外賣?她的回答讓我沉默

做教培的閨蜜:張雪峰身價(jià)8億,為啥還吃外賣?她的回答讓我沉默

藍(lán)色海邊
2026-03-27 18:08:02
馬杜羅再次露面身形消瘦,不再高喊“我是總統(tǒng)”,特朗普心情大好

馬杜羅再次露面身形消瘦,不再高喊“我是總統(tǒng)”,特朗普心情大好

風(fēng)干迷茫人
2026-03-29 06:01:14
精準(zhǔn)預(yù)言金價(jià)狂飆1000美元,這位“黃金先知”又發(fā)出最嚴(yán)厲警告

精準(zhǔn)預(yù)言金價(jià)狂飆1000美元,這位“黃金先知”又發(fā)出最嚴(yán)厲警告

戶外釣魚哥阿旱
2026-03-29 05:46:22
2026-03-29 07:08:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
465文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

頭條要聞

美媒:和歐盟"外長(zhǎng)"發(fā)生激烈交鋒 魯比奧"顯然很惱火"

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

房產(chǎn)
健康
親子
旅游
藝術(shù)

房產(chǎn)要聞

首日430組來訪,單日120組認(rèn)籌!??谑讉€(gè)真四代,徹底爆了!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

親子要聞

小孩子能口無遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場(chǎng)找個(gè)地縫鉆進(jìn)去

旅游要聞

泰安市岱岳區(qū):賞梨花 看村晚 萬畝梨園迎客來

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國拍賣會(huì),滿紙崢嶸往事......

無障礙瀏覽 進(jìn)入關(guān)懷版