網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2025新發(fā)布LLM盤點(diǎn)

2025-11-29 08:14:36　來(lái)源: Ai時(shí)代前沿

北京舉報(bào)

分享至

現(xiàn)在你每次上網(wǎng)都可能看到新的大型語(yǔ)言模型（LLM）更新的頭條新聞，過(guò)去幾周是LLM們發(fā)布和升級(jí)的繁忙時(shí)期。

現(xiàn)在似乎是盤點(diǎn)前沿模型開(kāi)發(fā)人員最近推出的更新的好時(shí)機(jī)。對(duì)于一些最大的版本，匯集了新的和不同的內(nèi)容，以及這些模型的最佳用例和受眾。

讓我們來(lái)看看五個(gè)熱點(diǎn)LLM最新發(fā)布

ChatGPT 5.1

OpenAI為GPT-5.1系列中的兩個(gè)模型推出了更新，日常任務(wù)模型Instant和高級(jí)推理模型Thinking。

當(dāng)GPT-5首次發(fā)布時(shí)，那些熟悉之前gpt-4o友好、非正式語(yǔ)氣的人立即注意到這款流行聊天機(jī)器人的語(yǔ)氣有所不同。GPT-5可以被描述為一個(gè)簡(jiǎn)短的機(jī)器人：沒(méi)有廢話，有時(shí)甚至有點(diǎn)粗魯。OpenAI表示，GPT-5.1 Instant“更溫暖，更具對(duì)話性……并且經(jīng)常以其游戲性給人們帶來(lái)驚喜，同時(shí)保持清晰和有用?！?/p>

GPT-5.1Thinking更精確地調(diào)整其“思考時(shí)間”。該公司表示，它在簡(jiǎn)單任務(wù)上更快，在復(fù)雜任務(wù)上花費(fèi)更多時(shí)間，并產(chǎn)生更清晰、更少術(shù)語(yǔ)的答案。OpenAI還聲稱，這種模型更善于遵循指令。此外，還有更多定制功能，改進(jìn)了聊天語(yǔ)氣和風(fēng)格的控制。

適用場(chǎng)景：創(chuàng)意寫作、頭腦風(fēng)暴和技術(shù)解釋。OpenAI表示，它也吸引了那些想要一個(gè)可以處理嚴(yán)肅任務(wù)但以更自然的方式進(jìn)行溝通的模型的企業(yè)用戶。

可用性：11月12日開(kāi)始向Pro、Plus、Go和Business用戶推出，現(xiàn)在可用于所有級(jí)別。在過(guò)渡期間，傳統(tǒng)GPT-5將保留約三個(gè)月。

Gemini 3

谷歌正在將其新的Gemini 3定位為迄今為止“最智能”的模型，結(jié)合了高級(jí)推理、多模態(tài)理解和智能體功能。改進(jìn)的多模態(tài)性能可以在單個(gè)工作流中跨文本、圖像、視頻和代碼工作。Gemini 3還具有新的“深度思考”模式：這是一種增強(qiáng)模式，在推理、智能化工作流程和具有挑戰(zhàn)性的基準(zhǔn)測(cè)試方面具有更高的性能。

谷歌生態(tài)系統(tǒng)中的可用性比以往任何時(shí)候都更廣泛。在Gemini應(yīng)用程序、搜索中的AI模式、AI Studio、Vertex AI和新的智能體平臺(tái)“反重力（Antigravity）”中。谷歌還聲稱已經(jīng)進(jìn)行了嚴(yán)格的安全和可靠性升級(jí)，并指出Gemini 3比其之前的任何型號(hào)都進(jìn)行了更全面的安全評(píng)估。

適用場(chǎng)景：構(gòu)建復(fù)雜應(yīng)用程序或代理工作流的開(kāi)發(fā)人員，以及想要“多模式、推理繁重”工具而不僅僅是聊天助手的企業(yè)/高級(jí)用戶。

可用性：Gemini 3于11月18日推出，可在Gemini應(yīng)用程序和Google AI Pro/Ultra層中使用。該模型還包含在搜索選定訂閱者的AI模式中。對(duì)于使用API的開(kāi)發(fā)人員，它可以通過(guò)Google AI Studio、Vertex AI和新的Google Antigravity代理平臺(tái)獲得。

Claude Opus 4.5

與谷歌一樣，Anthropic也將其最新旗艦?zāi)Ｐ兔枋鰹槠駷橹棺钪悄艿哪Ｐ?，聲稱在編碼和生產(chǎn)力任務(wù)方面有重大性能改進(jìn)。例如，該公司表示，Opus 4.5“比我們測(cè)試過(guò)的任何模型都更有效地處理長(zhǎng)期編碼任務(wù)……在延遲測(cè)試中實(shí)現(xiàn)了更高的通過(guò)率，同時(shí)使用的令牌減少了65%?！盇nthropic表示，該模型的專用工具使用和內(nèi)存/上下文管理架構(gòu)使其能夠處理更長(zhǎng)的序列、多個(gè)文件和多個(gè)代理，同時(shí)保持一致性。

對(duì)于生產(chǎn)力任務(wù)，Opus 4.5擴(kuò)展了辦公工作流的功能，如電子表格和幻燈片、大上下文故事講述和智能體工具使用。Anthropic表示，Opus 4.5推動(dòng)了“模型作為合作者”的前沿，而不僅僅是“模型作為助手”，特別是在長(zhǎng)期和工具繁重的任務(wù)中。Anthropic聲稱它也更具成本效益，將在多個(gè)云上運(yùn)行，成本是其前身的三分之一。該公司提到，它也節(jié)省了時(shí)間，稱以前需要兩個(gè)小時(shí)的任務(wù)現(xiàn)在可以在大約30分鐘內(nèi)完成。

適用場(chǎng)景：Opus 4.5針對(duì)進(jìn)行復(fù)雜、多步驟工作的企業(yè)和工程團(tuán)隊(duì)。Anthropic表示，它非常適合在許多任務(wù)或代理上展開(kāi)的大型軟件項(xiàng)目，以及構(gòu)建依賴于工具集成的代理工作流的開(kāi)發(fā)人員，從代碼庫(kù)到數(shù)據(jù)管道。對(duì)于業(yè)務(wù)用戶，該模型還可以處理日常生產(chǎn)力任務(wù)，包括電子表格、幻燈片、長(zhǎng)格式文檔和其他“計(jì)算機(jī)使用”工作流。

可用性：Claude Opus 4.5于11月24日發(fā)布，可在AWS Bedrock、Google Cloud的Vertex AI和Microsoft的Foundry等主要云上使用。

Claude Sonnet 4.5

Anthropic表示Claude Sonnet 4.5是“世界上最好的編碼模型”。該公司將其定位為廣泛采用的Sonnet 3.5代的有意義的一步，稱新版本在推理、編碼和STEM重點(diǎn)任務(wù)方面提供了更強(qiáng)的性能，同時(shí)保持了使Sonnet系列受到日常用戶歡迎的速度和成本。在內(nèi)部基準(zhǔn)測(cè)試中，Anthropic報(bào)告了長(zhǎng)篇寫作、結(jié)構(gòu)化分析和逐步推理的改進(jìn)，特別強(qiáng)調(diào)技術(shù)領(lǐng)域的準(zhǔn)確性。

Sonnet 4.5還繼承了Opus 4.5中引入的許多工具使用和生產(chǎn)力升級(jí)，包括更好地處理電子表格、幻燈片、數(shù)據(jù)量大的文檔和更長(zhǎng)的上下文窗口。Anthropic指出，該模型在多步驟指令下更可靠，在需要特定格式或約束的提示下更一致?？傮w而言，該公司將Sonnet 4.5視為能力和效率的平衡。

適用場(chǎng)景：Sonnet 4.5專為需要強(qiáng)大推理和編碼支持的開(kāi)發(fā)人員和業(yè)務(wù)用戶而設(shè)計(jì)，而無(wú)需一直升級(jí)到旗艦級(jí)模型。它非常適合起草和編輯長(zhǎng)篇內(nèi)容、分析數(shù)據(jù)、生成結(jié)構(gòu)化輸出以及處理電子表格或演示大綱等生產(chǎn)力任務(wù)。Anthropic表示，它也非常適合構(gòu)建輕量級(jí)智能體工作流的團(tuán)隊(duì)，這些工作流需要以較低的成本實(shí)現(xiàn)可靠性和速度。

可用性：Claude Sonnet 4.5于9月29日發(fā)布，可通過(guò)Anthropic的平臺(tái)、其API和主要云合作伙伴（包括AWS Bedrock、Google cloud的Vertex AI和Microsoft Foundry）提供。

Olmo 3

艾倫人工智能研究所（Allen Institute for AI，Ai2）將Olmo 3系列模型引入了完全開(kāi)放的模式，不僅發(fā)布了模型權(quán)重，還發(fā)布了檢查點(diǎn)、訓(xùn)練數(shù)據(jù)、代碼和依賴關(guān)系，因此研究人員和開(kāi)發(fā)人員可以完全適應(yīng)并使用它進(jìn)行構(gòu)建。與這里介紹的其他模型不同，Olmo 3是完全開(kāi)源的，為研究人員提供了一個(gè)更透明的封閉邊界系統(tǒng)的替代方案，以實(shí)現(xiàn)整個(gè)模型流的開(kāi)放性和可重復(fù)性。

Olmo 3系列包括基礎(chǔ)模型（7B和32B參數(shù)）和針對(duì)高級(jí)推理進(jìn)行優(yōu)化的“Think”變體。根據(jù)Ai2的說(shuō)法，這些模型在完全開(kāi)放的基礎(chǔ)模型中表現(xiàn)最佳，擅長(zhǎng)編程、閱讀理解、數(shù)學(xué)問(wèn)題解決和高達(dá)65KToken的長(zhǎng)上下文任務(wù)。

此外，Olmo 3引入了多種訓(xùn)練后路徑，包括用于聊天和工具使用的Instruct、用于強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)的RL Zero和用于推理工作流程的Think，所有這些都是在許可的開(kāi)源許可證下記錄和發(fā)布的。

適用場(chǎng)景：Olmo 3非常適合優(yōu)先考慮開(kāi)放性、可審計(jì)性和靈活性的開(kāi)發(fā)人員、研究人員和組織。這些模型可用于構(gòu)建需要檢查模型行為、從中間檢查點(diǎn)進(jìn)行微調(diào)或集成工具使用和長(zhǎng)上下文推理的自定義工作流。它也適用于希望在編碼、分析和長(zhǎng)篇內(nèi)容方面表現(xiàn)出色的團(tuán)隊(duì)，特別是當(dāng)他們希望完全透明地了解模型的訓(xùn)練方式時(shí)。

可用性：Olmo 3于11月20日發(fā)布，整個(gè)模型流程可通過(guò)Ai2 Playground、OpenRouter和Hugging Face下載和實(shí)驗(yàn)。

隨著時(shí)間的推移，模型更新速度很快。無(wú)論您是在嘗試開(kāi)源工具還是將前沿模型投入生產(chǎn)，最新一輪的發(fā)布都在編碼、推理和多模態(tài)工作方面提供了新的優(yōu)勢(shì)。這是一個(gè)擁擠的領(lǐng)域，但在能力和選擇方面不斷擴(kuò)大。隨著整個(gè)行業(yè)的發(fā)展，2026年將成為L(zhǎng)LM構(gòu)建的又一個(gè)繁忙的一年。

與 Ai 時(shí)代前沿合作，將大門向更多普通用戶敞開(kāi)！無(wú)論你是對(duì)新技術(shù)充滿好奇心的愛(ài)好者，還是希望提升自己技能的職場(chǎng)人士，這里都有適合你的課程和資源。歡迎掃碼加入我們！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.