網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Grok 4.1強(qiáng)勢(shì)上線！超越所有對(duì)手，拿下LMArena排行榜第一，事實(shí)性幻覺(jué)大幅下降

2025-11-18 19:43:56　來(lái)源: CSDN

北京舉報(bào)

分享至

整理 | 蘇宓

出品 | CSDN（ID：CSDNnews）

時(shí)隔四個(gè)月，埃隆·馬斯克創(chuàng)立的 xAI 正式帶來(lái)了 Grok 4 的升級(jí)版——Grok 4.1，此次發(fā)布共有兩款型號(hào)的模型，分別為 Grok 4.1 和 Grok 4.1 Thinking。

目前，兩者均向所有用戶(hù)免費(fèi)開(kāi)放，可以通過(guò) grok.com、X 以及 iOS 和 Android 應(yīng)用使用。付費(fèi)用戶(hù)則能獲得更高的使用額度。

全新升級(jí)的 Grok 4.1

根據(jù) xAI 的說(shuō)法，Grok 4.1 為 Grok 在真實(shí)場(chǎng)景中的可用性帶來(lái)了顯著提升。官方稱(chēng)，這一版本在創(chuàng)造力、情緒理解以及協(xié)作互動(dòng)方面表現(xiàn)尤為突出。

與此前的模型相比，Grok 4.1 更善于捕捉細(xì)微意圖，對(duì)話(huà)更自然、有吸引力，也展現(xiàn)出更加一致的人格特征。

為了實(shí)現(xiàn)這些能力增強(qiáng)，xAI 繼續(xù)沿用了支撐 Grok 4 的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施，并進(jìn)一步將其用于優(yōu)化模型的風(fēng)格、人格和對(duì)齊性。由于這些目標(biāo)難以通過(guò)可驗(yàn)證的方式直接衡量，xAI 開(kāi)發(fā)了新的訓(xùn)練方法，讓前沿的智能體推理模型作為獎(jiǎng)勵(lì)模型，能夠自動(dòng)化且大規(guī)模地評(píng)估與改進(jìn)模型回復(fù)。

在上線方式上，xAI 先是于 2025 年 11 月 1 日至 14 日進(jìn)行了為期兩周的靜默灰度發(fā)布，將早期版本的 Grok 4.1 逐步推送到 grok.com、X 以及移動(dòng) App 的真實(shí)流量中，并在此期間持續(xù)進(jìn)行盲測(cè)式的成對(duì)比較評(píng)估。

評(píng)測(cè)結(jié)果顯示，Grok 4.1 相比此前的生產(chǎn)版本優(yōu)勢(shì)明顯：

在盲測(cè)對(duì)比中，Grok 4.1 獲得了 64.78% 的偏好率。

登頂 LMArena、位居各大榜單前列的 Grok 4.1

接下來(lái)，從具體的能力上來(lái)看。

通用能力

在 LMArena 的 Text Arena 排行榜上，Grok 4.1 Thinking（代號(hào)：quasarflux）以 1483 Elo 的成績(jī)位列總榜第一，比排名最高的非 xAI 模型 Gemini 2.5 Pro 高出 31 分，領(lǐng)先優(yōu)勢(shì)十分明顯。

LMArena 的 Text Arena 是一個(gè)開(kāi)源工具，允許用戶(hù)通過(guò)并排、盲測(cè)和隨機(jī)測(cè)試來(lái)比較不同的大型語(yǔ)言模型 (LLM)。

而 Grok 4.1 的非推理模式（代號(hào)：tensor）不使用 thinking tokens，可直接給出即時(shí)回復(fù)，在排行榜上以 1465 Elo 排名第二。值得注意的是，這個(gè)“非推理模式”的 Grok 4.1 的成績(jī)，甚至超過(guò)所有其他模型的“完整推理版本”。

相比之下，上一代 Grok 4 的總排名僅為第 33 位，與 4.1 的表現(xiàn)差距明顯。

情商

為了評(píng)估模型在“人格風(fēng)格”和“人際互動(dòng)能力”方面的進(jìn)步，xAI 使用了 EQ-Bench v3 對(duì) Grok 4.1 進(jìn)行測(cè)試。

EQ-Bench 是一個(gè)由大模型擔(dān)任裁判的測(cè)試，主要衡量模型的主動(dòng)情緒智力，包括理解力、洞察力、共情能力以及人際溝通技巧。測(cè)試集包含 45 個(gè)高難度角色扮演情景，大多數(shù)由三輪預(yù)設(shè)對(duì)話(huà)構(gòu)成。

評(píng)測(cè)方法一方面通過(guò)固定評(píng)分標(biāo)準(zhǔn)檢查模型回答質(zhì)量，另一方面也會(huì)進(jìn)行成對(duì)對(duì)比，最終得出每個(gè)模型的歸一化 Elo 分?jǐn)?shù)。

xAI 給出的分?jǐn)?shù)來(lái)自官方基準(zhǔn)測(cè)試倉(cāng)庫(kù)的運(yùn)行結(jié)果，采用默認(rèn)的采樣參數(shù)、指定裁判模型 Claude Sonnet 3.7，且未添加系統(tǒng)提示詞，以符合測(cè)試規(guī)范。

結(jié)果顯示，Grok 4.1 Thinking 和Grok 4.1 在 EQ-Bench 測(cè)試中名列第一、二名，這意味著該模型能夠以更自然、更富同理心、更人性化的方式做出回應(yīng)。對(duì)于用戶(hù)而言，這意味著對(duì)話(huà)更容易理解，也更貼近生活。

創(chuàng)意寫(xiě)作

xAI 在 Creative Writing v3 基準(zhǔn)上測(cè)試了 Grok 4.1 系列模型的表現(xiàn)。該基準(zhǔn)要求模型針對(duì) 32 個(gè)不同的寫(xiě)作提示生成回答，并進(jìn)行 3 輪迭代。

與 EQ-Bench 類(lèi)似，最終得分由兩部分組成：依據(jù)評(píng)分標(biāo)準(zhǔn)（rubrics）給出的質(zhì)量分，以及通過(guò)模型對(duì)戰(zhàn)方式計(jì)算出的歸一化 Elo 分?jǐn)?shù)。

Grok 4.1 Thinking 以 1721.9 的得分排名第二。

減少幻覺(jué)

快速（非推理）模型雖然能利用搜索工具迅速給出答案，但由于推理深度有限、工具調(diào)用次數(shù)受限，容易出現(xiàn)事實(shí)性錯(cuò)誤。

在 Grok 4.1 的后訓(xùn)練階段，xAI 透露他們重點(diǎn)優(yōu)化了信息查詢(xún)類(lèi)提示的事實(shí)性幻覺(jué)問(wèn)題。實(shí)際觀測(cè)顯示，對(duì)于生產(chǎn)環(huán)境中抽樣的此類(lèi)提示，幻覺(jué)率有了顯著下降。

評(píng)估方法上，該團(tuán)隊(duì)在來(lái)自生產(chǎn)流量的分層抽樣真實(shí)信息查詢(xún)中測(cè)試了幻覺(jué)率，同時(shí)還使用了 FActScore 公共基準(zhǔn)進(jìn)行驗(yàn)證。FActScore 包含 500 個(gè)關(guān)于個(gè)人傳記的問(wèn)題，用于檢驗(yàn)?zāi)Ｐ偷氖聦?shí)準(zhǔn)確性。

xAI 表示，與舊版本相比，Grok 4.1 將這個(gè)問(wèn)題減少了近三倍。這使得它在人們?cè)儐?wèn)事實(shí)、新聞或解釋時(shí)更加可靠。

大模型競(jìng)爭(zhēng)加劇

總體來(lái)看，Grok 4.1 是一次穩(wěn)步升級(jí)，幻覺(jué)減少、榮登全球 AI 排行榜榜首，競(jìng)爭(zhēng)力有所提升。

不過(guò)，從年度最佳模型的角度來(lái)看，不少外媒認(rèn)為，Grok 4.1 或許還不是今年的巔峰。Google 正準(zhǔn)備推出下一代旗艦 Gemini 3.0，外界普遍預(yù)計(jì)它將成為今年最強(qiáng)大的模型之一?？梢灶A(yù)見(jiàn)的是，接下來(lái)一段時(shí)間，各家旗艦?zāi)Ｐ突驅(qū)⑸涎菽甓葞p峰對(duì)決。

參考： https://x.ai/news/grok-4-1

【活動(dòng)分享】2025 年是 C++ 正式發(fā)布以來(lái)的 40 周年，也是全球 C++ 及系統(tǒng)軟件技術(shù)大會(huì)舉辦 20 周年。這一次，C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統(tǒng)軟件技術(shù)大會(huì)」現(xiàn)場(chǎng)，與全球頂尖的系統(tǒng)軟件工程師、編譯器專(zhuān)家、AI 基礎(chǔ)設(shè)施研究者同臺(tái)對(duì)話(huà)。

本次大會(huì)共設(shè)立現(xiàn)代 C++ 最佳實(shí)踐、架構(gòu)與設(shè)計(jì)演化、軟件質(zhì)量建設(shè)、安全與可靠、研發(fā)效能、大模型驅(qū)動(dòng)的軟件開(kāi)發(fā)、AI 算力與優(yōu)化、異構(gòu)計(jì)算、高性能與低時(shí)延、并發(fā)與并行、系統(tǒng)級(jí)軟件、嵌入式系統(tǒng)十二大主題，共同構(gòu)建了一個(gè)全面而立體的知識(shí)體系，確保每一位參會(huì)者——無(wú)論是語(yǔ)言愛(ài)好者、系統(tǒng)架構(gòu)師、性能優(yōu)化工程師，還是技術(shù)管理者——都能在這里找到自己的坐標(biāo)，收獲深刻的洞見(jiàn)與啟發(fā)。詳情參考官網(wǎng)：https://cpp-summit.org/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.