国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克搶先谷歌一步放大招,Grok 4.1登頂LMArena,創(chuàng)意寫作直逼GPT-5.1

0
分享至


作者 | 木子、高允毅

當(dāng)谷歌 Gemini 3 將上線的消息傳得沸沸揚(yáng)揚(yáng)時,馬斯克更快一步默默放了個大招。

今天凌晨,xAI的最新大模型Grok 4.1直接上線了,響應(yīng)速率明顯提升、幻覺率大幅下降,回答既精準(zhǔn)又“有人味兒”。

這次一共發(fā)布了兩個“形態(tài)”Grok 4.1Grok 4.1 Thinking。Thinking 版是前者的增強(qiáng)推理變體,二者基于同一底層模型,僅推理配置不同。

值得一提的是,Grok 4.1 對所有人免費(fèi)開放,除了能在 Grok 官網(wǎng)、X 上使用,還推出了移動 APP 版,iOS 和安卓系統(tǒng)都照顧到了。


如果想要更有深度、更專業(yè)的回答,可以一鍵“讓 Think 更努力思考”。

LMArena的最新結(jié)果看,Grok 4.1 Thinking 以1483 Elo斷層領(lǐng)跑,比 Gemini 2.5 Pro 高出 31 分

即使在不啟用思考鏈的情況下,Grok 4.1 仍保持在榜單第二,顯示出底層能力的穩(wěn)定性。


有不少網(wǎng)友發(fā)出了“真香”感嘆,Be like:


當(dāng)然,也有一些質(zhì)疑聲,比如有人指出在生成代碼這塊兒,Grok 還不太有競爭力。


“雙形態(tài)”的 Grok4.1 霸榜 LMArena

首先,關(guān)于Grok4.1 和 Grok4.1 Thinking 是什么,我們不妨來看看Grok4.1 自己的解釋

Grok 4.1 是 xAI 于 2025 年 11 月 17 日發(fā)布的最新前沿大語言模型(Grok 4 的升級版),在對話智能、情感理解、創(chuàng)意寫作、事實(shí)準(zhǔn)確性和響應(yīng)速度上大幅提升。 Grok 4.1 Thinking(有時簡稱 Grok 4.1 Thinking,代號 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),會額外使用“思考令牌”進(jìn)行鏈?zhǔn)酵评恚╟hain-of-thought),適合復(fù)雜數(shù)學(xué)、編程或多步問題。 Grok 4.1 Thinking 是 Grok4.1 的增強(qiáng)推理變體;二者基于同一底層模型,僅推理配置不同。


在全球最大、最具影響力的大模型盲測平臺LMArena上,Grok4.1 展現(xiàn)出突破性的實(shí)力。

作為行業(yè)普遍認(rèn)可的“非官方標(biāo)準(zhǔn)榜”,LMArena 通過匿名雙盲對戰(zhàn)和真實(shí)用戶投票來評估模型質(zhì)量,是 OpenAI、Google、Anthropic、Meta 等頭部公司測試新模型的常規(guī)陣地,也常被用于提前投放未公開版本。

因此,在這里的勝出,幾乎意味著真實(shí)用戶偏好和模型綜合能力的雙重認(rèn)可,是觀察模型真實(shí)實(shí)力的最可信風(fēng)向標(biāo)

就在這樣一個競爭最激烈的公開擂臺上,xAI 的 Grok 4.1 系列拿下了極具含金量的一次“雙冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠軍,而非推理版 Grok 4.1 也以 1465 Elo 獲得亞軍。

特別值得注意的是,這個“即時響應(yīng)”的非推理版本,成績竟然反超所有其他廠商的推理模型,首次讓“快模型”也站上了頂級性能的第一梯隊(duì),還把前代 Grok 4 遠(yuǎn)遠(yuǎn)甩至第 33 名。

亮眼成績的背后的關(guān)鍵,在于訓(xùn)練方式的重構(gòu)。

xAI 為 Grok 4.1 引入了大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng),并使用前沿推理模型作為獎勵模型,讓其能夠在訓(xùn)練過程中自主評估、快速迭代。這直接帶來了更穩(wěn)定的風(fēng)格輸出、更可靠的事實(shí)判斷和更低的幻覺率。

在 Grok 4.1 的后訓(xùn)練階段,xAI 將優(yōu)化重點(diǎn)集中在信息檢索類提示中的幻覺上。

這些底層方法上的改變,很快在實(shí)際測試中體現(xiàn)為顯著的事實(shí)性改進(jìn)。最新數(shù)據(jù)顯示,Grok 4.1 的幻覺率已從 12.09% 下降至 4.22%,降幅接近三倍,成為本次升級中最突出的進(jìn)步之一。

為了進(jìn)一步驗(yàn)證這種“更準(zhǔn)事實(shí)”的能力,團(tuán)隊(duì)還引入了更嚴(yán)苛的外部基準(zhǔn)體系。其中最關(guān)鍵的指標(biāo)之一是 FActScore——由 500 個真實(shí)人物傳記問題組成,專門用于檢驗(yàn)?zāi)P驮谒阉?、事?shí)判斷和回答一致性上的表現(xiàn)。


在這一測試中,Grok 4.1 的 FActScore 從 9.89 降至 2.97,可信度提升同樣顯著。結(jié)合圖表可以更直觀看到:在相同的非推理模式下,Grok 4.1 的錯誤更少、偏差更小,整體輸出更可靠。

這意味著在涉及檢索、引用或調(diào)用外部事實(shí)的場景中,新版模型不再依賴語義猜測,而是能更準(zhǔn)確地給出基于證據(jù)的回答。

換句話說,Grok 4.1 在大模型最難突破的“事實(shí)穩(wěn)定性”方面邁出了關(guān)鍵一步——它不僅降低了錯誤數(shù)量,更壓低了“錯誤的自信”。而這,正是大模型從“能說”走向“可信”必須跨過的門檻。

與此同時,Grok 4.1 的“情商”也有顯著進(jìn)步。

在 EQ-Bench 測試中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多點(diǎn)。如果光看數(shù)字還不夠直觀,那么圖片就更能說明問題:榜單上,Grok 4.1 和 Thinking 版穩(wěn)穩(wěn)占據(jù)前兩名,把一眾旗艦?zāi)P退υ谏砗?,?GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 這種老牌強(qiáng)者,都被它輕松拉開了差距。

EQ-Bench 是一個由大模型評判的大模型情商測試集,用來評估主動情緒理解、洞察、共情和人際交往能力。它并不靠單輪問答,而是由 45 個角色扮演場景構(gòu)成,每個場景包含 3 個回合,模擬現(xiàn)實(shí)世界里真正的“情緒對話”。模型需要在連續(xù)對話中保持風(fēng)格一致、理解情緒上下文、做出恰當(dāng)回應(yīng)。最終結(jié)果通過兩兩對比得出,并以 Elo 形式歸一化呈現(xiàn)??梢哉f,EQ-Bench 可以作為測試各模型“情商”的權(quán)威榜單。


為什么 Grok 4.1 能在 EQ-Bench 拿下這樣亮眼的成績?

在官方給出的一張關(guān)于“安慰失去貓咪”的對比圖中,我們能找到答案。

舊版 Grok 的回復(fù)已經(jīng)算得上溫和體貼,但 Grok 4.1 的表達(dá)明顯更細(xì)膩:它不只是在說“我理解你的難過”,還會捕捉到情緒里那些更隱微、真實(shí)的細(xì)節(jié)——比如空下來的睡窩、期待卻再聽不到的喵叫、那種像潮水一樣反復(fù)襲來的悲傷。語氣更穩(wěn)、節(jié)奏更自然、情緒共鳴更到位,讀起來就像在和一個真正懂你的人對話。


這使得 Grok 4.1 在情緒理解方面邁入第一梯隊(duì)

除了事實(shí)層面的可靠性,Grok 4.1 在創(chuàng)意寫作能力上同樣出現(xiàn)大幅躍升。

在 Creative Writing v3 中,Grok4.1 的得分躍升至 1722Elo,較上一版幾乎拉開 600 分,文本的敘事節(jié)奏、風(fēng)格延展性與創(chuàng)造性都有質(zhì)感躍升。

這個基準(zhǔn)本身,Creative Writing v3 并不是簡單的“單輪評分”。在測試中,模型需要圍繞 32 個不同類別的寫作提示進(jìn)行 三輪獨(dú)立創(chuàng)作,涵蓋敘事、風(fēng)格模仿、世界構(gòu)建、人物情緒刻畫等復(fù)雜任務(wù),考驗(yàn)的不是一句話的巧思,而是持續(xù)穩(wěn)定的文本創(chuàng)造能力。評分方式也和 EQ-Bench 類似,通過人工評分標(biāo)準(zhǔn)與模型對戰(zhàn)得到標(biāo)準(zhǔn)化 Elo 得分。


在這份榜單中,Grok 4.1 Thinking 和 Grok 4.1 占據(jù)第二、第三,兩者之間僅相差十幾分;而其他強(qiáng)勢模型如 O3、Claude Sonnet 4.5、Kimi K2 以及舊版 Grok 3 都被穩(wěn)穩(wěn)甩在后面,形成了明顯的檔位分層。

換句話說,Grok 4.1 已經(jīng)進(jìn)入全球最強(qiáng)“創(chuàng)意寫作梯隊(duì)”。

而在官方給出的新舊版本對比中,我們可以明顯看出,Grok 4.1 已從“能寫段子”的模型躍升為真正具備文學(xué)筆觸的創(chuàng)作者:敘事更深、情緒更復(fù)雜、修辭更成熟、角色更沉浸。


這些升級最終體現(xiàn)在更好的交互體驗(yàn)上。Grok 4.1 擁有更穩(wěn)定的“個性”,對用戶意圖的理解更細(xì)致,風(fēng)格調(diào)節(jié)更自然。即便在非推理模式下,它也能穩(wěn)定輸出高質(zhì)量回答,同時保持極快響應(yīng)速度。

一個直觀的例子是官方展示的旅游攻略對比。舊版 Grok 給出的內(nèi)容像“百科式景點(diǎn)總覽”,信息密度高但缺乏節(jié)奏感;而 Grok 4.1 寫舊金山,則像一位真正“去過”“懂氛圍”的本地向?qū)В瑫鲃犹崾九恼諘r間、推薦適合你的路線,甚至帶出城市的具體氣質(zhì),更像在和一個真實(shí)的人交流。


在復(fù)雜任務(wù)處理中,Grok 4.1 的上下文窗口擴(kuò)展至 256K tokens,F(xiàn)ast 模式下更可達(dá) 200 萬,使其在長文檔理解、持續(xù)協(xié)作與大型內(nèi)容生成中保持高連貫度,顯著減少“斷片”。

總體來看,Grok 4.1 的提升不是單點(diǎn)突破,而是從性能、事實(shí)性到情商、創(chuàng)意與交互體驗(yàn)的一次全維升級。

在正式亮相之前,Grok 4.1 其實(shí)已經(jīng)悄悄經(jīng)歷了一輪為期兩周的“靜默發(fā)布”。從 2025 年 11 月 1 日到 14 日,xAI 將一部分真實(shí)用戶流量在 grok.com、X 以及移動端應(yīng)用中逐步切換到 Grok 4.1,以觀察它在真實(shí)環(huán)境下的表現(xiàn)。

這一階段最直觀的結(jié)果,被清晰地體現(xiàn)在那張 64.78% 的餅圖上:在雙盲對比、用戶不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用戶選為“更好”。換句話說,面對同樣的問題,用戶在超過六成的情況下更偏愛 Grok 4.1。

可以說,Grok 4.1 展現(xiàn)的更高的情緒理解、更穩(wěn)的事實(shí)性回應(yīng)、更自然的交互風(fēng)格,都通過靜默測試被真實(shí)用戶用投票“蓋章”。


無論是 LMArena 雙冠、幻覺率的斷崖式下降,還是創(chuàng)意寫作與情感能力的全面增強(qiáng),新一代 Grok 已從“功能強(qiáng)”走向“體驗(yàn)強(qiáng)”,也為 xAI 在今年的大模型競爭中交出了一份極具說服力的答卷。

我們實(shí)測了 Grok4.1

AI 前線也上手實(shí)測了 Grok4.1。

首先是推理能力測試,我們設(shè)計了一道看似正常、實(shí)際“有詐”(有 2 組解)的題(各位可以自己動手驗(yàn)證下):

“四個同學(xué)參加數(shù)學(xué)競賽,分別是:小 A、小 B、小 C、小 D。 比賽結(jié)束后,他們對自己名次做了如下四個判斷: (1)小 A 說:“我不是第一名?!? (2)小 B 說:“我也不是最后一名?!? (3)小 C 說:“我是第二名” (4)小 D 說:“我才不是最后一名呢?!? 已知:這四句中只有一句是真話,且四個人名次兩兩不同。

問:哪一句是真話?四個人各自的名次如何?請給出推理過程。”

Grok 成功找出了 2 組解,還主動修復(fù)題目 Bug。


不過需要說明的是,它其實(shí)在主動修復(fù)題目 Bug 時“翻車”了,Grok 提出,如果把小 C 說的話改為:“小 B 是第二名”,這樣答案就有唯一性。

但修改后,結(jié)果其實(shí)還有多種:第一,如果有只有 B 在說真話,此時名次唯一確定為 A1、C2、B3、D4;第二,如果只有 D 在說真話,此時只能確定 A1、B4,C 和 D 分別為第 2 第 3 名但不唯一。

再來看看 Grok 的寫作能力

我們給出了這樣的 Prompt:

用講故事的口吻,準(zhǔn)確且生動地、有感染力地講述馬斯克 xAI 發(fā)布 Grok4.1 的事。要求字?jǐn)?shù):500-600 字,必須包含:發(fā)布時間、產(chǎn)品亮點(diǎn)、市場背景等。

Grok4.1 的回答如下,還貼心地統(tǒng)計了字?jǐn)?shù):578——但是,咱就是說,Grok 恐怕是統(tǒng)計的英文字?jǐn)?shù)(或者數(shù)學(xué)不好?),我們手工用 Word 統(tǒng)計了字?jǐn)?shù):861 字。


最后,我們測了一下 Grok4.1 的圖像生成能力,效果不錯:Grok 根據(jù)一段 Prompt 生成了兩張圖,還真挺像真實(shí)照片的(不過細(xì)節(jié)嘛,大家請自行評價)。


而且還能直接根據(jù)圖像,一鍵生成視頻,效果如下:


感興趣的讀者朋友們,也可以去上手試試。

https://x.com/xai/status/1990530499752980638

https://x.ai/news/grok-4-1

https://news.ycombinator.com/item?id=45958005

聲明:本文為 AI前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

2025 技術(shù)年度盤點(diǎn),由你來決定!

2025 年的科技浪潮令人應(yīng)接不暇。技術(shù)變化密集、層級交疊,讓人眼花繚亂。臨近年終,為了把有限的篇幅用在大家最關(guān)心的領(lǐng)域,我們今年希望借助投票的方式,選出數(shù)個關(guān)鍵領(lǐng)域進(jìn)行趨勢盤點(diǎn)。大家可以勾選出你最想看到的 3 個方向(可多選)。

除此之外,你還想看哪個方向的盤點(diǎn)? 有什么現(xiàn)象或爭議點(diǎn)你希望我們“深扒”一下?哪些趨勢你覺得太迷,需要專家?guī)憧炊??對于年終盤點(diǎn),大家有任何想法,都非常歡迎在評論區(qū)留言告訴我們!

會議預(yù)告

12 月 19~20 日,AICon 2025 年度收官站在北京舉辦。現(xiàn)已開啟 9 折優(yōu)惠。

兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團(tuán)隊(duì)的專家深度交流落地經(jīng)驗(yàn)與思考。2025 年最后一場,不容錯過。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國多地爆發(fā)抗議活動 反戰(zhàn)與主戰(zhàn)陣營隔警對峙

美國多地爆發(fā)抗議活動 反戰(zhàn)與主戰(zhàn)陣營隔警對峙

看看新聞Knews
2026-03-08 16:54:04
河南商丘一佳人太漂亮了,仙姿玉色,貌美如花,絕世佳人不過如此

河南商丘一佳人太漂亮了,仙姿玉色,貌美如花,絕世佳人不過如此

陳意小可愛
2026-02-08 16:08:50
中俄要求美國立即?;?!美防長傲慢回應(yīng)!并向太平洋發(fā)射洲際導(dǎo)彈

中俄要求美國立即停火!美防長傲慢回應(yīng)!并向太平洋發(fā)射洲際導(dǎo)彈

好賢觀史記
2026-03-06 19:32:59
起風(fēng)了!表決結(jié)果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

起風(fēng)了!表決結(jié)果出爐,22名綠委缺席!蔣萬安、盧秀燕高下立判!

浪子阿邴聊體育
2026-03-08 04:13:40
內(nèi)塔尼亞胡做夢也沒想到:親手扶持的“棋子”,正從背后捅戈蘭高地一刀

內(nèi)塔尼亞胡做夢也沒想到:親手扶持的“棋子”,正從背后捅戈蘭高地一刀

起喜電影
2026-03-07 17:04:09
劉亞樓被稱為103,號稱東野三號首長,實(shí)際有9位排他前面:都是誰

劉亞樓被稱為103,號稱東野三號首長,實(shí)際有9位排他前面:都是誰

舊史新譚
2026-03-08 14:11:09
湖南老太為一只雞逼得兒媳自盡,想讓孫子養(yǎng)老,孫子:別做夢

湖南老太為一只雞逼得兒媳自盡,想讓孫子養(yǎng)老,孫子:別做夢

我是玲玲
2024-10-13 16:30:39
外交部:請滯留中東地區(qū)的中國旅客關(guān)注航班信息

外交部:請滯留中東地區(qū)的中國旅客關(guān)注航班信息

界面新聞
2026-03-08 11:58:13
1-0!巴薩3連勝:西甲4分領(lǐng)跑,后11輪2場惡戰(zhàn),贏1場基本奪冠

1-0!巴薩3連勝:西甲4分領(lǐng)跑,后11輪2場惡戰(zhàn),贏1場基本奪冠

體育知多少
2026-03-08 07:12:35
3月1日起,廣州外賣電動車新規(guī)實(shí)施,包括:15公里限速+專用號牌

3月1日起,廣州外賣電動車新規(guī)實(shí)施,包括:15公里限速+專用號牌

電動車的那些事兒
2026-03-08 08:27:07
阿里天才少年出走,硅谷大佬砸重金搶人

阿里天才少年出走,硅谷大佬砸重金搶人

大佬灼見
2026-03-06 16:20:57
一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

一場戰(zhàn)爭把中國打醒!美軍最毒的不是裝備,中國用30年才真正看清

達(dá)文西看世界
2026-03-02 14:25:12
越南一拾荒者海邊撿到一個塑料袋,打開一看:24公斤疑似毒品

越南一拾荒者海邊撿到一個塑料袋,打開一看:24公斤疑似毒品

緬甸中文網(wǎng)
2026-03-07 15:10:48
江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強(qiáng)奸

江西48.8萬彩禮后續(xù):男子轉(zhuǎn)頭退婚提豪車,女子破防:要告你強(qiáng)奸

鋭娛之樂
2025-09-09 22:24:54
過年放假8天,為全家人做了8天飯,女人:你全家開心了,咱該離了

過年放假8天,為全家人做了8天飯,女人:你全家開心了,咱該離了

多久情感
2026-03-07 16:48:26
戴安娜秘密錄音曝光:和查爾斯一周三次夫妻生活,他卻想當(dāng)卡米拉衛(wèi)生棉

戴安娜秘密錄音曝光:和查爾斯一周三次夫妻生活,他卻想當(dāng)卡米拉衛(wèi)生棉

小魚愛魚樂
2026-02-17 07:05:58
無錫知名居民區(qū),拆遷建公園!

無錫知名居民區(qū),拆遷建公園!

無錫eTV全媒體
2026-03-08 14:08:03
難辨真?zhèn)危_實(shí)有可能,美媒:中國用殲16的舊雷達(dá)來升級殲11B

難辨真?zhèn)?,但確實(shí)有可能,美媒:中國用殲16的舊雷達(dá)來升級殲11B

嘯鷹評
2026-03-07 23:24:42
保定螺螄粉店潑湯女后續(xù):只因錯拿凳子,真容曝光,全網(wǎng)怒了

保定螺螄粉店潑湯女后續(xù):只因錯拿凳子,真容曝光,全網(wǎng)怒了

朗威談星座
2026-03-08 09:31:19
特朗普官宣承認(rèn)委內(nèi)瑞拉現(xiàn)政府,美委斷交7年終復(fù)交

特朗普官宣承認(rèn)委內(nèi)瑞拉現(xiàn)政府,美委斷交7年終復(fù)交

老馬拉車莫少裝
2026-03-08 13:34:14
2026-03-08 17:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

伊朗軍方公布"家底":具備打至少6個月高強(qiáng)度戰(zhàn)爭能力

頭條要聞

伊朗軍方公布"家底":具備打至少6個月高強(qiáng)度戰(zhàn)爭能力

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財經(jīng)要聞

油價要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

游戲
時尚
教育
藝術(shù)
親子

外媒盤點(diǎn)六大利器!新Xbox能否終結(jié)主機(jī)戰(zhàn)爭劣勢?

2026春夏一定要擁有的6只包,好看又百搭

教育要聞

第一次考英語四級,如何規(guī)劃復(fù)習(xí)才能順利通過,最好突破550分

藝術(shù)要聞

“北京意象·活力通州”繪畫作品展 | 油畫作品選

親子要聞

泰國老丈人滿心是欣欣 上班都沒心思 就想早點(diǎn)回家陪娃

無障礙瀏覽 進(jìn)入關(guān)懷版