国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克搶先谷歌一步放大招,Grok 4.1登頂LMArena,創(chuàng)意寫作直逼GPT-5.1

0
分享至


作者 | 木子、高允毅

當(dāng)谷歌 Gemini 3 將上線的消息傳得沸沸揚(yáng)揚(yáng)時,馬斯克更快一步默默放了個大招。

今天凌晨,xAI的最新大模型Grok 4.1直接上線了,響應(yīng)速率明顯提升、幻覺率大幅下降,回答既精準(zhǔn)又“有人味兒”。

這次一共發(fā)布了兩個“形態(tài)”Grok 4.1Grok 4.1 Thinking。Thinking 版是前者的增強(qiáng)推理變體,二者基于同一底層模型,僅推理配置不同。

值得一提的是,Grok 4.1 對所有人免費(fèi)開放,除了能在 Grok 官網(wǎng)、X 上使用,還推出了移動 APP 版,iOS 和安卓系統(tǒng)都照顧到了。


如果想要更有深度、更專業(yè)的回答,可以一鍵“讓 Think 更努力思考”。

LMArena的最新結(jié)果看,Grok 4.1 Thinking 以1483 Elo斷層領(lǐng)跑,比 Gemini 2.5 Pro 高出 31 分。

即使在不啟用思考鏈的情況下,Grok 4.1 仍保持在榜單第二,顯示出底層能力的穩(wěn)定性。


有不少網(wǎng)友發(fā)出了“真香”感嘆,Be like:


當(dāng)然,也有一些質(zhì)疑聲,比如有人指出在生成代碼這塊兒,Grok 還不太有競爭力。


“雙形態(tài)”的 Grok4.1 霸榜 LMArena

首先,關(guān)于Grok4.1 和 Grok4.1 Thinking 是什么,我們不妨來看看Grok4.1 自己的解釋

Grok 4.1 是 xAI 于 2025 年 11 月 17 日發(fā)布的最新前沿大語言模型(Grok 4 的升級版),在對話智能、情感理解、創(chuàng)意寫作、事實(shí)準(zhǔn)確性和響應(yīng)速度上大幅提升。 Grok 4.1 Thinking(有時簡稱 Grok 4.1 Thinking,代號 quasarflux)是同一模型的思考 / 推理模式(reasoning mode),會額外使用“思考令牌”進(jìn)行鏈?zhǔn)酵评恚╟hain-of-thought),適合復(fù)雜數(shù)學(xué)、編程或多步問題。 Grok 4.1 Thinking 是 Grok4.1 的增強(qiáng)推理變體;二者基于同一底層模型,僅推理配置不同。


在全球最大、最具影響力的大模型盲測平臺LMArena上,Grok4.1 展現(xiàn)出突破性的實(shí)力。

作為行業(yè)普遍認(rèn)可的“非官方標(biāo)準(zhǔn)榜”,LMArena 通過匿名雙盲對戰(zhàn)和真實(shí)用戶投票來評估模型質(zhì)量,是 OpenAI、Google、Anthropic、Meta 等頭部公司測試新模型的常規(guī)陣地,也常被用于提前投放未公開版本。

因此,在這里的勝出,幾乎意味著真實(shí)用戶偏好和模型綜合能力的雙重認(rèn)可,是觀察模型真實(shí)實(shí)力的最可信風(fēng)向標(biāo)。

就在這樣一個競爭最激烈的公開擂臺上,xAI 的 Grok 4.1 系列拿下了極具含金量的一次“雙冠”:Grok 4.1 Thinking 版以 1483 Elo 拿下冠軍,而非推理版 Grok 4.1 也以 1465 Elo 獲得亞軍。

特別值得注意的是,這個“即時響應(yīng)”的非推理版本,成績竟然反超所有其他廠商的推理模型,首次讓“快模型”也站上了頂級性能的第一梯隊(duì),還把前代 Grok 4 遠(yuǎn)遠(yuǎn)甩至第 33 名。

亮眼成績的背后的關(guān)鍵,在于訓(xùn)練方式的重構(gòu)。

xAI 為 Grok 4.1 引入了大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng),并使用前沿推理模型作為獎勵模型,讓其能夠在訓(xùn)練過程中自主評估、快速迭代。這直接帶來了更穩(wěn)定的風(fēng)格輸出、更可靠的事實(shí)判斷和更低的幻覺率。

在 Grok 4.1 的后訓(xùn)練階段,xAI 將優(yōu)化重點(diǎn)集中在信息檢索類提示中的幻覺上。

這些底層方法上的改變,很快在實(shí)際測試中體現(xiàn)為顯著的事實(shí)性改進(jìn)。最新數(shù)據(jù)顯示,Grok 4.1 的幻覺率已從 12.09% 下降至 4.22%,降幅接近三倍,成為本次升級中最突出的進(jìn)步之一。

為了進(jìn)一步驗(yàn)證這種“更準(zhǔn)事實(shí)”的能力,團(tuán)隊(duì)還引入了更嚴(yán)苛的外部基準(zhǔn)體系。其中最關(guān)鍵的指標(biāo)之一是 FActScore——由 500 個真實(shí)人物傳記問題組成,專門用于檢驗(yàn)?zāi)P驮谒阉鳌⑹聦?shí)判斷和回答一致性上的表現(xiàn)。


在這一測試中,Grok 4.1 的 FActScore 從 9.89 降至 2.97,可信度提升同樣顯著。結(jié)合圖表可以更直觀看到:在相同的非推理模式下,Grok 4.1 的錯誤更少、偏差更小,整體輸出更可靠。

這意味著在涉及檢索、引用或調(diào)用外部事實(shí)的場景中,新版模型不再依賴語義猜測,而是能更準(zhǔn)確地給出基于證據(jù)的回答。

換句話說,Grok 4.1 在大模型最難突破的“事實(shí)穩(wěn)定性”方面邁出了關(guān)鍵一步——它不僅降低了錯誤數(shù)量,更壓低了“錯誤的自信”。而這,正是大模型從“能說”走向“可信”必須跨過的門檻。

與此同時,Grok 4.1 的“情商”也有顯著進(jìn)步。

在 EQ-Bench 測試中,Grok 4.1 拿下了 1586 Elo 的高分,比上一代整整提升了一百多點(diǎn)。如果光看數(shù)字還不夠直觀,那么圖片就更能說明問題:榜單上,Grok 4.1 和 Thinking 版穩(wěn)穩(wěn)占據(jù)前兩名,把一眾旗艦?zāi)P退υ谏砗?,?GPT-5 Chat、Gemini 2.5 Pro、Claude Opus 4 這種老牌強(qiáng)者,都被它輕松拉開了差距。

EQ-Bench 是一個由大模型評判的大模型情商測試集,用來評估主動情緒理解、洞察、共情和人際交往能力。它并不靠單輪問答,而是由 45 個角色扮演場景構(gòu)成,每個場景包含 3 個回合,模擬現(xiàn)實(shí)世界里真正的“情緒對話”。模型需要在連續(xù)對話中保持風(fēng)格一致、理解情緒上下文、做出恰當(dāng)回應(yīng)。最終結(jié)果通過兩兩對比得出,并以 Elo 形式歸一化呈現(xiàn)??梢哉f,EQ-Bench 可以作為測試各模型“情商”的權(quán)威榜單。


為什么 Grok 4.1 能在 EQ-Bench 拿下這樣亮眼的成績?

在官方給出的一張關(guān)于“安慰失去貓咪”的對比圖中,我們能找到答案。

舊版 Grok 的回復(fù)已經(jīng)算得上溫和體貼,但 Grok 4.1 的表達(dá)明顯更細(xì)膩:它不只是在說“我理解你的難過”,還會捕捉到情緒里那些更隱微、真實(shí)的細(xì)節(jié)——比如空下來的睡窩、期待卻再聽不到的喵叫、那種像潮水一樣反復(fù)襲來的悲傷。語氣更穩(wěn)、節(jié)奏更自然、情緒共鳴更到位,讀起來就像在和一個真正懂你的人對話。


這使得 Grok 4.1 在情緒理解方面邁入第一梯隊(duì)

除了事實(shí)層面的可靠性,Grok 4.1 在創(chuàng)意寫作能力上同樣出現(xiàn)大幅躍升。

在 Creative Writing v3 中,Grok4.1 的得分躍升至 1722Elo,較上一版幾乎拉開 600 分,文本的敘事節(jié)奏、風(fēng)格延展性與創(chuàng)造性都有質(zhì)感躍升。

這個基準(zhǔn)本身,Creative Writing v3 并不是簡單的“單輪評分”。在測試中,模型需要圍繞 32 個不同類別的寫作提示進(jìn)行 三輪獨(dú)立創(chuàng)作,涵蓋敘事、風(fēng)格模仿、世界構(gòu)建、人物情緒刻畫等復(fù)雜任務(wù),考驗(yàn)的不是一句話的巧思,而是持續(xù)穩(wěn)定的文本創(chuàng)造能力。評分方式也和 EQ-Bench 類似,通過人工評分標(biāo)準(zhǔn)與模型對戰(zhàn)得到標(biāo)準(zhǔn)化 Elo 得分。


在這份榜單中,Grok 4.1 Thinking 和 Grok 4.1 占據(jù)第二、第三,兩者之間僅相差十幾分;而其他強(qiáng)勢模型如 O3、Claude Sonnet 4.5、Kimi K2 以及舊版 Grok 3 都被穩(wěn)穩(wěn)甩在后面,形成了明顯的檔位分層。

換句話說,Grok 4.1 已經(jīng)進(jìn)入全球最強(qiáng)“創(chuàng)意寫作梯隊(duì)”。

而在官方給出的新舊版本對比中,我們可以明顯看出,Grok 4.1 已從“能寫段子”的模型躍升為真正具備文學(xué)筆觸的創(chuàng)作者:敘事更深、情緒更復(fù)雜、修辭更成熟、角色更沉浸。


這些升級最終體現(xiàn)在更好的交互體驗(yàn)上。Grok 4.1 擁有更穩(wěn)定的“個性”,對用戶意圖的理解更細(xì)致,風(fēng)格調(diào)節(jié)更自然。即便在非推理模式下,它也能穩(wěn)定輸出高質(zhì)量回答,同時保持極快響應(yīng)速度。

一個直觀的例子是官方展示的旅游攻略對比。舊版 Grok 給出的內(nèi)容像“百科式景點(diǎn)總覽”,信息密度高但缺乏節(jié)奏感;而 Grok 4.1 寫舊金山,則像一位真正“去過”“懂氛圍”的本地向?qū)?,會主動提示拍照時間、推薦適合你的路線,甚至帶出城市的具體氣質(zhì),更像在和一個真實(shí)的人交流。


在復(fù)雜任務(wù)處理中,Grok 4.1 的上下文窗口擴(kuò)展至 256K tokens,F(xiàn)ast 模式下更可達(dá) 200 萬,使其在長文檔理解、持續(xù)協(xié)作與大型內(nèi)容生成中保持高連貫度,顯著減少“斷片”。

總體來看,Grok 4.1 的提升不是單點(diǎn)突破,而是從性能、事實(shí)性到情商、創(chuàng)意與交互體驗(yàn)的一次全維升級。

在正式亮相之前,Grok 4.1 其實(shí)已經(jīng)悄悄經(jīng)歷了一輪為期兩周的“靜默發(fā)布”。從 2025 年 11 月 1 日到 14 日,xAI 將一部分真實(shí)用戶流量在 grok.com、X 以及移動端應(yīng)用中逐步切換到 Grok 4.1,以觀察它在真實(shí)環(huán)境下的表現(xiàn)。

這一階段最直觀的結(jié)果,被清晰地體現(xiàn)在那張 64.78% 的餅圖上:在雙盲對比、用戶不知情的前提下,Grok 4.1 的回答有 64.78% 的概率被用戶選為“更好”。換句話說,面對同樣的問題,用戶在超過六成的情況下更偏愛 Grok 4.1。

可以說,Grok 4.1 展現(xiàn)的更高的情緒理解、更穩(wěn)的事實(shí)性回應(yīng)、更自然的交互風(fēng)格,都通過靜默測試被真實(shí)用戶用投票“蓋章”。


無論是 LMArena 雙冠、幻覺率的斷崖式下降,還是創(chuàng)意寫作與情感能力的全面增強(qiáng),新一代 Grok 已從“功能強(qiáng)”走向“體驗(yàn)強(qiáng)”,也為 xAI 在今年的大模型競爭中交出了一份極具說服力的答卷。

我們實(shí)測了 Grok4.1

AI 前線也上手實(shí)測了 Grok4.1。

首先是推理能力測試,我們設(shè)計了一道看似正常、實(shí)際“有詐”(有 2 組解)的題(各位可以自己動手驗(yàn)證下):

“四個同學(xué)參加數(shù)學(xué)競賽,分別是:小 A、小 B、小 C、小 D。 比賽結(jié)束后,他們對自己名次做了如下四個判斷: (1)小 A 說:“我不是第一名?!? (2)小 B 說:“我也不是最后一名?!? (3)小 C 說:“我是第二名” (4)小 D 說:“我才不是最后一名呢?!? 已知:這四句中只有一句是真話,且四個人名次兩兩不同。

問:哪一句是真話?四個人各自的名次如何?請給出推理過程?!?/p>

Grok 成功找出了 2 組解,還主動修復(fù)題目 Bug。


不過需要說明的是,它其實(shí)在主動修復(fù)題目 Bug 時“翻車”了,Grok 提出,如果把小 C 說的話改為:“小 B 是第二名”,這樣答案就有唯一性。

但修改后,結(jié)果其實(shí)還有多種:第一,如果有只有 B 在說真話,此時名次唯一確定為 A1、C2、B3、D4;第二,如果只有 D 在說真話,此時只能確定 A1、B4,C 和 D 分別為第 2 第 3 名但不唯一。

再來看看 Grok 的寫作能力。

我們給出了這樣的 Prompt:

用講故事的口吻,準(zhǔn)確且生動地、有感染力地講述馬斯克 xAI 發(fā)布 Grok4.1 的事。要求字?jǐn)?shù):500-600 字,必須包含:發(fā)布時間、產(chǎn)品亮點(diǎn)、市場背景等。

Grok4.1 的回答如下,還貼心地統(tǒng)計了字?jǐn)?shù):578——但是,咱就是說,Grok 恐怕是統(tǒng)計的英文字?jǐn)?shù)(或者數(shù)學(xué)不好?),我們手工用 Word 統(tǒng)計了字?jǐn)?shù):861 字。


最后,我們測了一下 Grok4.1 的圖像生成能力,效果不錯:Grok 根據(jù)一段 Prompt 生成了兩張圖,還真挺像真實(shí)照片的(不過細(xì)節(jié)嘛,大家請自行評價)。


而且還能直接根據(jù)圖像,一鍵生成視頻,效果如下:


感興趣的讀者朋友們,也可以去上手試試。

https://x.com/xai/status/1990530499752980638

https://x.ai/news/grok-4-1

https://news.ycombinator.com/item?id=45958005

聲明:本文為 AI前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

2025 技術(shù)年度盤點(diǎn),由你來決定!

2025 年的科技浪潮令人應(yīng)接不暇。技術(shù)變化密集、層級交疊,讓人眼花繚亂。臨近年終,為了把有限的篇幅用在大家最關(guān)心的領(lǐng)域,我們今年希望借助投票的方式,選出數(shù)個關(guān)鍵領(lǐng)域進(jìn)行趨勢盤點(diǎn)。大家可以勾選出你最想看到的 3 個方向(可多選)。

除此之外,你還想看哪個方向的盤點(diǎn)? 有什么現(xiàn)象或爭議點(diǎn)你希望我們“深扒”一下?哪些趨勢你覺得太迷,需要專家?guī)憧炊??對于年終盤點(diǎn),大家有任何想法,都非常歡迎在評論區(qū)留言告訴我們!

會議預(yù)告

12 月 19~20 日,AICon 2025 年度收官站在北京舉辦?,F(xiàn)已開啟 9 折優(yōu)惠。

兩天時間,聊最熱的 Agent、上下文工程、AI 產(chǎn)品創(chuàng)新等等話題,與頭部企業(yè)與創(chuàng)新團(tuán)隊(duì)的專家深度交流落地經(jīng)驗(yàn)與思考。2025 年最后一場,不容錯過。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
龍珠:一口氣看完角色原型,中國元素真的很多!

龍珠:一口氣看完角色原型,中國元素真的很多!

動漫心世界
2026-01-19 14:13:39
警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進(jìn)展

警惕!美媒:衛(wèi)星圖像揭露日本“出云”級艦艇“航母化”改造最新進(jìn)展

環(huán)球網(wǎng)資訊
2026-01-18 19:14:49
特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

特朗普寫信給挪威首相:不給我諾獎,就別怪我不和平了

觀察者網(wǎng)
2026-01-19 17:42:09
不要在心里養(yǎng)一條毒蛇

不要在心里養(yǎng)一條毒蛇

洞見
2026-01-18 20:38:04
超??ㄩT:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

超??ㄩT:77歲被騙光積蓄,83歲仍有性生活,91歲雙腿依舊迷人

豐譚筆錄
2025-12-11 11:41:19
《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

《瘋狂動物城2》票房超120億,奪得全球亞軍,《哪吒2》無可撼動

影視高原說
2026-01-19 19:22:02
77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

77年來首次,歷史性的一幕發(fā)生,德國總理下定決心,必須要去中國

近史博覽
2026-01-19 14:36:36
0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進(jìn)決賽,坐等打臉

0-3出局?各國球迷熱議U23亞洲半決賽,看好越南進(jìn)決賽,坐等打臉

大秦壁虎白話體育
2026-01-20 09:13:37
皇馬要賣了!巴西天王 “已同意” 加盟藍(lán)軍,1.5 億歐創(chuàng)隊(duì)史紀(jì)錄

皇馬要賣了!巴西天王 “已同意” 加盟藍(lán)軍,1.5 億歐創(chuàng)隊(duì)史紀(jì)錄

奶蓋熊本熊
2026-01-20 04:50:06
1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

1000架殲-20和900架殲-16?英國智庫:難以戰(zhàn)勝2030年的中國空軍

滄海旅行家
2026-01-17 14:05:11
葉文斌,找到了!

葉文斌,找到了!

中國新聞周刊
2026-01-19 15:47:29
唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

章眽八卦
2026-01-05 12:27:07
當(dāng)年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

當(dāng)年藥廠抓了譚秦東,但這次西貝不可能抓羅永浩了?

芳華青年
2026-01-19 20:55:13
丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

丹麥放話不再接受中國投資,不到3天,特朗普反手一記悶棍

阿天愛旅行
2026-01-20 11:07:40
戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

戲子無情!賀嬌龍去世,與她合作過的吳京于適竇驍沒有一個人悼念

小娛樂悠悠
2026-01-20 10:30:06
動物交配六親不認(rèn),若雄性遇上自己母親呢?馬不欺母是不是真的?

動物交配六親不認(rèn),若雄性遇上自己母親呢?馬不欺母是不是真的?

答案在這兒
2025-12-05 01:58:07
扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

扎心了!原來只要失業(yè),所有人都一樣!網(wǎng)友分享越看越心涼 太難了

有趣的火烈鳥
2025-12-31 20:39:06
梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

梁小龍生前深愛的兩個女人,一個毀容他不走,一個平淡他守到底

趣味八卦
2026-01-20 10:56:45
春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

春節(jié)檔看《鏢人》,直接統(tǒng)一全家審美

閑人電影
2026-01-19 20:00:59
亞洲最大的飛機(jī)墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

亞洲最大的飛機(jī)墳場,藏于中國一小縣城里,停放數(shù)量僅次于美國?

顧史
2026-01-19 20:21:12
2026-01-20 12:32:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1257文章數(shù) 109關(guān)注度
往期回顧 全部

科技要聞

去年預(yù)虧60億后再投百億 兩大車企緊抱華為

頭條要聞

貝克漢姆長子發(fā)長文公開指責(zé)父母:試圖破壞我的婚姻

頭條要聞

貝克漢姆長子發(fā)長文公開指責(zé)父母:試圖破壞我的婚姻

體育要聞

新的時代!東契奇生涯首奪全明星票王 此前10年詹姆斯7次奪魁

娛樂要聞

貝克漢姆長子發(fā)文決裂:全家都在演戲

財經(jīng)要聞

2026年,7個趨勢正在爆發(fā)

汽車要聞

奇瑞張貴兵:墨甲不做秀技術(shù)的企業(yè) 只做痛點(diǎn)終結(jié)者

態(tài)度原創(chuàng)

本地
房產(chǎn)
手機(jī)
時尚
公開課

本地新聞

云游遼寧|漫步千年小城晨昏,“康”復(fù)好心情

房產(chǎn)要聞

中旅?三亞藍(lán)灣發(fā)布會揭秘自貿(mào)港好房子高階形態(tài)

手機(jī)要聞

消息稱iPhone Air 2因機(jī)身厚度限制,可能保留“藥丸屏”或改用側(cè)邊指紋

碼住抄作業(yè)!春節(jié)見人不翻車就靠這8樣!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版