国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Grok 4.1強(qiáng)勢(shì)上線!超越所有對(duì)手,拿下LMArena排行榜第一,事實(shí)性幻覺(jué)大幅下降

0
分享至


整理 | 蘇宓

出品 | CSDN(ID:CSDNnews)

時(shí)隔四個(gè)月,埃隆·馬斯克創(chuàng)立的 xAI 正式帶來(lái)了 Grok 4 的升級(jí)版——Grok 4.1,此次發(fā)布共有兩款型號(hào)的模型,分別為 Grok 4.1 和 Grok 4.1 Thinking。

目前,兩者均向所有用戶(hù)免費(fèi)開(kāi)放,可以通過(guò) grok.com、X 以及 iOS 和 Android 應(yīng)用使用。付費(fèi)用戶(hù)則能獲得更高的使用額度。



全新升級(jí)的 Grok 4.1

根據(jù) xAI 的說(shuō)法,Grok 4.1 為 Grok 在真實(shí)場(chǎng)景中的可用性帶來(lái)了顯著提升。官方稱(chēng),這一版本在創(chuàng)造力、情緒理解以及協(xié)作互動(dòng)方面表現(xiàn)尤為突出。

與此前的模型相比,Grok 4.1 更善于捕捉細(xì)微意圖,對(duì)話(huà)更自然、有吸引力,也展現(xiàn)出更加一致的人格特征。


為了實(shí)現(xiàn)這些能力增強(qiáng),xAI 繼續(xù)沿用了支撐 Grok 4 的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,并進(jìn)一步將其用于優(yōu)化模型的風(fēng)格、人格和對(duì)齊性。由于這些目標(biāo)難以通過(guò)可驗(yàn)證的方式直接衡量,xAI 開(kāi)發(fā)了新的訓(xùn)練方法,讓前沿的智能體推理模型作為獎(jiǎng)勵(lì)模型,能夠自動(dòng)化且大規(guī)模地評(píng)估與改進(jìn)模型回復(fù)。

在上線方式上,xAI 先是于 2025 年 11 月 1 日至 14 日 進(jìn)行了為期兩周的靜默灰度發(fā)布,將早期版本的 Grok 4.1 逐步推送到 grok.com、X 以及移動(dòng) App 的真實(shí)流量中,并在此期間持續(xù)進(jìn)行盲測(cè)式的成對(duì)比較評(píng)估。

評(píng)測(cè)結(jié)果顯示,Grok 4.1 相比此前的生產(chǎn)版本優(yōu)勢(shì)明顯:

在盲測(cè)對(duì)比中,Grok 4.1 獲得了 64.78% 的偏好率。



登頂 LMArena、位居各大榜單前列的 Grok 4.1

接下來(lái),從具體的能力上來(lái)看。

通用能力

在 LMArena 的 Text Arena 排行榜上,Grok 4.1 Thinking(代號(hào):quasarflux) 以 1483 Elo 的成績(jī)位列總榜第一,比排名最高的非 xAI 模型 Gemini 2.5 Pro 高出 31 分,領(lǐng)先優(yōu)勢(shì)十分明顯。

LMArena 的 Text Arena 是一個(gè)開(kāi)源工具,允許用戶(hù)通過(guò)并排、盲測(cè)和隨機(jī)測(cè)試來(lái)比較不同的大型語(yǔ)言模型 (LLM)。


而 Grok 4.1 的非推理模式(代號(hào):tensor) 不使用 thinking tokens,可直接給出即時(shí)回復(fù),在排行榜上以 1465 Elo 排名第二。值得注意的是,這個(gè)“非推理模式”的 Grok 4.1 的成績(jī),甚至超過(guò)所有其他模型的“完整推理版本”。

相比之下,上一代 Grok 4 的總排名僅為第 33 位,與 4.1 的表現(xiàn)差距明顯。

情商

為了評(píng)估模型在“人格風(fēng)格”和“人際互動(dòng)能力”方面的進(jìn)步,xAI 使用了 EQ-Bench v3 對(duì) Grok 4.1 進(jìn)行測(cè)試。

EQ-Bench 是一個(gè)由大模型擔(dān)任裁判的測(cè)試,主要衡量模型的主動(dòng)情緒智力,包括理解力、洞察力、共情能力以及人際溝通技巧。測(cè)試集包含 45 個(gè)高難度角色扮演情景,大多數(shù)由三輪預(yù)設(shè)對(duì)話(huà)構(gòu)成。

評(píng)測(cè)方法一方面通過(guò)固定評(píng)分標(biāo)準(zhǔn)檢查模型回答質(zhì)量,另一方面也會(huì)進(jìn)行成對(duì)對(duì)比,最終得出每個(gè)模型的歸一化 Elo 分?jǐn)?shù)。

xAI 給出的分?jǐn)?shù)來(lái)自官方基準(zhǔn)測(cè)試倉(cāng)庫(kù)的運(yùn)行結(jié)果,采用默認(rèn)的采樣參數(shù)、指定裁判模型 Claude Sonnet 3.7,且未添加系統(tǒng)提示詞,以符合測(cè)試規(guī)范。

結(jié)果顯示,Grok 4.1 Thinking 和Grok 4.1 在 EQ-Bench 測(cè)試中名列第一、二名,這意味著該模型能夠以更自然、更富同理心、更人性化的方式做出回應(yīng)。對(duì)于用戶(hù)而言,這意味著對(duì)話(huà)更容易理解,也更貼近生活。


創(chuàng)意寫(xiě)作

xAI 在 Creative Writing v3 基準(zhǔn)上測(cè)試了 Grok 4.1 系列模型的表現(xiàn)。該基準(zhǔn)要求模型針對(duì) 32 個(gè)不同的寫(xiě)作提示生成回答,并進(jìn)行 3 輪迭代。

與 EQ-Bench 類(lèi)似,最終得分由兩部分組成:依據(jù)評(píng)分標(biāo)準(zhǔn)(rubrics)給出的質(zhì)量分,以及通過(guò)模型對(duì)戰(zhàn)方式計(jì)算出的歸一化 Elo 分?jǐn)?shù)。

Grok 4.1 Thinking 以 1721.9 的得分排名第二。


減少幻覺(jué)

快速(非推理)模型雖然能利用搜索工具迅速給出答案,但由于推理深度有限、工具調(diào)用次數(shù)受限,容易出現(xiàn)事實(shí)性錯(cuò)誤。

在 Grok 4.1 的后訓(xùn)練階段,xAI 透露他們重點(diǎn)優(yōu)化了信息查詢(xún)類(lèi)提示的事實(shí)性幻覺(jué)問(wèn)題。實(shí)際觀測(cè)顯示,對(duì)于生產(chǎn)環(huán)境中抽樣的此類(lèi)提示,幻覺(jué)率有了顯著下降。

評(píng)估方法上,該團(tuán)隊(duì)在來(lái)自生產(chǎn)流量的分層抽樣真實(shí)信息查詢(xún)中測(cè)試了幻覺(jué)率,同時(shí)還使用了 FActScore 公共基準(zhǔn)進(jìn)行驗(yàn)證。FActScore 包含 500 個(gè)關(guān)于個(gè)人傳記的問(wèn)題,用于檢驗(yàn)?zāi)P偷氖聦?shí)準(zhǔn)確性。

xAI 表示,與舊版本相比,Grok 4.1 將這個(gè)問(wèn)題減少了近三倍。這使得它在人們?cè)儐?wèn)事實(shí)、新聞或解釋時(shí)更加可靠。



大模型競(jìng)爭(zhēng)加劇

總體來(lái)看,Grok 4.1 是一次穩(wěn)步升級(jí),幻覺(jué)減少、榮登全球 AI 排行榜榜首,競(jìng)爭(zhēng)力有所提升。


不過(guò),從年度最佳模型的角度來(lái)看,不少外媒認(rèn)為,Grok 4.1 或許還不是今年的巔峰。Google 正準(zhǔn)備推出下一代旗艦 Gemini 3.0,外界普遍預(yù)計(jì)它將成為今年最強(qiáng)大的模型之一??梢灶A(yù)見(jiàn)的是,接下來(lái)一段時(shí)間,各家旗艦?zāi)P突驅(qū)⑸涎菽甓葞p峰對(duì)決。

參考: https://x.ai/news/grok-4-1


【活動(dòng)分享】2025 年是 C++ 正式發(fā)布以來(lái)的 40 周年,也是全球 C++ 及系統(tǒng)軟件技術(shù)大會(huì)舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統(tǒng)軟件技術(shù)大會(huì)」現(xiàn)場(chǎng),與全球頂尖的系統(tǒng)軟件工程師、編譯器專(zhuān)家、AI 基礎(chǔ)設(shè)施研究者同臺(tái)對(duì)話(huà)。

本次大會(huì)共設(shè)立現(xiàn)代 C++ 最佳實(shí)踐、架構(gòu)與設(shè)計(jì)演化、軟件質(zhì)量建設(shè)、安全與可靠、研發(fā)效能、大模型驅(qū)動(dòng)的軟件開(kāi)發(fā)、AI 算力與優(yōu)化、異構(gòu)計(jì)算、高性能與低時(shí)延、并發(fā)與并行、系統(tǒng)級(jí)軟件、嵌入式系統(tǒng)十二大主題,共同構(gòu)建了一個(gè)全面而立體的知識(shí)體系,確保每一位參會(huì)者——無(wú)論是語(yǔ)言愛(ài)好者、系統(tǒng)架構(gòu)師、性能優(yōu)化工程師,還是技術(shù)管理者——都能在這里找到自己的坐標(biāo),收獲深刻的洞見(jiàn)與啟發(fā)。詳情參考官網(wǎng):https://cpp-summit.org/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
俄軍步兵遭受巨大傷亡畫(huà)面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿(mǎn)道路

俄軍步兵遭受巨大傷亡畫(huà)面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿(mǎn)道路

環(huán)球熱點(diǎn)快評(píng)
2025-11-03 22:40:40
看到這些明星才知道啥叫斷崖式衰老!張子健和陳小春就像換了個(gè)人

看到這些明星才知道啥叫斷崖式衰老!張子健和陳小春就像換了個(gè)人

陸盼盼
2025-12-26 04:18:30
全國(guó)人大外事委員會(huì)發(fā)言人就美國(guó)“2026財(cái)年國(guó)防授權(quán)法案”涉華消極條款發(fā)表談話(huà)

全國(guó)人大外事委員會(huì)發(fā)言人就美國(guó)“2026財(cái)年國(guó)防授權(quán)法案”涉華消極條款發(fā)表談話(huà)

界面新聞
2025-12-25 18:30:21
香港前特首林鄭月娥:工作42年未在香港買(mǎi)房?卸任后為什么還是租房?。?>
    </a>
        <h3>
      <a href=香港前特首林鄭月娥:工作42年未在香港買(mǎi)房?卸任后為什么還是租房住? 歷史回憶室
2025-12-21 12:51:07
臺(tái)灣問(wèn)題: 臺(tái)軍全部轉(zhuǎn)民!解放軍進(jìn)駐臺(tái)灣!實(shí)行“一國(guó)兩制”。

臺(tái)灣問(wèn)題: 臺(tái)軍全部轉(zhuǎn)民!解放軍進(jìn)駐臺(tái)灣!實(shí)行“一國(guó)兩制”。

南權(quán)先生
2025-12-25 16:55:20
視頻丨叫囂“擁核”的日本高官被曝負(fù)責(zé)核裁軍 核爆受害者發(fā)聲抗議

視頻丨叫囂“擁核”的日本高官被曝負(fù)責(zé)核裁軍 核爆受害者發(fā)聲抗議

國(guó)際在線
2025-12-26 00:34:37
U22國(guó)足少打一人取勝!把伊朗當(dāng)伊拉克假想敵 兩場(chǎng)硬仗必須贏一場(chǎng)

U22國(guó)足少打一人取勝!把伊朗當(dāng)伊拉克假想敵 兩場(chǎng)硬仗必須贏一場(chǎng)

刀鋒體育
2025-12-25 22:47:08
年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬(wàn)元月薪選擇及時(shí)止損

年輕人正在逃離上海!上海月薪8500房租3200,撤離上海的年輕人們,放棄萬(wàn)元月薪選擇及時(shí)止損

流年拾光
2025-10-23 20:33:16
凱樂(lè)石被曝“產(chǎn)品換名漲價(jià)900元”,涉事羽絨服缺貨下架

凱樂(lè)石被曝“產(chǎn)品換名漲價(jià)900元”,涉事羽絨服缺貨下架

藍(lán)鯨新聞
2025-12-25 18:12:08
死都不告訴另一半的秘密是啥?網(wǎng)友:老公的叔搭過(guò)我,要我微信

死都不告訴另一半的秘密是啥?網(wǎng)友:老公的叔搭過(guò)我,要我微信

帶你感受人間冷暖
2025-12-18 00:20:06
阿維塔“南極極寒測(cè)試”被質(zhì)疑:現(xiàn)在中山站比北京暖和,公司回應(yīng):將駐留16個(gè)月

阿維塔“南極極寒測(cè)試”被質(zhì)疑:現(xiàn)在中山站比北京暖和,公司回應(yīng):將駐留16個(gè)月

紅星資本局
2025-12-25 14:10:07
年底啟動(dòng)大規(guī)模裁員?真我手機(jī):正常人員變動(dòng)

年底啟動(dòng)大規(guī)模裁員?真我手機(jī):正常人員變動(dòng)

界面新聞
2025-12-26 09:17:45
給臉不要臉!舉報(bào)阿信公司后朱孝天承認(rèn)造謠,面子里子都丟了

給臉不要臉!舉報(bào)阿信公司后朱孝天承認(rèn)造謠,面子里子都丟了

瘋說(shuō)時(shí)尚
2025-12-26 09:38:25
童瑤胸貼露出來(lái)了

童瑤胸貼露出來(lái)了

手工制作阿殲
2025-12-15 12:20:21
美媒支招勇士一筆三方交易方案,小波特+埃利斯聯(lián)手庫(kù)里沖冠

美媒支招勇士一筆三方交易方案,小波特+埃利斯聯(lián)手庫(kù)里沖冠

錢(qián)說(shuō)體育
2025-12-26 09:41:08
朱孝天道歉了

朱孝天道歉了

都市快報(bào)橙柿互動(dòng)
2025-12-25 22:57:40
張柏芝自爆立遺囑不到三天,惡心一幕發(fā)生,謝賢周星馳被牽連

張柏芝自爆立遺囑不到三天,惡心一幕發(fā)生,謝賢周星馳被牽連

畫(huà)畫(huà)影視
2025-12-26 09:25:43
比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企轟然倒塌,負(fù)債7500億,創(chuàng)始人被帶走

甜檸聊史
2025-12-24 18:22:43
日經(jīng)亞洲:中國(guó)可能成為荷蘭和日本后第三個(gè)獨(dú)立制造光刻機(jī)的國(guó)家

日經(jīng)亞洲:中國(guó)可能成為荷蘭和日本后第三個(gè)獨(dú)立制造光刻機(jī)的國(guó)家

二大爺觀世界
2025-12-25 21:23:20
公安部官宣:KK園區(qū)494棟建筑被拆除,“亞太新城”被徹底清剿

公安部官宣:KK園區(qū)494棟建筑被拆除,“亞太新城”被徹底清剿

極目新聞
2025-12-25 20:27:18
2025-12-26 10:40:50
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26210文章數(shù) 242203關(guān)注度
往期回顧 全部

科技要聞

豆包新模型,閃電發(fā)布,閃電“下架”

頭條要聞

媒體:讓美中產(chǎn)無(wú)法翻身的"斬殺線" 震碎中國(guó)網(wǎng)友三觀

頭條要聞

媒體:讓美中產(chǎn)無(wú)法翻身的"斬殺線" 震碎中國(guó)網(wǎng)友三觀

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

汽車(chē)要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
健康
公開(kāi)課

教育要聞

請(qǐng)留言:你認(rèn)同孩子的想法嗎?

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫(huà)家

這些新療法,讓化療不再那么痛苦

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版