国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

有人只用API就猜出了GPT、Claude、Gemini的參數(shù)量?社區(qū)吵翻了

0
分享至



機器之心編輯部

最近,研究人員李博杰在 arXiv 發(fā)布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調(diào)用,來逆向估算任意 LLM 的參數(shù)規(guī)模。



  • 論文標題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
  • 論文地址:https://arxiv.org/pdf/2604.24827

該研究的靈感源于一項持續(xù)三年的非正式測試。據(jù)李博杰介紹,其團隊成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項 CTF 網(wǎng)絡安全競賽)。



跨越多個版本的觀察結(jié)果,直觀展示了模型對世界知識認知的發(fā)展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續(xù)多屆賽事的具體細節(jié)。

受此啟發(fā),在 DeepSeek-V4 發(fā)布后,研究團隊利用 AI Agent 歷時四天自主構(gòu)建了完整的 IKP 正式數(shù)據(jù)集。該數(shù)據(jù)集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

研究的核心假設在于:模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾,但對冷門「事實性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數(shù)規(guī)模。

基于此,研究者在 89 個參數(shù)量已知的開源模型(規(guī)模從 1.35 億到 1.6 萬億參數(shù))上擬合出事實準確率與參數(shù)量的對數(shù)線性關(guān)系,擬合優(yōu)度 R2 = 0.917,并據(jù)此對閉源模型進行參數(shù)估算。

根據(jù)該方法,論文給出的估算數(shù)字(90% 置信區(qū)間約為 0.3 至 3 倍)如下:

  • GPT-5.5:約 9 萬億參數(shù)
  • Claude Opus 4.7:約 4 萬億參數(shù)
  • GPT-5.4:約 2.2 萬億參數(shù)
  • Claude Sonnet 4.6:約 1.7 萬億參數(shù)
  • Gemini 2.5 Pro:約 1.2 萬億參數(shù)

論文同時指出另外兩項發(fā)現(xiàn):

一是引用數(shù)量和 h 指數(shù)并不能有效預測研究者是否被模型記住,模型更傾向于記住那些產(chǎn)生了領域性影響的工作,而非高產(chǎn)但影響相對分散的學者;

二是跨越三年的 96 個開源模型數(shù)據(jù)顯示,事實記憶容量的時間系數(shù)在統(tǒng)計上接近于零,這與此前「Densing Law」所預測的效率隨時間提升的規(guī)律相悖,研究者據(jù)此認為推理能力基準趨于飽和,而事實容量仍主要受制于參數(shù)規(guī)模。

這組直觀的數(shù)據(jù)迅速在技術(shù)社區(qū)傳播并引發(fā)廣泛討論,但也伴隨著巨大的爭議。



有博主基于這組估算數(shù)據(jù),結(jié)合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數(shù)量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實現(xiàn)了體驗上的反轉(zhuǎn)。



也有多位研究者和從業(yè)者對估算數(shù)字及方法論提出了不同程度的質(zhì)疑。

對于 GPT-5.5 約 9 萬億參數(shù)的估算,部分用戶認為與實際服務能力不符,指出若規(guī)模真達到這一量級,OpenAI 現(xiàn)有基礎設施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數(shù)差距并不匹配。有人認為兩者規(guī)模比約在 2 倍左右更為合理。



同時,定向引入「合成數(shù)據(jù)」進行微調(diào),同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實知識不可壓縮」的核心前提。



根據(jù)該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規(guī)模約 1.7T,而行業(yè)已知國內(nèi)模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數(shù)差距僅在兩倍左右,單純的數(shù)據(jù)差異極難解釋目前兩者間的巨大性能鴻溝。



此外,業(yè)內(nèi)長期流傳的 GPT-4 規(guī)模約 1.7T,這與論文估算的結(jié)果出入極大。



發(fā)起討論的另一位 X 博主也補充說明:「這些數(shù)字不應被視為事實,置信區(qū)間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠?!?/p>



當然,在爭議與質(zhì)疑之外,技術(shù)社區(qū)中也涌現(xiàn)出了許多極具建設性的正向探討。

例如,有用戶認為 MoE 架構(gòu)和稠密模型在知識壓縮效率上可能存在本質(zhì)不同(MoE 的事實可能被分散在不同專家中),建議將這兩類模型分開統(tǒng)計以觀察趨勢。







對這組數(shù)據(jù)你怎么看?

https://x.com/deedydas/status/2049523583517634862

https://x.com/bojie_li/status/2049314403208896521

https://www.zhihu.com/pin/2032769685012361774

https://x.com/yiran2037840/status/2049827667034439821

https://x.com/Yampeleg/status/2049573913399607711

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應為何如此激烈

偉偉道來 | 伊朗的反應為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復趙心童、丁俊暉:一起加油,永遠的大哥

吳宜澤社媒回復趙心童、丁俊暉:一起加油,永遠的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學,穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學,穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認定

被延長的搶救時間,被卡住的工傷認定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

科技要聞

“馬斯克不懂AI”:OpenAI當庭戳老底

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

汽車要聞

領克10/領克10+ 無論能源形式 領克都要快樂

態(tài)度原創(chuàng)

數(shù)碼
手機
藝術(shù)
健康
本地

數(shù)碼要聞

七彩虹戰(zhàn)斧B860M超級黑刃主板圖賞:899元的“千元旗艦”

手機要聞

谷歌推送5月Pixel手機更新,修復無線充電慢、相機卡死等問題

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

干細胞治燒燙傷面臨這些“瓶頸”

本地新聞

用青花瓷的方式,打開西溪濕地

無障礙瀏覽 進入關(guān)懷版