国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

有人只用API就猜出了GPT、Claude、Gemini的參數(shù)量?社區(qū)吵翻了

0
分享至



機器之心編輯部

最近,研究人員李博杰在 arXiv 發(fā)布論文,提出一個名為「不可壓縮知識探針」的評測框架,嘗試僅通過黑盒 API 調用,來逆向估算任意 LLM 的參數(shù)規(guī)模。



  • 論文標題:Incompressible Knowledge Probes: Estimating Black-Box LLM Parameter Counts via Factual Capacity
  • 論文地址:https://arxiv.org/pdf/2604.24827

該研究的靈感源于一項持續(xù)三年的非正式測試。據(jù)李博杰介紹,其團隊成員長期向各代主流大模型提出同一個冷門問題:「你了解中科大 Hackergame 嗎?」(一項 CTF 網(wǎng)絡安全競賽)。



跨越多個版本的觀察結果,直觀展示了模型對世界知識認知的發(fā)展:2024 年 5 月,GPT-4o 對該賽事題目存在明顯的「幻覺」與編造;至 2025 年 2 月,Claude 3.7 Sonnet 已能準確列出 2023 年賽季的 19 道題目;而到了 2026 年 4 月,多個前沿模型已能精確回憶起連續(xù)多屆賽事的具體細節(jié)。

受此啟發(fā),在 DeepSeek-V4 發(fā)布后,研究團隊利用 AI Agent 歷時四天自主構建了完整的 IKP 正式數(shù)據(jù)集。該數(shù)據(jù)集包含 1400 個問題,按信息的稀缺程度劃分為 7 個層級,并在涵蓋 27 家廠商的 188 個模型上進行了全面測試。

研究的核心假設在于:模型的邏輯推理能力可以通過訓練技巧被壓縮或蒸餾,但對冷門「事實性知識」的記憶容量則無法大幅壓縮,其主要取決于模型的物理參數(shù)規(guī)模。

基于此,研究者在 89 個參數(shù)量已知的開源模型(規(guī)模從 1.35 億到 1.6 萬億參數(shù))上擬合出事實準確率與參數(shù)量的對數(shù)線性關系,擬合優(yōu)度 R2 = 0.917,并據(jù)此對閉源模型進行參數(shù)估算。

根據(jù)該方法,論文給出的估算數(shù)字(90% 置信區(qū)間約為 0.3 至 3 倍)如下:

  • GPT-5.5:約 9 萬億參數(shù)
  • Claude Opus 4.7:約 4 萬億參數(shù)
  • GPT-5.4:約 2.2 萬億參數(shù)
  • Claude Sonnet 4.6:約 1.7 萬億參數(shù)
  • Gemini 2.5 Pro:約 1.2 萬億參數(shù)

論文同時指出另外兩項發(fā)現(xiàn):

一是引用數(shù)量和 h 指數(shù)并不能有效預測研究者是否被模型記住,模型更傾向于記住那些產(chǎn)生了領域性影響的工作,而非高產(chǎn)但影響相對分散的學者;

二是跨越三年的 96 個開源模型數(shù)據(jù)顯示,事實記憶容量的時間系數(shù)在統(tǒng)計上接近于零,這與此前「Densing Law」所預測的效率隨時間提升的規(guī)律相悖,研究者據(jù)此認為推理能力基準趨于飽和,而事實容量仍主要受制于參數(shù)規(guī)模。

這組直觀的數(shù)據(jù)迅速在技術社區(qū)傳播并引發(fā)廣泛討論,但也伴隨著巨大的爭議。



有博主基于這組估算數(shù)據(jù),結合近期 Claude Opus 4.7 在部分長文本任務中的主觀體驗波動,推演出一套完整的邏輯:Anthropic 因算力儲備不足(僅為 OpenAI 的四分之一),在訓練 Mythos 模型后資源見底,被迫將 Opus 4.7 的參數(shù)量從上一代的 5.3T 「反向升級」閹割至 4T;而 OpenAI 則憑借充足的算力將 GPT-5.5 堆到了 9T,從而實現(xiàn)了體驗上的反轉。



也有多位研究者和從業(yè)者對估算數(shù)字及方法論提出了不同程度的質疑。

對于 GPT-5.5 約 9 萬億參數(shù)的估算,部分用戶認為與實際服務能力不符,指出若規(guī)模真達到這一量級,OpenAI 現(xiàn)有基礎設施難以支撐此前的推出方式,且 GPT-5.4 到 GPT-5.5 的性能提升幅度與 10 倍參數(shù)差距并不匹配。有人認為兩者規(guī)模比約在 2 倍左右更為合理。



同時,定向引入「合成數(shù)據(jù)」進行微調,同樣能顯著提升模型對冷門知識的掌握度,這會直接干擾「事實知識不可壓縮」的核心前提。



根據(jù)該方法估算,Gemini 2.5 Pro 和 Claude Sonnet 的規(guī)模約 1.7T,而行業(yè)已知國內模型 Kimi k2.6 和 GLM 5.1 約為 800B。若參數(shù)差距僅在兩倍左右,單純的數(shù)據(jù)差異極難解釋目前兩者間的巨大性能鴻溝。



此外,業(yè)內長期流傳的 GPT-4 規(guī)模約 1.7T,這與論文估算的結果出入極大。



發(fā)起討論的另一位 X 博主也補充說明:「這些數(shù)字不應被視為事實,置信區(qū)間非常大,我私下收到的反饋表明某些模型的估算可能相差甚遠!



當然,在爭議與質疑之外,技術社區(qū)中也涌現(xiàn)出了許多極具建設性的正向探討。

例如,有用戶認為 MoE 架構和稠密模型在知識壓縮效率上可能存在本質不同(MoE 的事實可能被分散在不同專家中),建議將這兩類模型分開統(tǒng)計以觀察趨勢。







對這組數(shù)據(jù)你怎么看?

https://x.com/deedydas/status/2049523583517634862

https://x.com/bojie_li/status/2049314403208896521

https://www.zhihu.com/pin/2032769685012361774

https://x.com/yiran2037840/status/2049827667034439821

https://x.com/Yampeleg/status/2049573913399607711

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扎心了!女兒頻繁用生殖器官類詞匯辱罵父母,一家長哭訴引發(fā)熱議

扎心了!女兒頻繁用生殖器官類詞匯辱罵父母,一家長哭訴引發(fā)熱議

火山詩話
2026-04-30 07:03:35
五糧液在為誰擦屁股?

五糧液在為誰擦屁股?

不正確
2026-05-01 20:54:58
60比86慘敗26分!女籃勁敵熱身賽輸麻了:日本隊世界杯前景堪憂?

60比86慘敗26分!女籃勁敵熱身賽輸麻了:日本隊世界杯前景堪憂?

籃球快餐車
2026-05-01 05:52:28
冠軍相?成都蓉城3-2絕殺上海申花 本賽季第四次逆轉取勝

冠軍相?成都蓉城3-2絕殺上海申花 本賽季第四次逆轉取勝

封面新聞
2026-05-01 23:08:04
老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

老公走了,我養(yǎng)大三個小叔子,今年我住院,他們的表現(xiàn)讓我覺得值

千秋文化
2026-04-28 20:26:34
轎車掉頭壓死狗狗后直接開走,狗主人報警:對方拒絕賠償2000元,只愿意重新購買一只

轎車掉頭壓死狗狗后直接開走,狗主人報警:對方拒絕賠償2000元,只愿意重新購買一只

觀威海
2026-04-30 16:00:06
你們都是什么時候對男女之事開竅的?網(wǎng)友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網(wǎng)友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
南開大學通報“教師陳某發(fā)表的相關論文數(shù)據(jù)存疑”:啟動調查程序

南開大學通報“教師陳某發(fā)表的相關論文數(shù)據(jù)存疑”:啟動調查程序

環(huán)球網(wǎng)資訊
2026-05-01 13:02:10
4 月車市真實成績單:比亞迪狂賣 38 萬,零跑暴漲 73.9%,燃油車涼透

4 月車市真實成績單:比亞迪狂賣 38 萬,零跑暴漲 73.9%,燃油車涼透

西莫的藝術宮殿
2026-05-01 21:00:47
總分不足420!2026廣東二模各科平均分公布,數(shù)學51.8,物理45.4

總分不足420!2026廣東二模各科平均分公布,數(shù)學51.8,物理45.4

馬蹄燙嘴說美食
2026-05-01 18:27:53
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
誰家的公子?中國籍男子日本7車連環(huán)撞!3人重傷,警察也被撞飛!

誰家的公子?中國籍男子日本7車連環(huán)撞!3人重傷,警察也被撞飛!

眼光很亮
2026-05-01 13:22:25
觀察:上海最大的“八萬人”體育場,今沖擊上海文體上座率“三大紀錄”!

觀察:上海最大的“八萬人”體育場,今沖擊上海文體上座率“三大紀錄”!

上觀新聞
2026-05-01 04:31:07
68歲京城老炮“四寶子”大婚!妻子小其30多歲,發(fā)小加代家人缺席

68歲京城老炮“四寶子”大婚!妻子小其30多歲,發(fā)小加代家人缺席

觀察鑒娛
2026-05-01 08:55:16
凱特穿戴妃舊衣替查爾斯出席活動,這樣的手腕梅根八輩子也學不會

凱特穿戴妃舊衣替查爾斯出席活動,這樣的手腕梅根八輩子也學不會

白露文娛志
2026-05-01 23:09:16
徹底失敗了!卡米拉王后國宴造型太拉胯,頂配身份珠寶盡顯廉價感

徹底失敗了!卡米拉王后國宴造型太拉胯,頂配身份珠寶盡顯廉價感

夸大其詞的說
2026-04-29 14:25:15
又一國產(chǎn)車要復活了

又一國產(chǎn)車要復活了

放毒
2026-05-01 12:16:09
天!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

天!看到1987年春晚觀眾席的遲重瑞,才懂陳麗華為啥一見鐘情

真的八卦小學弟
2026-04-12 00:30:12
文萊最帥王子帶女兒見國王,混血王妃稍顯圓潤,但是依舊很美

文萊最帥王子帶女兒見國王,混血王妃稍顯圓潤,但是依舊很美

小書生吃瓜
2026-04-30 21:42:40
年輕人開始沉浸“拼豆”:有店主3個月開7家店,有人拼出《清明上河圖》

年輕人開始沉浸“拼豆”:有店主3個月開7家店,有人拼出《清明上河圖》

齊魯壹點
2026-02-01 07:53:34
2026-05-02 00:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12902文章數(shù) 142639關注度
往期回顧 全部

科技要聞

DeepSeek發(fā)布多模態(tài)論文又連夜刪除

頭條要聞

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

頭條要聞

美國也搞起"人肉代購" "去墨西哥買中國車"教程瘋傳

體育要聞

無奈!約基奇:這要在塞爾維亞 全隊早被炒了

娛樂要聞

馬筱梅產(chǎn)后身材恢復超好 現(xiàn)身戶外直播

財經(jīng)要聞

GPU神話松動,AI真正的戰(zhàn)場變了

汽車要聞

限時9.67萬起 吉利星越L/星瑞i-HEV智擎混動上市

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
時尚
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

數(shù)碼要聞

華碩官宣洛天依“出席”天選2026新品發(fā)布會,將有聯(lián)名新品

教育要聞

五一首日熱度爆棚!秦淮區(qū)中招會傳來最新消息!

這個夏天,彩色褲子又火了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版