国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

毀三觀!被中國研究員扒出AI 論文造假后,蘋果竟然直接刪庫跑路了!

0
分享至

ICLR 2026 (國際學術表征會議)將于明年 4 月在巴西里約熱內盧召開。目前(11 月11 日—12月3 日 )為論文的作者-評審階段。

最近,這個國際頂級 AI 會議,爆出了個“讓業(yè)界都震驚了”的大丑聞。

征集階段,蘋果研究團隊提交了一篇論文,標題為《推理究竟哪里出錯了?》(Where Did the Reasoning Go Wrong?) 。


這篇論文提出名為 PRISM-Bench 的基準測試,稱能專門檢測多模態(tài)大模型在推理時的第一處錯誤。


論文被上!半A躍星辰”研究員 Lei yang看到后,他把階躍星辰模型適配到 Benchmark 上做了實驗。

結果,他發(fā)現(xiàn)自家模型跑分,低得離譜。

于是,他開始排查自己的集成方式,但在查閱 Apple 官方代碼時,他看到了一個震碎三觀的低級 Bug

在調用視覺語言模型進行推理時,本該傳入圖片像素數(shù)據(jù),代碼卻錯誤地只傳了圖片的存儲路徑字符串。

也就是說,模型壓根沒看到圖,只是讀到了一行類似“D盤/圖片/01.jpg”的文字


于是, Lei Yang 順手改了 Bug,還把真正的圖片傳了進去。

結果,分數(shù)反而更低了。

這意味著,在蘋果公司提交的這個 Benchmark 里,模型瞎蒙的效果,比實際看圖還要好。

也就是說,其數(shù)據(jù)集本身存在巨大的邏輯漏洞,或者更可能的是,純粹是為了湊數(shù)的擺設。

帶著這個懷疑, Lei Yang 決定放棄代碼,直接人工檢查數(shù)據(jù)。

他隨機選擇了模型答錯的前20道題,結果,有 6 個題的標準答案本身就是錯的。

真是震碎了三觀!

就此, Lei Yang在 GitHub 上認真提交了一個問題反饋。

沒想到,接下來 Apple 作者團隊的操作,讓人大跌眼鏡。

6 天后,他們敷衍的給出了一個簡短回復,然后,然后,就連夜撤稿,刪庫跑路了!



之后,Lei Yang 提出強烈抗議,他們才又不得不重新恢復。

被蘋果式傲慢激怒的Lei Yang,最后選擇了將這一丑聞公之于眾。


他用“可怕的錯誤”來形容蘋果論文的 bug,公布了 20 道題的測試文件,還表示,這些示例的“真實推理過程”也包含大量幻覺和錯誤。

比如,在論文附錄的 Figure 11 里,題目要求找一條直線和一條曲線,圖里明明是相切,AI 生成的“正確推理”,卻說這一步錯了,理由是“這圖里展示的是相交” 。


更吊詭的是,有網(wǎng)友查詢蘋果論文原文發(fā)現(xiàn),在第 4 頁上煞有介事的寫著,“所有的思維鏈都經(jīng)過標注員審查,以確保……錯誤位置清晰明確”。


簡直是自欺欺人!

還有更恐怖的。在該論文的 Table 2 中,作者列出了一大堆模型在這個 Benchmark 上的跑分。比如,GPT-5 跑了 52.6%,Qwen2.5-VL 跑了 57.0%。


這些精確到小數(shù)點后一位的分數(shù),到底是怎么跑出來的?!。

除了蘋果公司本身的不靠譜,還可以繼續(xù)追問的是,這篇論文有 5 位審稿人,而論文發(fā)表的場合 ICLR,更是AI 界的頂級會議。這些評審都在做啥?

我們來看看審稿人們的評價。


這位審稿人評價為Soundness: 4 excellent(可靠性:極佳)的評價。


這位審稿人的評價是Soundness: 3 good(可靠性:3 良好),并稱其“提供了詳細的復現(xiàn)細節(jié)”。

這顯然與Lei Yang的復現(xiàn)結果大相徑庭,這位評審真的去認真復現(xiàn)了么?

有網(wǎng)友揭秘稱,蘋果從2023年開始,每年發(fā)一篇實際上并不靠譜的論文,詆毀大模型。

比如,2023 年的《ReLU 強勢回歸:利用大語言模型的激活稀疏性》,2024 年的

《GSM?Symbolic:理解大語言模型在數(shù)學推理中的局限性》。

開始時,還有很多人叫好,去年開始受到不少質疑,沒想到今年就翻車了,而且還這么徹底。

沒想到高大上的蘋果公司,還有 AI 頂級學術界,也會“草臺班子”如此。

幸好還有來自中國上海 AI 公司階躍星辰的這位較真的Lei Yang!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古代講究血脈傳承,五代十國時期為何流行收義子,盛行假子繼位

古代講究血脈傳承,五代十國時期為何流行收義子,盛行假子繼位

長風文史
2026-01-26 20:05:39
拒絕回歸曼城!除非瓜帥下課!英超mvp太高調,還在記恨當年替補

拒絕回歸曼城!除非瓜帥下課!英超mvp太高調,還在記恨當年替補

阿泰希特
2026-01-27 12:24:53
伊朗內部傳出消息:哈梅內伊躲入地堡,三兒子出面與外界聯(lián)系

伊朗內部傳出消息:哈梅內伊躲入地堡,三兒子出面與外界聯(lián)系

阿器談史
2026-01-26 02:58:44
馬斯克最擔心的事情來了,阿里投資了核電站!

馬斯克最擔心的事情來了,阿里投資了核電站!

花朵財經(jīng)
2026-01-27 18:28:55
河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

兵叔評說
2026-01-27 11:27:18
紫金礦業(yè)成交額創(chuàng)上市以來新高

紫金礦業(yè)成交額創(chuàng)上市以來新高

證券時報
2026-01-27 14:43:05
不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

不到48小時,特朗普身體傳噩耗,34國軍方高官集合,對英緊急改口

通鑒史智
2026-01-27 19:58:50
收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

收受21名老板現(xiàn)金、黃金、書畫等賄賂,來者不拒、大小通吃!武華太懺悔:“害了家人,害了親屬,害了下屬,害了一大堆人……”

每日經(jīng)濟新聞
2026-01-27 18:34:50
投資20億!同程中心總部大廈開工,蘇州未來新地標!

投資20億!同程中心總部大廈開工,蘇州未來新地標!

GA環(huán)球建筑
2026-01-26 18:02:24
逝者 | 前山東泰山主帥去世,曾自薦執(zhí)教國足

逝者 | 前山東泰山主帥去世,曾自薦執(zhí)教國足

天津廣播
2026-01-27 20:21:35
就在今天!申京打破塵封46年紀錄,登頂火箭隊史第一

就在今天!申京打破塵封46年紀錄,登頂火箭隊史第一

籃球大視野
2026-01-27 17:16:47
澳網(wǎng)男單四強決出兩席:阿卡解鎖全四強,半決賽戰(zhàn)茲維列夫

澳網(wǎng)男單四強決出兩席:阿卡解鎖全四強,半決賽戰(zhàn)茲維列夫

全景體育V
2026-01-27 19:57:57
特斯拉Model 3銷售:七成客戶只買23.55萬元入門款

特斯拉Model 3銷售:七成客戶只買23.55萬元入門款

CNMO科技
2026-01-27 10:26:03
10中2!正負值-20!勇士神射手徹底沒救了

10中2!正負值-20!勇士神射手徹底沒救了

籃球教學論壇
2026-01-27 18:39:36
紀實:女子強迫情夫老公三人同床,逼丈夫看兩人茍合,結局釀慘案

紀實:女子強迫情夫老公三人同床,逼丈夫看兩人茍合,結局釀慘案

談史論天地
2026-01-23 10:04:14
驚天大瓜,全民都在吃

驚天大瓜,全民都在吃

我是歷史其實挺有趣
2026-01-27 18:21:33
近3戰(zhàn)場均10助2斷!火箭找到控衛(wèi)答案?范甘迪:本賽季的DPOY熱門

近3戰(zhàn)場均10助2斷!火箭找到控衛(wèi)答案?范甘迪:本賽季的DPOY熱門

你的籃球頻道
2026-01-27 13:57:49
1月25日起正式實施;日本涉島法案通過,中國加速增兵,奉陪到底

1月25日起正式實施;日本涉島法案通過,中國加速增兵,奉陪到底

通文知史
2026-01-26 18:15:03
《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準?

《白鹿原》里的兩家大戶,日常只吃油潑面,首富就這種水準?

收藏大視界
2026-01-25 17:56:42
后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

后悔也晚了!大批F35逼到家門口,伊朗卻發(fā)現(xiàn)紅旗9和殲10還未到位

文雅筆墨
2026-01-25 03:11:20
2026-01-27 20:59:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
421文章數(shù) 40關注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關鍵信息

頭條要聞

回擊特朗普 印度與歐盟達成"史上最大規(guī)模協(xié)議"

頭條要聞

回擊特朗普 印度與歐盟達成"史上最大規(guī)模協(xié)議"

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學?

娛樂要聞

張雨綺被曝代孕,春晚被拒,代言跑路

財經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

態(tài)度原創(chuàng)

家居
親子
藝術
房產(chǎn)
公開課

家居要聞

現(xiàn)代古典 中性又顯韻味

親子要聞

新聞8點見丨被販賣的產(chǎn)后焦慮;大廠AI爭奪戰(zhàn),誰在掉隊?

藝術要聞

日本東京國立博物館中的100幅宋畫

房產(chǎn)要聞

實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版