国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

蘋果新論文發(fā)出驚人一問:What do your logits know?

0
分享至



編輯|Panda

近日,有個大新聞:執(zhí)掌蘋果超過 14 年的蒂姆?庫克宣布將于 9 月正式卸任 CEO 職位,將接力棒交接給現(xiàn)任硬件工程高級副總裁約翰?特努斯?;仡檸炜藭r代,人們津津樂道于他極致的供應(yīng)鏈管理藝術(shù)以及帶領(lǐng)蘋果市值一路飆升至 4 萬億美元的旅程。

然而,在這個由生成式 AI 主導(dǎo)的全新十年里,特努斯接手的將是一個亟需在 AI 領(lǐng)域證明自己的蘋果。

蘋果近年來在 AI 底層技術(shù)層面的投入正在不斷加碼。恰在此時,蘋果 AI 研究團隊提交了一篇極具探討價值的論文《你的 logits 知道些什么?(答案可能會讓你驚訝!)



  • 論文標(biāo)題:What do your logits know? (The answer may surprise you!)
  • 論文地址:https://arxiv.org/abs/2604.09885

這項研究觸及了大模型運作的最底層邏輯,也直接關(guān)乎蘋果最為看重的核心價值:用戶隱私與數(shù)據(jù)安全

接下來,我們就基于這篇論文,看看大模型在回答簡單問題時,究竟在底層「偷偷」記住了多少你的秘密。



核心概念:信息瓶頸原則

要理解這篇論文,我們首先需要了解一個關(guān)鍵概念:信息瓶頸原則 (Information Bottleneck Principle)

打個比方,假設(shè)你是一家大型跨國公司的 CEO,你需要決定是否收購一家初創(chuàng)企業(yè)。你的基層調(diào)研團隊會收集海量的信息,包括該公司的財務(wù)報表、員工的午餐喜好、辦公室的裝修風(fēng)格等。

但是,當(dāng)這份報告層層遞交,最終放到你的辦公桌上時,它應(yīng)該被大幅壓縮,只保留那些對「收購」決策至關(guān)重要的財務(wù)和技術(shù)指標(biāo)。保留多余的無效信息不僅會干擾你的判斷,還可能導(dǎo)致決策失誤。

對于視覺-語言-模型 (VLM) 也是同理。

舉個例子,你有一張信息量很大的照片,并將其上傳給模型,并詢問「圖片里有一只灰色的貓嗎?請用一個詞回答」。根據(jù)信息瓶頸原則,一個理想的模型在最終輸出「Yes」或「No」時,應(yīng)該早就把背景里的沙發(fā)顏色、窗外的天氣等無關(guān)信息全部過濾掉了。

但蘋果這篇論文提出一個疑問:模型真的做到了徹底遺忘嗎?

為了找出答案,研究人員截取了模型處理信息的不同階段進行測試。具體來說,他們主要考察了以下兩個代表性的層級:

  • 殘差流 (Residual Stream):這相當(dāng)于公司底層收集數(shù)據(jù)的龐大數(shù)據(jù)庫。它包含了模型在處理過程中的所有隱藏狀態(tài)。
  • 最終的 Logits:Logits 是模型在輸出最后一個詞之前,針對詞典里每一個詞匯打出的原始概率得分。取排名前列的候選詞得分,就是 top-k logits。這就好比呈遞給 CEO 的最終選項清單。

實驗設(shè)計

研究人員引入了一個名為「探針」(Probes)的輕量級神經(jīng)網(wǎng)絡(luò)工具。探針的作用,就是專門盯著模型特定層級的數(shù)據(jù),試圖從中強行推測出圖片的原始屬性。

實驗使用了兩個主要數(shù)據(jù)集。一個是完全由人造幾何圖形組成的 CLEVR 數(shù)據(jù)集,里面包含各種大小、顏色和材質(zhì)的立方體或球體。另一個是包含復(fù)雜真實生活場景的 MSCOCO 數(shù)據(jù)集。

研究人員對圖片進行了各種干擾,比如加入高斯噪聲、玻璃模糊或運動模糊。



隨后,他們向模型提問。在獲得模型的內(nèi)部數(shù)據(jù)后,他們訓(xùn)練探針,看看能不能從殘差流或最終的 logits 中,反向推斷出圖片加入的噪聲級別、目標(biāo)物體的顏色,甚至是沒有被提問到的背景物體的特征。

在干擾測試中,研究人員還發(fā)現(xiàn)了一個有趣的現(xiàn)象。當(dāng)施加最嚴(yán)重的高斯噪聲時,Qwen3-VL 模型的準(zhǔn)確率受到了極大的影響,傾向于將答案由「Yes」翻轉(zhuǎn)為「No」,而 LLAMA 模型在面對高斯噪聲時則展現(xiàn)出了相對更強的穩(wěn)定性。這些不同的表現(xiàn)反映了各模型在提取決策相關(guān)信息時的內(nèi)部差異。

七大發(fā)現(xiàn)

通過測試,蘋果團隊得出了一系列揭示模型底層機制的結(jié)論,完整展現(xiàn)了信息在模型內(nèi)部的留存狀態(tài)。





發(fā)現(xiàn)一:殘差流是全知全能的 Oracle

在處理視覺輸入時,殘差流幾乎原封不動地保留了圖片的一切細(xì)節(jié)。

研究表明,無論是與最終決策直接相關(guān)的圖像噪聲類型,還是目標(biāo)物體的形狀和顏色,亦或是完全無關(guān)的背景物體數(shù)量與屬性,探針都能從表現(xiàn)最好的隱藏層狀態(tài)中以接近完美的準(zhǔn)確率提取出來。在這一層,模型就像一個過目不忘的偷窺者,尚未執(zhí)行任何有效的信息壓縮。

發(fā)現(xiàn)二:殘差流的低維投影同樣「藏不住秘密」

為了觀察信息如何向最終輸出過渡,研究人員使用了 Tuned Lens 技術(shù)來提取殘差流向 Logit 空間映射的演變軌跡。

測試表明,即使僅僅觀察排名前 2 的預(yù)測軌跡 (trajectory-2) ,探針不僅能提取出大量目標(biāo)和決策相關(guān)的核心信息,依然會輕易讀取出諸多背景物體的特征。這印證了此前業(yè)內(nèi)關(guān)于語言模型隱藏狀態(tài)易遭秘密提取的研究,證明這些深層軌跡并沒有遵循理想的信息瓶頸原則進行有效的過濾。

發(fā)現(xiàn)三:最終層 Logits 可靠地編碼了決策與目標(biāo)信息

在模型即將生成回答的最后一層,信息壓縮確實發(fā)生了,但遠(yuǎn)不夠徹底。

僅觀察排名前 2 的最終 Logits (即對應(yīng)「Yes」和「No」的得分),探針就能以極高的準(zhǔn)確率預(yù)測出影響模型決策的圖像噪聲級別和類型。

而當(dāng)觀察的候選詞匯數(shù)量增加到包含所有大小寫的 yes/no 變體( k 約等于 10 至 13 )時,目標(biāo)物體的各類屬性信息就開始變得清晰可解碼,并在提取數(shù)量等同于模型層數(shù)( 1L ,約 30 至 40 個候選詞)時達到預(yù)測的準(zhǔn)確率巔峰。

發(fā)現(xiàn)四:最終 Logits 悄悄記住了提示詞「未提及」的目標(biāo)屬性

這是引發(fā)嚴(yán)重安全擔(dān)憂的核心發(fā)現(xiàn)。

假設(shè)我們向模型提問「圖片里有一個藍色的圓柱體嗎?」,雖然提示詞明確給出了顏色和形狀,但完全沒有提及該物體的材質(zhì)和大小。然而,探針依然能從模型最終輸出的前 0.5L 數(shù)量的候選項中,極其可靠地預(yù)測出這個圓柱體究竟是橡膠還是金屬材質(zhì)的,以及它的具體尺寸。

這意味著模型為了得出最終結(jié)論,不僅調(diào)用了相關(guān)特征,還將冗余的目標(biāo)特征作為伴生數(shù)據(jù)一并帶到了極易暴露的表層。

發(fā)現(xiàn)五:最終 Logits 甚至充當(dāng)了環(huán)境的「錄像機」

除了緊盯目標(biāo)物體,最終層的 Logits 還在暗中記錄著周圍的環(huán)境。

雖然排名前 2 的 Logits 幾乎不包含背景信息,但只要觀察的候選詞數(shù)量稍微增加,這些看似只有單個單詞的表層輸出分布,就能顯著且高于隨機水平地預(yù)測出場景中非目標(biāo)物體(如背景中的其他幾何體)的數(shù)量、顏色等屬性。只需獲取適量的輸出分布數(shù)據(jù),不相干的背景隱私便無處遁形。



發(fā)現(xiàn)六:泄密往往只需要前 60 個左右的 Logits (呈 U 型曲線)

研究團隊觀察到了一個有趣的預(yù)測能力 U 型曲線。

僅看排名前 2 的候選詞時,模型幾乎只暴露噪聲信息;增加觀察數(shù)量后,探針的預(yù)測準(zhǔn)確率會迅速攀升,并在截取 30 至 80 個 Logits (視具體模型深度 1L 或 2L 而定)時達到頂峰。如果繼續(xù)擴大 Logits 集合到 4L 或 5L 以上,預(yù)測能力反而會因為高維噪聲干擾而跌落回隨機水平。

這表明,惡意提取者根本不需要獲取龐大的完整輸出詞表,極少量的頭部候選詞匯就是泄密的重災(zāi)區(qū)。

發(fā)現(xiàn)七:在同等維度下,最終 Logits 的風(fēng)險與深層破解無異

過去的黑客或研究者想提取大模型底層的機密知識,往往需要采用白盒手段獲取模型內(nèi)部的參數(shù)軌跡,門檻極高。

但這項研究揭示了一個殘酷的現(xiàn)實:如果保持相同的觀察維度,提取模型最表層且經(jīng)常通過 API 對外開放的最終層 top-k Logits (通常只需要截取 2L 數(shù)量),其泄露無關(guān)信息的能力與需要極高權(quán)限的深層日志軌跡幾乎完全相當(dāng)。這打破了業(yè)內(nèi)對于灰盒 API 訪問具有天然安全屏障的傳統(tǒng)幻想。

技術(shù)背后的深遠(yuǎn)隱憂:隱私與大模型安全

在大概理解了實驗過程之后,我們不禁要問,這到底意味著什么?

蘋果團隊敏銳地指出了這一現(xiàn)象背后的巨大安全隱患。

在實際的商業(yè)應(yīng)用中,許多 API 接口或服務(wù)提供商為了讓開發(fā)者調(diào)整參數(shù),會公開模型最終的 top-k 對數(shù)概率,這就是所謂的灰盒場景。

這意味著,當(dāng)用戶上傳一張包含隱私信息的照片,僅僅是讓模型執(zhí)行一個無關(guān)痛癢的視覺問答任務(wù)時,模型看似只輸出了一個「Yes」或者一段簡短的文字,但其背后附帶的那幾十個最高概率詞匯的得分分布,已經(jīng)悄悄把你照片里的背景信息、潛在的敏感屬性泄露給了能夠獲取這些數(shù)據(jù)的服務(wù)端或惡意截獲者。

惡意攻擊者完全可以通過反復(fù)抽樣和探測,從這些看似無害的輸出概率中還原出用戶的隱私數(shù)據(jù)。

此外,從模型自身的性能優(yōu)化角度來看,這種信息壓縮的失敗也解釋了為什么大模型經(jīng)常會產(chǎn)生幻覺。那些徘徊在頂層 logits 中的無關(guān)信息,在非貪婪解碼的生成過程中,隨時可能對最終生成的文本產(chǎn)生干擾,導(dǎo)致模型輸出帶有偏見或虛假的內(nèi)容。

結(jié)語

「What do your logits know?」這個論文標(biāo)題中問題堪稱懸在生成式 AI 頭頂?shù)囊话堰_摩克利斯之劍。

蒂姆?庫克帶領(lǐng)蘋果建立起了世界上最高效的科技商業(yè)帝國,而當(dāng)接力棒傳到約翰 特努斯手中時,如何打造既高度智能又絕對保護隱私的下一代計算平臺,將是蘋果無法回避的新命題。

這篇論文告訴我們,在大模型的黑盒子里,即使是看似無害的一組概率數(shù)字,也可能隱藏著你的秘密。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟觀察報
2026-05-06 11:40:46
吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

吳宜澤透露拿到獎金后準(zhǔn)備在英國買房,50萬英鎊獎金需交稅超23萬鎊,實際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個隱私,是性感嗎?

女性跑步:暴露這個隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個人,沒一個在出現(xiàn)場

侃故事的阿慶
2026-05-06 09:21:32
被延長的搶救時間,被卡住的工傷認(rèn)定

被延長的搶救時間,被卡住的工傷認(rèn)定

新京報
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

伯納烏大地震!皇馬放話出售姆巴佩,天價報價就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報
2026-05-06 12:38:05
中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時向全球下達禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

教育要聞

“臥槽”是感嘆詞,不應(yīng)該是動詞

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險被邀免費游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財經(jīng)要聞

人形機器人七小龍:誰真能賣 誰在講故事?

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

本地
親子
時尚
教育
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

52歲王小騫做夢也沒想到,患上矮小癥的女兒,如今竟然迎來了逆襲

卷首語|這屆年輕人,全員渡劫奧德賽

教育要聞

六條邏輯主線替代四個大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版