国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

全網(wǎng)破防,AI「手指難題」翻車逼瘋?cè)祟悾?根手指,暴露Transformer致命缺陷

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】最近,網(wǎng)友們已經(jīng)被AI「手指難題」逼瘋了。給AI一支六指手,它始終無(wú)法正確數(shù)出到底有幾根手指!說(shuō)吧AI,你是不是在嘲笑人類?其實(shí)這背后,暗藏著Transformer架構(gòu)的「阿喀琉斯之踵」……

最近幾天,整個(gè)互聯(lián)網(wǎng)陷入陰影——

AI,在用數(shù)手指嘲笑人類。


人類給AI的這道題,指令很簡(jiǎn)單:在圖中的每根手指上,依次標(biāo)出數(shù)字。

當(dāng)然題目中有個(gè)小陷阱,就是這只手其實(shí)有六個(gè)手指。

結(jié)果,Nano Banana Pro理直氣壯地在這只手上標(biāo)出1、2、3、4、5,直接略過(guò)了其中一只手指。

這荒誕的場(chǎng)面,再一次震驚了網(wǎng)友們。

AI模型是真的這么傻嗎?

很多人不這么認(rèn)為——或許,AI只是在裝傻,調(diào)戲人類而已。

很有可能,它是在嘲笑這些試圖測(cè)試自己的劣質(zhì)人類。



為了通過(guò)圖靈測(cè)試,AI必須讓自己變得愚蠢一點(diǎn),才能看起來(lái)像人類。如果太聰明,人類就破防了。


GPT-5.2,同樣翻車了

有人也拿這個(gè)問(wèn)題去問(wèn)GPT-5.2,而且prompt里明明白白寫(xiě)了圖里有六根手指。

但GPT-5.2面對(duì)「圖里有幾根手指」的問(wèn)題,還是斬釘截鐵地說(shuō):五根!

理由就是:人類有五根手指,所以圖里沒(méi)有五根手指就是錯(cuò)的。


還有人把手指畫(huà)得奇形怪狀,人類都要難倒的地步。

但面對(duì)這張圖,Nano Banana Pro依然斬釘截鐵地回答:5根,我確信,就是5根!


總之,無(wú)論畫(huà)成什么樣子,AI始終無(wú)法數(shù)出6根手指。


為了讓AI數(shù)對(duì)手指,網(wǎng)友們瘋了

有人不信邪了,非要讓模型畫(huà)對(duì)數(shù)字不可。

他直接給出指令:把4左移一個(gè)手指,把5左移一個(gè)手指,然后在大拇指那里寫(xiě)上6。

夠清晰了吧?結(jié)果,模型照樣不聽(tīng),直接把3給弄沒(méi)了。


網(wǎng)友直接原地被逼瘋。


其他網(wǎng)友為了幫他,奇招百出,比如讓模型把手畫(huà)的數(shù)字改成電子版的,總算成功了。



也有人告訴模型依次在小指到大拇指上放數(shù)字,不要重復(fù),結(jié)果也成功了。


AI數(shù)手指,為什么數(shù)不對(duì)

所以,為什么AI很難數(shù)對(duì)幾根手指呢?

有人給出這樣的解釋:AI找的是基本形狀,而非精確圖像,然后將該形狀代表的傳統(tǒng)認(rèn)知和實(shí)際外觀進(jìn)行比較。


有人猜,是否能告訴AI這不是手,而是不規(guī)則物體,從而規(guī)避掉AI大腦中的「偏見(jiàn)」?

結(jié)果,他果然成功了。



網(wǎng)友們隨后試驗(yàn)了各種奇形怪狀的手,果然,這回Gemini就答對(duì)了。



或許AI之前已經(jīng)被訓(xùn)練了識(shí)別特定的emoji,如果換成別的圖,它反而可以做正確的視覺(jué)推理了。

手指難題,AI目前的大bug

這次AI數(shù)手指大翻車,也揭露了當(dāng)前模型的一個(gè)關(guān)鍵缺陷——思考的機(jī)械和割裂。

很有可能,文本模型看到指令后,內(nèi)部邏輯是這樣的:「手有五根手指,所以需要五個(gè)數(shù)字?!?/p>

所以,即使它「看到」了六指圖像,它的視覺(jué)識(shí)別能力也不足以糾正這種根深蒂固的文本認(rèn)知。

為什么AI如此執(zhí)著于「五指」的概念?這是源于它訓(xùn)練數(shù)據(jù)的基本特征。

在人類手部圖像數(shù)據(jù)中,五指手占據(jù)絕對(duì)主導(dǎo)地位。

而模型已經(jīng)從海量數(shù)據(jù)中學(xué)到「人手=五指」這一強(qiáng)關(guān)聯(lián),以至于當(dāng)情況偏離這一情況時(shí),模型會(huì)視為異常,自動(dòng)糾錯(cuò),而并不會(huì)認(rèn)為自己需要理解一個(gè)新事實(shí)。


具體來(lái)說(shuō),當(dāng)前AI視覺(jué)系統(tǒng)的工作方式,本質(zhì)上是將復(fù)雜場(chǎng)景簡(jiǎn)化為一組可識(shí)別模式。

當(dāng)面對(duì)像六指手這樣同時(shí)包含常見(jiàn)元素(手部)和罕見(jiàn)特征(多指)的圖像時(shí),系統(tǒng)傾向于將其強(qiáng)行納入已知模式。

圖像分類器通常輸出邊界框和標(biāo)簽,但當(dāng)遇到訓(xùn)練分布之外的物體時(shí),邊界框可能缺失或錯(cuò)誤合并多個(gè)對(duì)象。


一個(gè)殘酷的真相就是,性能再厲害的模型,也不懂什么叫「5根手指」。

因?yàn)?,AI看到的是紋理、形狀、概率,而不是結(jié)構(gòu),不是數(shù)量,不是實(shí)體。

Transformer,并行計(jì)算的代價(jià)

而手指難題,也凸顯出了Transformer架構(gòu)的一大弱點(diǎn)。

Transformer架構(gòu)的并行計(jì)算能力,是當(dāng)今AI飛速發(fā)展的關(guān)鍵,但這種設(shè)計(jì)也存在代價(jià)。

單次前向傳遞無(wú)法有效追蹤狀態(tài)信息,系統(tǒng)難以執(zhí)行需要多步驟邏輯推理的任務(wù)。


面對(duì)六指手,AI就會(huì)缺乏「注意到異常-重新評(píng)估-調(diào)整方案」的連貫思維鏈條。它只是機(jī)械地應(yīng)用從訓(xùn)練數(shù)據(jù)中學(xué)到的最強(qiáng)模式。

手的特殊性,在于數(shù)量固定、結(jié)構(gòu)復(fù)雜、局部高度相關(guān),而對(duì)于AI來(lái)說(shuō),多局部一致性、跨區(qū)域約束、數(shù)量不可變,恰巧是Transformer最不擅長(zhǎng)的,堪稱地域難度。

擴(kuò)散模型的本質(zhì)

從另一個(gè)角度分析,也可以這么理解。

擴(kuò)散模型的本質(zhì)是學(xué)習(xí)一個(gè)從噪聲到清晰圖像的概率分布逆推過(guò)程。


它擅長(zhǎng)捕捉數(shù)據(jù)的整體分布和紋理風(fēng)格(例如,生成一只「看起來(lái)像手的輪廓」)。

但在精確控制局部、離散、高對(duì)稱性的結(jié)構(gòu)(例如,五根長(zhǎng)度、位置、關(guān)節(jié)關(guān)系都正確的手指)時(shí),就顯得力不從心了。

從數(shù)據(jù)上看,訓(xùn)練數(shù)據(jù)中「五指」的絕對(duì)主導(dǎo)地位,使模型將「五指」視為不可違反的強(qiáng)統(tǒng)計(jì)先驗(yàn)。

就像一個(gè)看了100萬(wàn)只五指手的畫(huà)家,你讓他畫(huà)六指手時(shí),他總會(huì)無(wú)意識(shí)地將第六指融入到其他五指的陰影或姿勢(shì)中,因?yàn)樗拇竽X早已深深刻入「手即五指」的概念。


從算法層面上看,擴(kuò)散模型在去噪的每一步,都是基于整個(gè)圖像的潛在表示進(jìn)行全局預(yù)測(cè)。它沒(méi)有為「手指」這類特定結(jié)構(gòu)設(shè)立顯式的、受保護(hù)的局部計(jì)算單元。

因此,細(xì)微的噪聲擾動(dòng)或步驟誤差,很容易在密集區(qū)域被放大,導(dǎo)致細(xì)節(jié)扭曲。

從架構(gòu)層面看,現(xiàn)有模型是「端到端」的,直接從文本提示映射到像素。中間缺乏一個(gè)明確的、符號(hào)化的結(jié)構(gòu)表示層。

因此,「長(zhǎng)什么樣」和「結(jié)構(gòu)是什么」兩者沖突時(shí),它就大腦宕機(jī)了。

而如果想解決這些瓶頸,或許業(yè)界就需要采用混合建模的模式——將擴(kuò)散模型(擅長(zhǎng)紋理)與顯式結(jié)構(gòu)模型(如3D網(wǎng)格)結(jié)合。

或者引入局部注意力與約束——在模型架構(gòu)中強(qiáng)化對(duì)特定區(qū)域(如手部)的局部注意力機(jī)制,或在訓(xùn)練/推理過(guò)程中引入幾何約束損失函數(shù)。


當(dāng)代AI的阿喀琉斯之踵

讓人感慨的是,Transformer最強(qiáng)的地方(Token-to-token預(yù)測(cè)),反而成了它的致命短板。

沒(méi)有對(duì)象概念,沒(méi)有顯式結(jié)構(gòu)約束,整個(gè)世界都被打平為token序列。

誠(chéng)如一位網(wǎng)友所言:「視覺(jué)數(shù)據(jù)的復(fù)雜性遠(yuǎn)超文本,我們可能需要數(shù)十個(gè)數(shù)量級(jí)更多的計(jì)算資源,才能真正理解和處理視覺(jué)世界的全部細(xì)微差別。」

雖然在語(yǔ)言、知識(shí)、編碼等領(lǐng)域,它們已遠(yuǎn)超常人,但在視覺(jué)推理、長(zhǎng)期學(xué)習(xí)、因果關(guān)系理解上,它們?nèi)匀徊蛔恪?/p>


「手指難題」猶如一面鏡子,照出了當(dāng)前以擴(kuò)散模型為代表的AI模型的阿喀琉斯之踵——

它們?cè)趯W(xué)習(xí)和復(fù)現(xiàn)數(shù)據(jù)的連續(xù)分布上取得了革命性成功,但在理解和生成精確的離散結(jié)構(gòu)和拓?fù)潢P(guān)系上,仍然依賴于數(shù)據(jù)中的強(qiáng)統(tǒng)計(jì)先驗(yàn),缺乏真正的物理和幾何推理能力。

而如果想要徹底解決「手指難題」,就需要更先進(jìn)的架構(gòu)、更多樣化的訓(xùn)練數(shù)據(jù),以及人類對(duì)AI能力更清醒的認(rèn)識(shí)。

在這個(gè)AI無(wú)所不能的時(shí)代,「手指難題」提醒我們——

即使是如今最先進(jìn)的AI,也仍在學(xué)習(xí)如何看待世界的基本細(xì)節(jié)。

參考資料:

https://www.reddit.com/r/singularity/comments/1plw8hc/i_feel_like_the_model_is_mocking_me/

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
亞投行行長(zhǎng)金立群:為全球治理貢獻(xiàn)多邊合力

亞投行行長(zhǎng)金立群:為全球治理貢獻(xiàn)多邊合力

零時(shí)差工作室
2025-12-25 19:16:58
徐湖平已被帶走調(diào)查!鄰居曝細(xì)節(jié),家中收藏很多,兒子身份有貓膩

徐湖平已被帶走調(diào)查!鄰居曝細(xì)節(jié),家中收藏很多,兒子身份有貓膩

葉公子
2025-12-25 20:29:35
蔣介石在日記里坦言:重慶談判放走毛澤東,全是因?yàn)檫@兩點(diǎn)!

蔣介石在日記里坦言:重慶談判放走毛澤東,全是因?yàn)檫@兩點(diǎn)!

鶴羽說(shuō)個(gè)事
2025-10-25 11:44:53
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

八斗小先生
2025-07-17 15:12:37
南博鎮(zhèn)館之寶金獸被指“脫皮掉色”,院方:屬出土文物正?,F(xiàn)象

南博鎮(zhèn)館之寶金獸被指“脫皮掉色”,院方:屬出土文物正?,F(xiàn)象

上游新聞
2025-12-25 12:05:06
特朗普:真不是沖著中國(guó),兩國(guó)關(guān)系可好了

特朗普:真不是沖著中國(guó),兩國(guó)關(guān)系可好了

觀察者網(wǎng)
2025-12-26 09:22:06
頂級(jí)富豪,不過(guò)過(guò)眼煙云|聊聊龐萊臣和他的收藏

頂級(jí)富豪,不過(guò)過(guò)眼煙云|聊聊龐萊臣和他的收藏

法律先生
2025-12-25 09:59:42
南博事件繼續(xù)升級(jí)!借走字畫(huà)的神秘“老同志”是誰(shuí)?全網(wǎng)都在找…

南博事件繼續(xù)升級(jí)!借走字畫(huà)的神秘“老同志”是誰(shuí)?全網(wǎng)都在找…

火山詩(shī)話
2025-12-21 06:56:09
比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

比恒大還慘!中國(guó)第二大民企倒了,負(fù)債7500億,創(chuàng)始人被帶走

芳芳?xì)v史燴
2025-12-25 20:32:52
闞清子生子引發(fā)爭(zhēng)議,爆料人稱寶寶出生多處畸形,已救治無(wú)效去世

闞清子生子引發(fā)爭(zhēng)議,爆料人稱寶寶出生多處畸形,已救治無(wú)效去世

有范又有料
2025-12-24 09:35:27
延壽45%!研究發(fā)現(xiàn)這種大豆發(fā)酵制品可延長(zhǎng)壽命并改善健康狀態(tài)

延壽45%!研究發(fā)現(xiàn)這種大豆發(fā)酵制品可延長(zhǎng)壽命并改善健康狀態(tài)

iNature前沿
2025-12-25 14:27:40
西延高鐵開(kāi)通運(yùn)營(yíng),我國(guó)高鐵里程突破5萬(wàn)公里

西延高鐵開(kāi)通運(yùn)營(yíng),我國(guó)高鐵里程突破5萬(wàn)公里

界面新聞
2025-12-26 10:03:16
厲害了!劉強(qiáng)東拿下理想汽車大單,車企合作拿到手軟

厲害了!劉強(qiáng)東拿下理想汽車大單,車企合作拿到手軟

雷科技
2025-12-24 15:46:23
“邪修大法”做家務(wù)就是快!一分錢(qián)不花,家里就窗明幾凈~(yú)

“邪修大法”做家務(wù)就是快!一分錢(qián)不花,家里就窗明幾凈~(yú)

裝修秀
2025-12-19 11:30:03
喜訊!首位在川崎前鋒一線隊(duì)報(bào)名注冊(cè)的中國(guó)球員官宣,值得期待

喜訊!首位在川崎前鋒一線隊(duì)報(bào)名注冊(cè)的中國(guó)球員官宣,值得期待

籃球看比賽
2025-12-26 10:38:40
2026年理想純電車型陣容曝光:旗艦SUV i9定位40萬(wàn)級(jí)

2026年理想純電車型陣容曝光:旗艦SUV i9定位40萬(wàn)級(jí)

手機(jī)中國(guó)
2025-12-26 10:06:04
4G游戲塞了3G音樂(lè),這款騰訊游戲如何成了500萬(wàn)人的隨身聽(tīng)?

4G游戲塞了3G音樂(lè),這款騰訊游戲如何成了500萬(wàn)人的隨身聽(tīng)?

17173游戲網(wǎng)
2025-12-25 13:57:29
中年夫妻有多少是生活和諧的?網(wǎng)友的回答一下子就引起萬(wàn)千共鳴!

中年夫妻有多少是生活和諧的?網(wǎng)友的回答一下子就引起萬(wàn)千共鳴!

另子維愛(ài)讀史
2025-12-25 16:21:10
她又被逮捕了!

她又被逮捕了!

奮斗在韓國(guó)
2025-12-25 19:54:12
孩子生父真相大白一月后,奚美娟低調(diào)露面,手足無(wú)措,落寞呆坐

孩子生父真相大白一月后,奚美娟低調(diào)露面,手足無(wú)措,落寞呆坐

丁丁鯉史紀(jì)
2025-12-24 17:03:30
2025-12-26 13:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14186文章數(shù) 66397關(guān)注度
往期回顧 全部

科技要聞

收割3000億!拼多多"土辦法"熬死所有巨頭

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

頭條要聞

澤連斯基圣誕致辭疑詛咒普京"他該去死" 克宮回應(yīng)

體育要聞

約基奇有多喜歡馬?

娛樂(lè)要聞

朱孝天深夜道歉,只字未提五月天阿信

財(cái)經(jīng)要聞

資管江湖的人事“寒冬”

汽車要聞

速來(lái)!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

藝術(shù)
教育
家居
本地
公開(kāi)課

藝術(shù)要聞

William Dyce:19世紀(jì)蘇格蘭重要的畫(huà)家

教育要聞

陰影面積是12,求直角梯形的面積

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版