国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI畫不出的左手,是因?yàn)槲覀兘o了它一個(gè)偏科的童年。

0
分享至

昨天刷到了一條非常有意思的推特。

是我關(guān)注的一個(gè)博主,Howie.Serious發(fā)的。

他發(fā)了一個(gè)很有趣的點(diǎn),就是即使是世界上現(xiàn)在最牛逼的NanoBananaPro,在世界知識(shí)如此屌爆的情況下,AI,還是沒有辦法生成左手寫字的圖片。


這事特別有意思。

我立馬用Gemini上的NanoBananPro試了下。

果然翻車了,而且是非常穩(wěn)定的翻車。


我又直接用Lovart跑了十幾種張圖,只對(duì)了2次,其他的,全錯(cuò)。


我又去試了其他的大模型,包括chatgpt、seedream,grok,也在這個(gè)小小的提示詞上全軍覆沒。


刷刷刷給我生成了一堆右手,讓我都有點(diǎn)混亂了,我那一瞬間都在懷疑是不是我自己分不清左右了。。。

我又嘗試了一些進(jìn)階版。

比如,右手拿著蘋果左手寫字。

這個(gè)已經(jīng)非常明確了吧,我已經(jīng)給他做限制了。

還是會(huì)生成右手寫字左手拿蘋果的圖。。。


GPT直接給我玩鬼畜了。


甭管是誰(shuí),就算是蜘蛛俠來了也沒用,也得用右手。。。


非常的倔強(qiáng)。。。

在好奇之下,我又試了一些其他的case。

比如,讓一個(gè)人左手拿著橘子右手拿著蘋果。


翻車。

穿個(gè)不同顏色的寫字,翻車。。。


左手舉起魔法棒,翻車。


左手拎著一只雞,右手拎著大高達(dá),翻車。


全都翻車,翻了個(gè)大車。

至此,確實(shí)發(fā)現(xiàn),AI完全分不清左右手和左右腳。

但是,如果你讓他去純粹的畫空間關(guān)系,確實(shí)是沒啥問題。


但只要一涉及到左手左腳,就直接原地爆炸。

這個(gè)話題太有意思了。

我非常好奇的想知道,到底是為什么?

在DeepReasearch之后,還真找到了一個(gè)蠻有趣的可以解釋這個(gè)事的論文,叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》,中文名翻譯過來是,現(xiàn)象空間的偏差,會(huì)阻礙文生圖模型的泛化。

而這個(gè)影響的核心,其實(shí)就是偏見。

跟我之前寫過的一篇很像。


那篇文章,聊的是視覺模型,在理解的時(shí)候,分不清圖中的人有幾根手指。

而這次,是在生成的時(shí)候,分不清左右。

其實(shí)本質(zhì)的邏輯都是相同的,就是因?yàn)閿?shù)據(jù)集的偏見。

這篇論文,大意就是一句話:

AI之所以分不清左右,不是因?yàn)樗壿嫴恍?,而是因?yàn)樗睦蠋?,也就是我們投喂給它的海量圖片數(shù)據(jù),本身就存在巨大的壓倒性的偏見。

他們做了一個(gè)實(shí)驗(yàn)。

干的第一件事,是把一張圖給拆解成filler和role兩種要素,你可以把它們理解為,主體和關(guān)系。

拿貓追老鼠的圖來舉例,主體就是貓和老鼠,而關(guān)系就是,誰(shuí)是追的那一方,誰(shuí)是被追的那一方。

確定好這兩種要素之后,他們找來了幾十個(gè)小圖標(biāo)。


兩兩圖標(biāo)分為一組,規(guī)定好它們的主體和關(guān)系,用Unicode字符畫在 32×32 的小方塊里。

所有的畫面,只干一件事:

兩個(gè)東西,上下疊放。

比如,把名為蛋糕和橡皮的小圖標(biāo)放在同一張圖上,上面是蛋糕的圖標(biāo),下面是橡皮的圖標(biāo)。

然后附上一句話,這張圖是一個(gè)蛋糕在一個(gè)橡皮上面。

以此類推,就有了一堆測(cè)試圖片加一堆文本。

然后,他們又分了一些數(shù)據(jù)集。

有些訓(xùn)練集里,每個(gè)物體都當(dāng)過上面的、也當(dāng)過下面的。

有些訓(xùn)練集里,貓可能幾乎永遠(yuǎn)在上面,狗也可能幾乎永遠(yuǎn)在下面。

還有些訓(xùn)練集,更狠一點(diǎn),某些物體從來沒當(dāng)過上面,只當(dāng)過下面。

接著,他們把這些圖片和文字打包成數(shù)據(jù)集丟給模型去訓(xùn)練,看它學(xué)了這些東西之后,能不能理解上下位置關(guān)系。

按照我們對(duì)模型訓(xùn)練的常規(guī)理解呢,這件事兒的關(guān)鍵在于,樣本量要夠大。

只要數(shù)據(jù)規(guī)模夠大,智能就會(huì)自然長(zhǎng)出來,對(duì)吧?

但是他們的實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),其實(shí),完全不是這樣的。

決定模型能不能舉一反三的,其實(shí)看的不是數(shù)據(jù)的數(shù)量,看的是,數(shù)據(jù)怎么分布。

他們有定義了兩個(gè)指標(biāo),一個(gè)叫Completeness(完整性),就是每種東西,是否都至少在每個(gè)位置上出現(xiàn)過一次。

舉個(gè)例子,圓在上、三角在下是一種組合,圓在下、三角在上是另一種組合,這兩種情況都要在數(shù)據(jù)里出現(xiàn)過,完整度才能算是及格。

但只有完整度還不夠,還得看另一個(gè)指標(biāo),叫Balance(平衡性),對(duì),就是跳舞里面的那個(gè)Balance。

它其實(shí)指的就是,不同組合出現(xiàn)在數(shù)據(jù)中的具體比例。

只有圓在上和三角在上這兩種情況,在數(shù)據(jù)里的分布情況大差不差時(shí),平衡度才過關(guān)。

反之,如果九張圖都是圓在上,只有一張圖是三角在上,對(duì)模型來說,就是平衡度極差、世界觀極度傾斜的情況了。

這樣一來,模型就會(huì)天然的把圓在上這件事當(dāng)成一個(gè)真理。

只有當(dāng)一個(gè)訓(xùn)練集里,不同的排列組合都出現(xiàn)過,并且每種組合在上在下的情況都出現(xiàn)得差不多時(shí),模型才會(huì)開竅:

原來誰(shuí)在上誰(shuí)在下不是恒定的,是可以互攻的。

哦說錯(cuò)了,是可以互換的。。。

那一刻,模型才是真正掌握了上下的位置關(guān)系,而不是死記硬背幾種固定搭配。


右邊的表格里,兩個(gè)CPL代表完整度,也就是圓和三角在上的情況是不是都出現(xiàn)了,BLC代表平衡度,也就是圓和三角在上的情況分布是否均勻。

左邊的縱軸是模型測(cè)試的準(zhǔn)確性。

你會(huì)發(fā)現(xiàn),當(dāng)完整度和平衡度都是百分百的時(shí)候,模型測(cè)試的正確率幾乎也是百分百,也就是藍(lán)色的散點(diǎn)。

而當(dāng)完整度和平衡度越來越差的時(shí)候,模型正確率也會(huì)不斷下跌,到了完整度和平衡度最低的灰色散點(diǎn)這里,準(zhǔn)確率就沒上過百分之四十。

論文后半段,他們還做了一個(gè)和現(xiàn)實(shí)世界更接近的實(shí)驗(yàn),用的是一個(gè)叫what’sup的基準(zhǔn)數(shù)據(jù)集,里面都是自然圖片,專門用來描述兩個(gè)物體的位置關(guān)系。

然后,在這個(gè)數(shù)據(jù)集里面抽取子集。

有的子集完整度和平衡度都很高,有的相反。

接著,他們讓模型去生成數(shù)據(jù)集里沒有的物品左右關(guān)系圖片。

得到的結(jié)果非常穩(wěn)定:

視覺這邊的完整度和平衡度,一旦掉下去,測(cè)試集的準(zhǔn)確率就一路跟著往下掉,有的組合甚至永遠(yuǎn)突破不了50%。

更經(jīng)典的是最常見的一類錯(cuò)誤:

兩個(gè)物體都畫對(duì)了,但順序反了。

你讓它畫盤子在罐頭左邊,它給你的圖看起來很協(xié)調(diào),但仔細(xì)一看,變成了,可樂罐在盤子左邊。


這個(gè)錯(cuò)誤就非常符合我今天在左右手的case中測(cè)試出來的結(jié)果。。。

所以現(xiàn)在可以給AI分不清左右這件事,初步給一個(gè)解釋:

AI不是分不清左邊右邊,而是在它受過的童年教育里,現(xiàn)象空間本來就是偏的。

就比如寫字這個(gè)案例,因?yàn)楝F(xiàn)實(shí)世界里,寫字的大部分人就是右撇子。

圖像網(wǎng)站的標(biāo)注里,“writing”“student writing notes”這些tag背后,也幾乎清一色是右手寫字。

當(dāng)一個(gè)模型在海量圖像上長(zhǎng)大,它看到的寫字幾乎等價(jià)于右手寫字。

所以當(dāng)你說左手寫字的時(shí)候,它腦子里的激活模式是這樣的:

“寫字?寫字這事我懂啊,寫字不就是等于一個(gè)人 + 一本本子 + 一只手拿筆嗎,啥玩意?你要左手寫字?你有毒吧,這個(gè)世界還有人用左手寫字?我就沒見過?!?/p>

然后,啪的一下,給你畫了個(gè)右手寫字。

其實(shí)有點(diǎn)像一個(gè)極端偏科的學(xué)生。

他做了十萬(wàn)道“2+3=5”這樣的題,但是從來沒見過“3+2=5”。

所以,當(dāng)你你問他“3+2等于幾”,他直接就宕機(jī)了。

左手寫字,就是3+2那一側(cè)的世界。

其他的失敗的case其實(shí)也差不多。

當(dāng)然,這也不怪AI,因?yàn)樗囊娮R(shí)就是我們給的。

如果訓(xùn)練集里,左撇子的蹤跡本來就少,模型學(xué)不出來,是不是應(yīng)該怪模型?

還是我們,根本就沒把這個(gè)世界里那些少數(shù)者的現(xiàn)象,認(rèn)真地采集進(jìn)去?

以前我做用戶研究的時(shí)候,其實(shí)最怕的,就是招樣本招得不均勻。

比如你明明是個(gè)普適性的APP,但是只找一線城市上班族深度訪談,當(dāng)然得不出老人怎么用你的APP的這個(gè)結(jié)果。

只看IOS用戶的數(shù)據(jù),當(dāng)然也看不到千元安卓機(jī)上的使用體驗(yàn)。

只做所謂的可用性測(cè)試,不實(shí)地去做田野調(diào)研,就根本不可能看到用戶在真實(shí)場(chǎng)景中的那些小動(dòng)作、小走神、小偷懶。

AI一直在模仿的,其實(shí)就是我們自己的偏見。

我們的大規(guī)模圖像語(yǔ)料,是過去幾十年的人類攝影習(xí)慣和文化習(xí)慣的快照。

如果這個(gè)世界90%的人都是右撇子,攝影師拍照的時(shí)候又喜歡把筆、杯子、道具放在某個(gè)視角更舒服的位置,那模型看到的世界,就會(huì)是一塊巨大的統(tǒng)計(jì)偏差。

如果用一句很正確的話來說。

就是,我們根本沒給模型一個(gè)公平的童年。

但反過來,我們?nèi)绻醋约耗兀?/p>

好像,我們本身,也會(huì)被各種各樣的訓(xùn)練集規(guī)訓(xùn)。

成功的概念是有房有車財(cái)務(wù)自由,人生的捷徑是考功上岸。

我們和AI的區(qū)別只不過在于,AI是用幾百億張圖、幾萬(wàn)億 token,迅速堆疊起來一個(gè)模型的失誤。

而人類是用幾十年的生活和經(jīng)驗(yàn)積累,逐漸走到一條自己不那么想走的岔路上。

人類和AI,現(xiàn)在好像,都無(wú)法看到自己認(rèn)知以外的東西。

如果說技術(shù)的發(fā)展會(huì)逼著AI公司們,去重新設(shè)計(jì)那個(gè)屬于AI的訓(xùn)練集,增加它的完整度和平衡度,讓它泛化。

那我們,是不是也可以,增加一下自己體驗(yàn)的厚度?

當(dāng)我們對(duì)模型說,你不能永遠(yuǎn)只會(huì)用右手寫字。

你也得試試左手。

那在我們的生活里,有沒有哪一些左手的可能性,其實(shí)一直都在,但我從來沒有看見過?

我相信,肯定會(huì)有的。

以上,既然看到這里了,如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克、水杉

>/ 投稿或爆料,請(qǐng)聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鴨絨價(jià)暴漲,山姆499元羽絨服火了:充絨量400克,“像蓋了層被子”,多店斷貨!客服稱“補(bǔ)貨時(shí)間未知”,有人加價(jià)代購(gòu)

鴨絨價(jià)暴漲,山姆499元羽絨服火了:充絨量400克,“像蓋了層被子”,多店斷貨!客服稱“補(bǔ)貨時(shí)間未知”,有人加價(jià)代購(gòu)

每日經(jīng)濟(jì)新聞
2026-01-11 19:37:05
頭號(hào)種子出局!林詩(shī)棟2-4不敵張禹珍,無(wú)緣多哈冠軍賽男單決賽

頭號(hào)種子出局!林詩(shī)棟2-4不敵張禹珍,無(wú)緣多哈冠軍賽男單決賽

全景體育V
2026-01-11 19:55:41
廣東男籃吊打遼籃,聽聽媒體專家怎么說,遼媒點(diǎn)出四冠王的問題

廣東男籃吊打遼籃,聽聽媒體專家怎么說,遼媒點(diǎn)出四冠王的問題

鄒維體育
2026-01-11 21:20:34
輸不起嗎?遼寧隊(duì)輸球又輸人

輸不起嗎?遼寧隊(duì)輸球又輸人

體育哲人
2026-01-11 21:57:55
26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭(zhēng)議

26年央視春晚嘉賓名單曝光,牛鬼蛇神混子引爭(zhēng)議

杜鱂手工制作
2026-01-06 18:48:05
葉文斌媽媽被傳限制出境,惡意尋子的陰謀論來了

葉文斌媽媽被傳限制出境,惡意尋子的陰謀論來了

映射生活的身影
2026-01-11 14:33:05
就在剛剛,臺(tái)灣媒體突然曝光驚天新聞!

就在剛剛,臺(tái)灣媒體突然曝光驚天新聞!

安安說
2026-01-11 16:37:22
小國(guó)占據(jù)大島的無(wú)奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

小國(guó)占據(jù)大島的無(wú)奈:格陵蘭島被發(fā)現(xiàn)上千年,丹麥從未完全控制?

全城探秘
2026-01-11 16:15:03
不得不說!廣東隊(duì)外援奎因,不懂人情世故呀

不得不說!廣東隊(duì)外援奎因,不懂人情世故呀

體育哲人
2026-01-11 17:53:23
瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

瓦良格號(hào)送到中國(guó)后有多震撼?專家刮掉表面的銹跡:鋼材品質(zhì)極佳

古書記史
2026-01-06 16:31:56
NBA官宣禁賽施羅德3場(chǎng):對(duì)峙東契奇還試圖打人 損失薪水29萬(wàn)美元

NBA官宣禁賽施羅德3場(chǎng):對(duì)峙東契奇還試圖打人 損失薪水29萬(wàn)美元

羅說NBA
2026-01-11 09:58:34
60年一遇!今年春節(jié)不用穿棉襖了?最冷時(shí)段,已經(jīng)確定!

60年一遇!今年春節(jié)不用穿棉襖了?最冷時(shí)段,已經(jīng)確定!

老特有話說
2026-01-10 15:37:26
特朗普通告全球,態(tài)度強(qiáng)硬,不許中國(guó)買俄油,話音剛落外交部回應(yīng)

特朗普通告全球,態(tài)度強(qiáng)硬,不許中國(guó)買俄油,話音剛落外交部回應(yīng)

冷夜說
2026-01-11 21:49:27
一錘在錘!檀健次戀情升級(jí),女方再放猛料,這次恐徹底涼涼

一錘在錘!檀健次戀情升級(jí),女方再放猛料,這次恐徹底涼涼

青橘罐頭
2026-01-11 11:40:45
襪子內(nèi)衣混洗,爸爸腳氣傳全家,7 歲女兒中招!醫(yī)生:還可能致永久脫發(fā)

襪子內(nèi)衣混洗,爸爸腳氣傳全家,7 歲女兒中招!醫(yī)生:還可能致永久脫發(fā)

福建第一幫幫團(tuán)
2026-01-11 10:51:53
2026年返鄉(xiāng)潮巨變,從一票難求到車站冷清,中國(guó)經(jīng)濟(jì)在悄悄換賽道

2026年返鄉(xiāng)潮巨變,從一票難求到車站冷清,中國(guó)經(jīng)濟(jì)在悄悄換賽道

老特有話說
2026-01-11 01:15:50
城市街頭的時(shí)尚動(dòng)態(tài):瑜伽褲下的生命力與美感

城市街頭的時(shí)尚動(dòng)態(tài):瑜伽褲下的生命力與美感

一抹暖陽(yáng)
2026-01-04 21:40:28
特朗普聽取匯報(bào),威脅最快下周打擊伊朗

特朗普聽取匯報(bào),威脅最快下周打擊伊朗

山河路口
2026-01-11 12:14:33
4.5萬(wàn)株草莓苗停止生長(zhǎng)!成都果農(nóng)急求助,1小時(shí)獲回應(yīng),次日專家上門“問診”

4.5萬(wàn)株草莓苗停止生長(zhǎng)!成都果農(nóng)急求助,1小時(shí)獲回應(yīng),次日專家上門“問診”

紅星新聞
2026-01-11 18:54:05
蘋果正式官宣:1月9日,全面官降!

蘋果正式官宣:1月9日,全面官降!

科技堡壘
2026-01-09 11:45:41
2026-01-12 00:35:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
436文章數(shù) 490關(guān)注度
往期回顧 全部

科技要聞

“我們與美國(guó)的差距也許還在拉大”

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

頭條要聞

特朗普就格陵蘭島下最后通牒 加拿大開始行動(dòng)了

體育要聞

U23國(guó)足形勢(shì):末輪不負(fù)泰國(guó)即確保晉級(jí)

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺(tái)"燒錢搶存量市場(chǎng)"迎來終局?

汽車要聞

2026款宋Pro DM-i長(zhǎng)續(xù)航補(bǔ)貼后9.98萬(wàn)起

態(tài)度原創(chuàng)

教育
數(shù)碼
旅游
時(shí)尚
親子

教育要聞

官方發(fā)布:3370個(gè)志愿者服務(wù)名額!南京中小學(xué)生均可報(bào)名!

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

旅游要聞

冰雕獸首立老街!哈爾濱用 60 年冰雪基因,解鎖文旅融合新密碼

當(dāng)一個(gè)57歲的女人,決定從零開始

親子要聞

晨時(shí)評(píng) | 新生兒疑被助產(chǎn)士剪斷手指,別用孩子亂動(dòng)推卸責(zé)任

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版