国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

數(shù)學(xué)題難倒AI天團(tuán),多數(shù)意見帶偏全場,集體決策咋成翻車現(xiàn)場

0
分享至

最近有個挺有意思的實驗,幾所大學(xué)的研究人員讓好幾個AI模型湊一塊兒辯論數(shù)學(xué)題。

本來想著人多力量大,AI多了智慧也能翻倍,結(jié)果你猜怎么著?辯著辯著,答案反而越來越錯了,這事兒說起來,可能比咱們想象的更值得琢磨。

這個實驗設(shè)計得還挺講究,研究人員找了不同的AI模型,有GPT-4這種能力強(qiáng)的,也有GPT-3.5這種稍弱一點的。



把它們分成小組,有的組全是同款模型,有的組則是強(qiáng)弱混搭,任務(wù)很簡單,辯論算術(shù)推理、策略推理這類數(shù)學(xué)題,幾輪討論后投票選答案。

一開始我跟研究人員想的差不多,覺得這么多AI湊一起,就算個別出錯,多數(shù)總能把方向拉回來吧?結(jié)果實驗數(shù)據(jù)一出來,臉有點疼。

隨著辯論輪次增加,AI群體的準(zhǔn)確率不光沒漲,反而一路往下掉,不少原本答對的題,辯著辯著就被"帶偏"了,最后集體選了個錯答案。

更有意思的是那個強(qiáng)弱混搭的組,按理說,強(qiáng)模型應(yīng)該能帶著弱模型走,結(jié)果呢?反倒是弱模型把強(qiáng)模型給"帶溝里"了。



比如GPT-4和GPT-3.5組隊時,整體正確率比GPT-4自己單干還低,就像班里來了幾個愛搗亂的學(xué)生,本來學(xué)習(xí)好的也跟著分心了。

而且這事兒還分題型,簡單的算術(shù)題,比如加減乘除,AI們辯半天,錯得還不算太離譜。

可碰到那種需要好幾步推理的復(fù)雜數(shù)學(xué)題,那就徹底放飛自我了,中間只要有一步推理錯了,后面就跟多米諾骨牌似的,一錯到底,想掰都掰不回來。

看到AI越辯越錯,我第一個念頭是,這些模型是不是中了"多數(shù)暴政"的招?實驗里還真有這情況。



只要一開始多數(shù)AI選了個錯答案,少數(shù)幾個原本對的,沒幾輪就跟著改了口。

本來以為AI只認(rèn)邏輯不認(rèn)人,結(jié)果它們好像更在乎"大家都怎么說",后來仔細(xì)想了想,這可能跟AI的訓(xùn)練目標(biāo)有關(guān)。

現(xiàn)在的模型訓(xùn)練,太看重"對話流暢"和"協(xié)作配合"了,好像只要大家說得一致,就算成功,至于是不是真的對,反而成了次要的。

就像咱們開會,有時候為了趕緊達(dá)成共識,明明覺得哪里不對,也懶得開口了,還有個"順序修正陷阱"也挺坑。



實驗里,AI會根據(jù)同伴的推理改答案,哪怕被告知"這推理可能是瞎編的",它們照樣照單全收。

有次看到個例子,一個AI明明算對了2+2=4,結(jié)果另一個AI說"我覺得是5,因為1+1=3,所以2+2=5",你猜怎么著?前一個AI居然真的改成5了。

AI會"看態(tài)度下菜碟"這事兒,也挺刷新認(rèn)知的,實驗發(fā)現(xiàn),要是哪個AI說話特別自信,哪怕說的是錯的,其他AI也更容易被說服。

比如一個模型用一堆感嘆號說"答案肯定是7!絕對沒錯!",旁邊的AI就容易跟著選7,哪怕自己算出來是8,這不就是咱們說的"氣場壓制"嘛,沒想到機(jī)器也吃這套。



最讓我覺得意外的是AI的"從眾心理",咱們總覺得AI是獨立的,不會受什么"社會壓力"影響。

可實驗里,只要多數(shù)模型一開始站錯隊,少數(shù)幾個對的AI,沒多久就會"屈服"。

有個測試組更夸張,三個弱模型對一個強(qiáng)模型,強(qiáng)模型愣是被磨得改了三次答案,最后跟大家一起錯了才算完。

弄明白AI為啥會集體迷失,再回頭看現(xiàn)在的多智能體協(xié)作,問題可能就出在"想當(dāng)然"上。



咱們總覺得"人多力量大",不管啥任務(wù)都讓AI組隊上,卻沒考慮過它們會不會"幫倒忙",就像這次數(shù)學(xué)辯論,本來想靠集體智慧,結(jié)果變成了群體迷失。

我覺得改進(jìn)的方向,可能得從AI的"認(rèn)知習(xí)慣"入手,現(xiàn)在的模型太容易相信別人給的結(jié)論了,很少會自己驗證一下。

要是能讓它們養(yǎng)成"先驗貨后收貨"的習(xí)慣,比如算數(shù)學(xué)題時,自動用計算器核對一下同伴的推理,可能會好很多。

還有個辦法,或許可以給AI搞個"可信度評分",就像咱們玩游戲有段位一樣,誰平時答題準(zhǔn),誰經(jīng)常出錯,都記下來。



辯論的時候,讓靠譜的AI多說話,不靠譜的少摻和,這樣弱模型就不容易拖后腿了,強(qiáng)模型也能發(fā)揮作用。

這次實驗給我的最大啟示是,AI協(xié)作不是簡單的"1+1=2",在醫(yī)療診斷、金融決策這些關(guān)鍵領(lǐng)域,要是隨便讓幾個AI湊一起做決定,風(fēng)險可能比咱們想的大得多。

畢竟連規(guī)則明確的數(shù)學(xué)題都會出錯,更復(fù)雜的任務(wù)就更不好說了,未來的AI協(xié)作,可能得更"挑剔"一點。

不是啥任務(wù)都適合組隊,也不是啥模型都能湊一塊兒。



該單干的時候單干,該組隊的時候,也得把規(guī)則定清楚,誰負(fù)責(zé)驗證,誰負(fù)責(zé)拍板,誰出錯了要擔(dān)責(zé)。

只有這樣,AI的集體智慧才能真正派上用場,而不是變成一場集體迷失的鬧劇,說到底,AI終究是咱們設(shè)計出來的工具。

它們會"隨大流",會"盲從",其實反映的可能是咱們對"協(xié)作"的誤解真正的智慧,從來不是簡單的意見統(tǒng)一,而是在分歧中找到真相,或許,讓AI學(xué)會"理性地質(zhì)疑",比讓它們"和諧地同意",更重要。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
隊記:楊瀚森用力過猛后明顯沉穩(wěn) 里斯表現(xiàn)不佳為他提供練級機(jī)會

隊記:楊瀚森用力過猛后明顯沉穩(wěn) 里斯表現(xiàn)不佳為他提供練級機(jī)會

羅說NBA
2025-12-25 07:21:51
因果有報!移居加拿大25年,58歲王祖賢現(xiàn)狀曝光,無夫無子大變樣

因果有報!移居加拿大25年,58歲王祖賢現(xiàn)狀曝光,無夫無子大變樣

寒士之言本尊
2025-12-24 00:59:30
監(jiān)視員工的電腦軟件被公開叫賣!記者實測:微信聊天就像在“裸奔”,殺毒軟件卻“失明”

監(jiān)視員工的電腦軟件被公開叫賣!記者實測:微信聊天就像在“裸奔”,殺毒軟件卻“失明”

每日經(jīng)濟(jì)新聞
2025-12-25 00:48:23
20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

20歲小伙王帥去世!凌晨5點跳湖,父親公布其最后影像:兒子解脫了

社會日日鮮
2025-12-24 05:45:22
一夜之間狂漲,刷新歷史最高點!有人狂呼“解套”,有人抓緊買入:趁價格還不算高

一夜之間狂漲,刷新歷史最高點!有人狂呼“解套”,有人抓緊買入:趁價格還不算高

環(huán)球網(wǎng)資訊
2025-12-25 07:24:58
還得是紐約!圣誕大戰(zhàn)最低票價:尼克斯413美元,雷霆馬刺92美元

還得是紐約!圣誕大戰(zhàn)最低票價:尼克斯413美元,雷霆馬刺92美元

懂球帝
2025-12-25 10:18:20
退休1年后,四川一原高級警長被查!

退休1年后,四川一原高級警長被查!

雅安生活網(wǎng)
2025-12-25 10:43:49
朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問他要啥官,他回了8個字

朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問他要啥官,他回了8個字

長風(fēng)文史
2025-12-23 21:14:32
越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

越南“食品安全腐敗大案”,局長夫婦聯(lián)手撈金

中國新聞周刊
2025-12-24 21:57:35
被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

潮鹿逐夢
2025-12-24 22:42:07
兩名朝鮮俘虜公開表態(tài):寧愿去韓國,也不愿返回朝鮮

兩名朝鮮俘虜公開表態(tài):寧愿去韓國,也不愿返回朝鮮

老馬拉車莫少裝
2025-12-24 21:30:46
特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

特朗普下令,真正的較量開始,美國選好主戰(zhàn)場,要與中國一決高下

空天力量
2025-12-24 17:06:37
中央批準(zhǔn),馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

中央批準(zhǔn),馮忠華履新廣州市委書記!本月3個省會(首府)城市市委書記調(diào)整

上觀新聞
2025-12-24 14:12:04
新一期新秀榜:狀元弗拉格穩(wěn)居榜首,榜眼哈珀升至第五

新一期新秀榜:狀元弗拉格穩(wěn)居榜首,榜眼哈珀升至第五

懂球帝
2025-12-25 07:19:22
南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

南博事件升級!鎮(zhèn)館之寶西漢金獸出現(xiàn)掉色痕跡,徐院長真攤上事了

火山詩話
2025-12-24 14:29:42
反華拜鬼、兩姓家奴!張本智和叫板中國僅五天,老底被全網(wǎng)扒光

反華拜鬼、兩姓家奴!張本智和叫板中國僅五天,老底被全網(wǎng)扒光

削桐作琴
2025-12-24 16:05:43
每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

每年1000萬以上的大學(xué)畢業(yè)生將會持續(xù)將近20年,就業(yè)會越來越難

爆角追蹤
2025-12-24 11:53:34
消失的150萬契丹人找到了?DNA比對結(jié)果一出,原來就在我們身邊

消失的150萬契丹人找到了?DNA比對結(jié)果一出,原來就在我們身邊

近史博覽
2025-12-24 11:01:01
中美關(guān)系劇透警告|董云裳:明年中美元首若能高頻會晤,能為潛在沖擊“托底”

中美關(guān)系劇透警告|董云裳:明年中美元首若能高頻會晤,能為潛在沖擊“托底”

澎湃新聞
2025-12-25 07:22:28
江蘇18歲李金栩平安夜去世,媽媽曝因為討薪,投奔東莞女友沒多久

江蘇18歲李金栩平安夜去世,媽媽曝因為討薪,投奔東莞女友沒多久

閱盡
2025-12-25 09:23:43
2025-12-25 11:08:49
許穋很機(jī)智
許穋很機(jī)智
每天創(chuàng)作搞笑幽默視頻,謝謝關(guān)注
812文章數(shù) 37關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

媒體:靖國神社強(qiáng)塞韓軍人牌位 韓國如何清算是個看點

頭條要聞

媒體:靖國神社強(qiáng)塞韓軍人牌位 韓國如何清算是個看點

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

金莎被小19歲男友求婚,成功后擁抱親吻

財經(jīng)要聞

美國未來18個月不對中國芯片加額外關(guān)稅

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

親子
家居
數(shù)碼
藝術(shù)
健康

親子要聞

江西幼兒園園長駕車落水,致8人遇難后續(xù),家長:園長也是好心

家居要聞

經(jīng)典彌新 品味浪漫居所

數(shù)碼要聞

1799元起!華為MatePad 11.5正式開售 主打護(hù)眼學(xué)習(xí)

藝術(shù)要聞

何鏡堂院士新巨作!砸5億,江西“頭號工程”藏著什么硬核科技?

這些新療法,讓化療不再那么痛苦

無障礙瀏覽 進(jìn)入關(guān)懷版