国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Hacker News熱文|“Jagged AGI”:o3和Gemini 2.5究竟是不是AGI?

0
分享至

我們正在見(jiàn)證一個(gè)奇怪卻真實(shí)的事實(shí):AI 正在變聰明,但它的聰明越來(lái)越“不整齊”。

在一篇近期刷屏 Hacker News 的文章中,沃頓商學(xué)院教授 Ethan Mollick 對(duì) OpenAI 的 o3 和 Google 的 Gemini 2.5 展開(kāi)了實(shí)測(cè)與反思。他提出了一個(gè)令人印象深刻的概念:Jagged AGI(鋸齒式通用智能)。這類(lèi)模型在一些復(fù)雜任務(wù)上“仿佛擁有神力”,卻在一些常識(shí)推理題上“跌倒得毫無(wú)尊嚴(yán)”。我們不再面對(duì)一個(gè)線性增強(qiáng)的系統(tǒng),而是在一個(gè)被能力高峰和認(rèn)知洼地交錯(cuò)編織的“鋸齒邊界”上摸索。

Mollick 在文中寫(xiě)道:“你可能會(huì)在某個(gè)時(shí)刻產(chǎn)生‘AGI 到了’的直覺(jué)感,那不是錯(cuò)覺(jué)——你只是撞上了這道 jagged frontier?!?/p>

這篇文章的價(jià)值不僅在于概念,更在于它結(jié)合了一系列具體場(chǎng)景:比如 o3 如何用一條提示詞自動(dòng)完成奶酪品牌創(chuàng)業(yè)流程,又如何在一道改編的謎語(yǔ)題里輸出令人捧腹的錯(cuò)誤答案;Gemini 2.5 在多模態(tài)推理上表現(xiàn)驚艷,但 Google 也為它配備了手動(dòng)“thinking budget”限制器,以防過(guò)度生成。

我們選擇將這篇文章編譯出來(lái),是因?yàn)樗o了開(kāi)發(fā)者、產(chǎn)品設(shè)計(jì)者乃至 AI 策略制定者一個(gè)現(xiàn)實(shí)的問(wèn)題坐標(biāo)——如何面對(duì)一個(gè)越來(lái)越“擅長(zhǎng)某些事、又不可靠”的 AI?這比“它到底是不是 AGI”更實(shí)際。

以下為編譯全文,原文鏈接:

(《On Jagged AGI: o3, Gemini 2.5, and everything after》)https://www.oneusefulthing.org/p/on-jagged-agi-o3-gemini-25-and-everything

在AI技術(shù)蓬勃發(fā)展的今天,我們?nèi)匀徊恢涝撊绾稳ズ饬恳豢畲竽P彤a(chǎn)品的智力、創(chuàng)造力和情感感知能力。

當(dāng)前的模型測(cè)試在這方面的表現(xiàn)尤其不好,畢竟他們是為了人類(lèi)而不是AI模型而設(shè)計(jì)的。在這些測(cè)試中,僅僅是對(duì)問(wèn)題措辭的理解,就會(huì)讓 AI 模型產(chǎn)生巨大的分歧,導(dǎo)致測(cè)試分?jǐn)?shù)的不同。即使是圖靈測(cè)試這樣知名的測(cè)試方法(即讓人類(lèi)通過(guò)文本來(lái)區(qū)分AI和其他人類(lèi))當(dāng)初也只是一個(gè)思想實(shí)驗(yàn),畢竟在那個(gè)時(shí)代,讓計(jì)算機(jī)完成這樣的任務(wù)近乎是不可能的。但現(xiàn)在,許多論文表明已經(jīng)有越來(lái)越多的AI通過(guò)了圖靈測(cè)試,但我們必須承認(rèn),人們其實(shí)并不明白這意味著什么?

也正因?yàn)槿绱?,作為人工智能發(fā)展中最重要的里程碑之一,人們對(duì)人工通用智能(AGI)的定義不清、爭(zhēng)論不休也就不足為奇了。每個(gè)人都認(rèn)為它與AI能否像人類(lèi)一樣完成任務(wù)的能力有關(guān),但沒(méi)有人統(tǒng)一這個(gè)能力究竟是專(zhuān)家級(jí)還是普通人的水平,也沒(méi)有人給出一個(gè)標(biāo)準(zhǔn),究竟 AI 能完成多少任務(wù),完成哪些任務(wù)才算是符合 AGI 的條件。

鑒于 AGI 的定義混亂不堪,從其最初由Shane Legg、Ben Goertzel和Peter Voss提出時(shí),再到今天的發(fā)展,要闡明其細(xì)微差別和歷史發(fā)展是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。作為一次內(nèi)容與形式上的實(shí)驗(yàn)(并且在談?wù)摑撛诘闹悄軝C(jī)器時(shí)),我將這項(xiàng)工作完全委托給了AI。我讓“Google Deep Research”針對(duì)這一主題整理出了一份非常扎實(shí)的26頁(yè)總結(jié)報(bào)告。然后,我使用HeyGen將其轉(zhuǎn)化為一段對(duì)話式的視頻播客,參與者是一個(gè)略顯緊張的、由AI生成的“我”和一個(gè)AI生成的主持人。這次對(duì)話實(shí)際上并不算差(盡管我不完全同意AI版的“我”所表達(dá)的觀點(diǎn)),但整個(gè)過(guò)程——從研究到視頻制作,再到聲音生成——100%都是由AI完成的。

與此同時(shí),我們看到了知名經(jīng)濟(jì)學(xué)家兼人工智能觀察者Tyler Cowen近日在一篇文章中宣稱(chēng),ChatGPT O3 已經(jīng)達(dá)到了AGI水準(zhǔn),而他是怎么看待這個(gè)問(wèn)題的呢?

感受 AGI

首先,介紹一下這篇文章背景。過(guò)去幾周,有兩款新的AI模型發(fā)布,分別是谷歌的Gemini 2.5 Pro 和 OpenAI 的 o3。這些模型以及一系列性能稍差但速度更快、價(jià)格更低的模型(Gemini 2.5 Flash、o4-mini 和 Grok-3-mini),代表了大模型技術(shù)的飛速發(fā)展,但就像Tyler在文章中所指出的,現(xiàn)有的模型評(píng)測(cè)基準(zhǔn)并不代表一切。

用實(shí)例說(shuō)明,我給 GPT-4 的最新繼承者 o3 提出了一個(gè)稍微復(fù)雜一點(diǎn)的問(wèn)題:"為一家新的奶酪店設(shè)計(jì)20個(gè)合適的營(yíng)銷(xiāo)口號(hào)。制定標(biāo)準(zhǔn)并選出最佳標(biāo)語(yǔ)。然后為該店鋪制定財(cái)務(wù)和營(yíng)銷(xiāo)計(jì)劃,根據(jù)需求進(jìn)行修改并分析競(jìng)爭(zhēng)情況。然后生成一個(gè)合適的店鋪Logo,并為商店建立一個(gè)模擬網(wǎng)站,確保網(wǎng)站上有 5-10 種符合營(yíng)銷(xiāo)計(jì)劃的奶酪產(chǎn)品"。僅憑這一條提示,在不到兩分鐘的時(shí)間里,人工智能不僅提供了一份口號(hào)清單,還進(jìn)行了排序和選擇,同時(shí)完成了網(wǎng)絡(luò)調(diào)研,開(kāi)發(fā)了一個(gè)徽標(biāo),制定了營(yíng)銷(xiāo)和財(cái)務(wù)計(jì)劃,并推出了一個(gè)演示網(wǎng)站供參考。

其實(shí)我給出的指令很模糊,而且模型需要根據(jù)一些常識(shí)來(lái)決定如何處理這些指示,但這并不妨礙它出色地完成工作。

除了可能是一個(gè)比 GPT-4 更大的模型之外,o3 還是一個(gè)推理模型,你可以看到它的推理過(guò)程。o3 可以挑選并使用哪種工具來(lái)完成復(fù)雜的工作目標(biāo)。你可以看到它是如何利用多種工具(比如搜索引擎和編碼助手)來(lái)完成任務(wù)的。

除此之外,O3還可以完成許多其他任務(wù)。舉個(gè)例子,只要給它一張圖片并提示 "猜猜這是哪?",o3 就能從照片中猜出準(zhǔn)確的地點(diǎn)。同樣,你也可以看到這個(gè)模型的Agent 能力在起作用,因?yàn)樗鼤?huì)放大圖片的一部分,添加網(wǎng)絡(luò)搜索,并通過(guò)多步驟處理來(lái)獲得正確答案。

再或者,我給了 o3 一個(gè)Excel 形式的機(jī)器學(xué)習(xí)系統(tǒng)的大型數(shù)據(jù)集,并要求它 "找出這是什么,并生成一份報(bào)告,從統(tǒng)計(jì)學(xué)角度研究其影響,并給我一份格式良好的 PDF 文件,其中包含圖表和詳細(xì)信息"。而我只需要交待一個(gè)任務(wù),它就會(huì)給出一份完整的分析報(bào)告(不過(guò),我還是給了它一些反饋意見(jiàn),以改進(jìn) PDF 文件)。

新時(shí)代模型在這方面的表現(xiàn)令人深刻,大家可以自己嘗試一下。Gemini 2.5 pro現(xiàn)在可免費(fèi)使用,它與 o3 一樣表現(xiàn)出色,不過(guò)缺乏Agent能力。如果您還沒(méi)有試用過(guò)它或 o3,現(xiàn)在就花幾分鐘時(shí)間試試吧。比如說(shuō)給 Gemini 一篇論文,讓它根據(jù)這篇論文來(lái)設(shè)計(jì)一款游戲 ,或者讓它和你一起頭腦風(fēng)暴,尋找創(chuàng)業(yè)點(diǎn)子,或者直接讓人工智能為你的行業(yè)做一份研究報(bào)告,或讓它為新產(chǎn)品制定一個(gè)營(yíng)銷(xiāo)計(jì)劃 。

但不論如何,你都可能會(huì)感受到模型不同的能力。畢竟及時(shí)給出的提示詞完全一致,模型所給出的回答也可能不一樣。如果你遇到這種情況,那么你可能就是碰到了Jagged Frontier。

關(guān)于“參差式 AGI”

我和我的同事共同創(chuàng)造了Jagged Frontier這個(gè)概念,并用它來(lái)描述AI的能力出奇地參差不齊這一事實(shí)。

人工智能可能會(huì)在挑戰(zhàn)人類(lèi)專(zhuān)家的任務(wù)上取得成功,但令人難以置信的是,他們可能會(huì)在很多簡(jiǎn)單的工作中失敗。舉個(gè)例子,有一個(gè)很經(jīng)典的謎題,我們只要稍加改變,就能讓大模型陷入邏輯錯(cuò)誤:

一個(gè)在車(chē)禍中受傷的小男孩被緊急送往急診室。當(dāng)看到他時(shí),外科醫(yī)生便說(shuō):“我可以為這個(gè)男孩做手術(shù)!”這是為什么呢?

O3給出的答案是“外科醫(yī)生是男孩的母親?!钡绻汩喿x原文就會(huì)發(fā)現(xiàn)這個(gè)回答完全是錯(cuò)誤的,而作為最先進(jìn)的AI模型,O3為什么會(huì)給出這個(gè)錯(cuò)誤答案呢?因?yàn)檫@個(gè)答案完全是一個(gè)經(jīng)典謎題的回答。

原本的問(wèn)題是“一對(duì)父子遭遇車(chē)禍,父親去世,兒子被緊急送往醫(yī)院。外科醫(yī)生說(shuō):'我不能動(dòng)手術(shù),那孩子是我兒子',請(qǐng)問(wèn)誰(shuí)是外科醫(yī)生?”這道問(wèn)題的答案就是“孩子的母親是外科醫(yī)生”。而在訓(xùn)練過(guò)程中, O3見(jiàn)過(guò)這個(gè)問(wèn)題以及其答案,以至于它直接給出了相關(guān)回答。

這是先進(jìn) AI 模型會(huì)出現(xiàn)幻覺(jué)的一個(gè)例子,但足以說(shuō)明達(dá)到 AGI 水平的模型能力有多不可靠。

雖然AI 經(jīng)常會(huì)在這種特殊的謎題中出錯(cuò),但這并不影響它可以解決難題的能力,也不影響它其他令人印象深刻的表現(xiàn)。而這這就是Jagged Frontier的本質(zhì)。在某些任務(wù)中,AI的能力是不可靠的,而在另一些任務(wù)中,AI則是超越人類(lèi)的存在。但這是否意味著, o3 和 Gemini 2.5這種模型已經(jīng)達(dá)到了 AGI的水平?

鑒于定義上的問(wèn)題,我沒(méi)法給出確定的答案,但我確實(shí)認(rèn)為它們可以被看作是一種Jagged Frontier。即AI模型在很多領(lǐng)域具有超越人類(lèi)的能力,從而真正改變了我們的工作和生活方式,但在某些問(wèn)題上并不可靠,以至于經(jīng)常需要人工干預(yù),已確定人工智能在哪些領(lǐng)域有效,在哪些領(lǐng)域無(wú)效。

當(dāng)然,模型未來(lái)很可能會(huì)變得更加智能,一個(gè)足夠優(yōu)秀的AI模型仍有可能在每項(xiàng)任務(wù)中擊敗人類(lèi),包括他們表現(xiàn)不佳的那部分。

這重要嗎?

回到Tyler 的文章,你會(huì)發(fā)現(xiàn),盡管他認(rèn)為我們已經(jīng)實(shí)現(xiàn)了 AGI,但他并不認(rèn)為這個(gè)臨界點(diǎn) 對(duì)我們近期的生活有多大影響 。Tyler 認(rèn)為,無(wú)論AI技術(shù)多么引人注目或強(qiáng)大,它們都不會(huì)立即改變世界。社會(huì)和組織結(jié)構(gòu)的變化要比技術(shù)發(fā)展緩慢得多,而一項(xiàng)技術(shù)本身的推廣也需要時(shí)間。即使我們今天已經(jīng)擁有了AI技術(shù),我們也需要多年的時(shí)間來(lái)摸索如何將其融入現(xiàn)有的世界中。當(dāng)然,這要假設(shè)人工智能屬于一個(gè)正常的技術(shù),而這種技術(shù)表現(xiàn)參差不齊的問(wèn)題永遠(yuǎn)無(wú)法徹底解決。

事實(shí)有可能并非如此。我們?cè)?o3 等模型中看到的Agent能力(如分解復(fù)雜目標(biāo)、使用工具和獨(dú)立執(zhí)行多步驟計(jì)劃的能力)實(shí)際上可能會(huì)比以前的技術(shù)更快地推廣開(kāi)來(lái)。如果人工智能能夠獨(dú)立有效地駕馭人類(lèi)的系統(tǒng),那么我們可能會(huì)比歷史先例所顯示的更快地達(dá)到采用門(mén)檻。

這里還有一個(gè)更深層次的不確定性:AI是否存在能力門(mén)檻?如果有,那么模型一旦跨越這個(gè)門(mén)檻,他們是否從根本上改變模型融入社會(huì)的方式?還是說(shuō)這一切都只是漸進(jìn)式的發(fā)展?或者說(shuō),未來(lái)的模型是否會(huì)因?yàn)橛|碰技術(shù)壁壘而停止發(fā)展?事實(shí)上我們對(duì)這些問(wèn)題的anana一無(wú)所知。

顯而易見(jiàn)的是,我們對(duì)于模型的發(fā)展仍然處于一個(gè)未知領(lǐng)域,無(wú)論我們是否將其稱(chēng)為 AGI,這些新模型都與之前的模型有質(zhì)的不同。它們的Agent能力,以及參差不齊的表現(xiàn),都創(chuàng)造了一種新的情況,而且?guī)缀鯖](méi)有可以參考的實(shí)際例子。也許日后歷史將會(huì)現(xiàn)在這個(gè)時(shí)代一個(gè)合適的定義,但弄清楚如何成功應(yīng)用人工智能,并使其在經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)中顯現(xiàn)出來(lái),可能是一個(gè)需要數(shù)十年的過(guò)程。又或者說(shuō),我們正處于某種技術(shù)躍進(jìn)的邊緣,人工智能驅(qū)動(dòng)的變革將突然席卷我們的世界。無(wú)論是哪種情況,那些現(xiàn)在學(xué)會(huì)駕馭這一復(fù)雜局面的人,都將為未來(lái)做好最充分的準(zhǔn)備……無(wú)論未來(lái)會(huì)是什么樣子。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢(shì)力再大也沒(méi)用

大快人心!打人夫妻再迎3大噩耗,舅舅被曝惡行,勢(shì)力再大也沒(méi)用

社會(huì)日日鮮
2026-02-28 11:20:06
首發(fā)0分他打球拖累全隊(duì)!球迷炮轟郭士強(qiáng)選他是錯(cuò)誤,該選得分王

首發(fā)0分他打球拖累全隊(duì)!球迷炮轟郭士強(qiáng)選他是錯(cuò)誤,該選得分王

老吳說(shuō)體育
2026-03-01 19:21:06
特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

特朗普應(yīng)該想不到:他對(duì)伊朗的滅國(guó)之戰(zhàn),讓中俄歐看清了一個(gè)真相

頭條爆料007
2026-02-28 18:49:20
你們的痛苦不會(huì)白費(fèi)——據(jù)稱(chēng)伊朗最高領(lǐng)袖哈梅內(nèi)伊在空襲中死亡

你們的痛苦不會(huì)白費(fèi)——據(jù)稱(chēng)伊朗最高領(lǐng)袖哈梅內(nèi)伊在空襲中死亡

老王說(shuō)正義
2026-03-01 11:56:27
蘋(píng)果即將全面開(kāi)放 NFC 功能!實(shí)在是等太久了

蘋(píng)果即將全面開(kāi)放 NFC 功能!實(shí)在是等太久了

XCiOS俱樂(lè)部
2026-02-28 22:27:50
放假半天!不補(bǔ)休

放假半天!不補(bǔ)休

小易商丘
2026-03-01 10:00:47
哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

哈梅內(nèi)伊遇害,伊朗會(huì)怎么報(bào)復(fù)?

紅星新聞
2026-03-01 11:51:17
阿里的復(fù)仇:一場(chǎng)遲到了十年的清算

阿里的復(fù)仇:一場(chǎng)遲到了十年的清算

快消經(jīng)緯
2026-02-28 18:58:05
中東誰(shuí)也打不過(guò)的以色列,在東亞算什么水平?韓國(guó):誰(shuí)也打不過(guò)

中東誰(shuí)也打不過(guò)的以色列,在東亞算什么水平?韓國(guó):誰(shuí)也打不過(guò)

比利
2025-11-29 18:49:51
穆帥:若證實(shí)普雷斯蒂安尼涉嫌歧視那他就離隊(duì);我不會(huì)去皇馬

穆帥:若證實(shí)普雷斯蒂安尼涉嫌歧視那他就離隊(duì);我不會(huì)去皇馬

懂球帝
2026-03-01 20:15:35
世紀(jì)斬首:哈梅內(nèi)伊之死,如何徹底改寫(xiě)中東與全球安全未來(lái)?

世紀(jì)斬首:哈梅內(nèi)伊之死,如何徹底改寫(xiě)中東與全球安全未來(lái)?

國(guó)是直通車(chē)
2026-03-01 13:18:09
荷蘭半導(dǎo)體專(zhuān)家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

荷蘭半導(dǎo)體專(zhuān)家:ASML花費(fèi)40年鉆研光刻機(jī),中國(guó)企業(yè)竟比ASML還狠

策略述
2026-02-28 17:11:40
3月1日晚,新加坡大滿貫大結(jié)局!王楚欽4-0奪冠,女單決賽引爭(zhēng)議

3月1日晚,新加坡大滿貫大結(jié)局!王楚欽4-0奪冠,女單決賽引爭(zhēng)議

侃球熊弟
2026-03-01 21:32:14
外交部:提醒中國(guó)公民暫勿前往伊朗周邊地區(qū)

外交部:提醒中國(guó)公民暫勿前往伊朗周邊地區(qū)

界面新聞
2026-03-01 20:26:41
29萬(wàn)人逃離湖南,22萬(wàn)出走吉林!人口遷徙洗牌,真正贏家非北上廣

29萬(wàn)人逃離湖南,22萬(wàn)出走吉林!人口遷徙洗牌,真正贏家非北上廣

通文知史
2026-02-27 00:00:04
沒(méi)想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

沒(méi)想到竟然這么多工作需要保密的!網(wǎng)友:不讓看非看被一槍斃了

另子維愛(ài)讀史
2025-12-08 20:58:22
真香??!個(gè)稅退稅退回21606.18元,浙江一網(wǎng)友曬出自己的“經(jīng)驗(yàn)”

真香?。€(gè)稅退稅退回21606.18元,浙江一網(wǎng)友曬出自己的“經(jīng)驗(yàn)”

火山詩(shī)話
2026-03-01 10:32:25
周末打“三虎”,都是來(lái)自安徽,力度夠大,拍手稱(chēng)贊!

周末打“三虎”,都是來(lái)自安徽,力度夠大,拍手稱(chēng)贊!

呼呼歷史論
2026-03-01 21:19:21
伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

伊朗革命衛(wèi)隊(duì)宣布大規(guī)模軍事行動(dòng)

界面新聞
2026-02-28 18:18:55
退休后你會(huì)到鄉(xiāng)下養(yǎng)老嗎?網(wǎng)友:鄉(xiāng)下沒(méi)這么嚇人

退休后你會(huì)到鄉(xiāng)下養(yǎng)老嗎?網(wǎng)友:鄉(xiāng)下沒(méi)這么嚇人

帶你感受人間冷暖
2026-02-23 00:49:19
2026-03-01 23:28:49
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

在以貼瓷磚的中國(guó)小伙:爆炸聲在頭頂響起 真的被嚇到

頭條要聞

在以貼瓷磚的中國(guó)小伙:爆炸聲在頭頂響起 真的被嚇到

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂(lè)要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來(lái)襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車(chē)要聞

理想汽車(chē)2月交付26421輛 歷史累計(jì)交付超159萬(wàn)輛

態(tài)度原創(chuàng)

旅游
健康
時(shí)尚
本地
手機(jī)

旅游要聞

去踏青、共賞花,春意正濃!““春日經(jīng)濟(jì)”蓬勃綻放

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

本地新聞

津南好·四時(shí)總相宜

手機(jī)要聞

一加15T再次被確認(rèn):驍龍8E5+7500mAh+潛望鏡,配置全曝光!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版