吳恩達(dá)公開信：2026年能實(shí)現(xiàn)AGI嗎？六位專家說先解決這些問題

2026-01-07 21:30:43　來源: DeepTech深科技

北京舉報(bào)

分享至

2026 年伊始，DeepLearning.AI 創(chuàng)始人、斯坦福大學(xué)兼職教授吳恩達(dá)（Andrew Ng）在其年度通訊《The Batch》新年特刊中拋出了一個(gè)尖銳的問題：“2026 年會是我們最終實(shí)現(xiàn) AGI 的一年嗎？”這個(gè)問題本身或許并不新鮮，但吳恩達(dá)提出了一個(gè)新的測試框架，試圖用一種更可靠的方式來回答這個(gè)問題。

圖丨吳恩達(dá)（來源：MIT Technology Review）

吳恩達(dá)將這個(gè)測試命名為“Turing-AGI Test”（圖靈 - AGI 測試）。測試的設(shè)計(jì)思路是這樣的：讓測試對象，無論是 AI 系統(tǒng)還是人類專業(yè)人士，坐在一臺可以聯(lián)網(wǎng)、裝有瀏覽器和 Zoom 等常用軟件的電腦前。裁判會設(shè)計(jì)一個(gè)持續(xù)數(shù)天的工作體驗(yàn)，比如先培訓(xùn)測試對象成為一名客服人員，然后讓他接聽真實(shí)的客戶來電，期間提供持續(xù)的反饋。如果 AI 能夠像一位熟練的人類員工那樣完成這些工作任務(wù)，它就通過了測試。

這個(gè)測試的關(guān)鍵詞是“工作”。吳恩達(dá)在公開信中寫道，大多數(shù)普通人理解的 AGI，意味著計(jì)算機(jī)能夠像人一樣聰明，能夠完成大部分甚至全部的知識工作。這個(gè)定義聽起來理所當(dāng)然，但問題在于，當(dāng)一些公司宣稱自己即將實(shí)現(xiàn) AGI 時(shí)，他們所設(shè)定的標(biāo)準(zhǔn)往往低得多。

定義上的錯(cuò)位造成了認(rèn)知上的混亂，這種混亂正在產(chǎn)生真實(shí)的負(fù)面影響。吳恩達(dá)觀察到，有高中生因?yàn)橄嘈?AGI 即將到來而放棄了某些學(xué)科的學(xué)習(xí)，有 CEO 在做投資決策時(shí)假設(shè) AI 在一兩年內(nèi)就會變得比實(shí)際可能的更強(qiáng)大。這些都是過度炒作帶來的后果。

吳恩達(dá)指出了傳統(tǒng)圖靈測試的局限性。那個(gè)經(jīng)典測試要求計(jì)算機(jī)通過文字聊天讓人類裁判無法分辨它是機(jī)器還是人。Loebner 獎(jiǎng)的歷史表明，模擬人類打字錯(cuò)誤這種與智能無關(guān)的技巧，有時(shí)比真正展示智能更容易讓裁判上當(dāng)。而今天 AI 發(fā)展的主要目標(biāo)是構(gòu)建能夠完成經(jīng)濟(jì)上有價(jià)值的工作的系統(tǒng)，而不是愚弄裁判。因此，一個(gè)測量工作能力的測試比測量欺騙能力的測試更有意義。

另一個(gè)問題是，當(dāng)前幾乎所有的 AI 基準(zhǔn)測試，比如 GPQA、AIME、SWE-bench 等，都有預(yù)先確定的測試集。這意味著 AI 團(tuán)隊(duì)最終會或直接或間接地針對已公開的測試集調(diào)優(yōu)模型。

任何固定的測試集都只能測量智能的一個(gè)狹窄切片。而在圖靈測試中，裁判可以自由提問來探測模型的能力邊界。同樣，在 Turing-AGI 測試中，裁判可以設(shè)計(jì)任何工作體驗(yàn)，而且不會提前向被測試的 AI 透露測試內(nèi)容。這是比固定測試集更好的衡量 AI 通用性的方式。

吳恩達(dá)的擔(dān)憂有其現(xiàn)實(shí)基礎(chǔ)。過去幾十年里，過度炒作的預(yù)期曾經(jīng)導(dǎo)致過“AI 寒冬”。當(dāng)人們對 AI 能力感到失望時(shí)，興趣和投資就會大幅減少。

而當(dāng)前 AI 正處于一個(gè)驚人的進(jìn)步軌道上，但不切實(shí)際的炒作可能創(chuàng)造一個(gè)投資泡沫，一旦泡沫破裂，失望情緒可能會再次導(dǎo)致興趣的崩潰。

吳恩達(dá)認(rèn)為，如果舉辦一個(gè) Turing-AGI 測試競賽，而所有 AI 系統(tǒng)都未能通過，這實(shí)際上是件好事。這將有助于消解 AGI 炒作、降低泡沫風(fēng)險(xiǎn)，從而為 AI 的持續(xù)投資創(chuàng)造更可靠的路徑。而如果真的有公司通過了這個(gè)測試，那就意味著他們創(chuàng)造的不僅僅是一個(gè)營銷噱頭，而是真正具有巨大價(jià)值的東西。

這番論述的背景是，2025 年 AI 泡沫的討論已經(jīng)達(dá)到了前所未有的熱度。據(jù) Crunchbase 數(shù)據(jù)，2025 年 AI 領(lǐng)域共獲得了 2023 億美元的投資，比 2024 年的 1,140 億美元增長了 75%。高盛研究報(bào)告顯示，2026 年 AI 資本支出預(yù)計(jì)將從 4,650 億美元上調(diào)至 5,270 億美元。

與此同時(shí)，MIT Media Lab 旗下的一份研究報(bào)告在 2025 年 8 月指出，盡管企業(yè)在生成式 AI 上投入了 300-400 億美元，但 95% 的組織“零回報(bào)”。OpenAI 的 CEO 山姆·奧特曼在 2025 年的一次媒體晚宴上也承認(rèn)，他認(rèn)為投資者整體上對 AI 過度興奮了。

NBC 新聞在 2025 年底對吳恩達(dá)的采訪中，他表達(dá)了一種謹(jǐn)慎但樂觀的立場：AI 確實(shí)很神奇，但它也有很大的局限性。他認(rèn)為 AGI 還是一個(gè)遙遠(yuǎn)的可能性，他同時(shí)強(qiáng)調(diào) Agentic AI 的商業(yè)價(jià)值將持續(xù)快速增長，盡管炒作的走向難以預(yù)測。

在這封年度公開信中，吳恩達(dá)還邀請了六位在各自領(lǐng)域具有影響力的研究者和從業(yè)者分享他們對 2026 年的期望。這些觀點(diǎn)涵蓋了開源生態(tài)、科學(xué)發(fā)現(xiàn)、教育變革、從預(yù)測到行動的轉(zhuǎn)變、生物醫(yī)學(xué)多模態(tài)模型，以及構(gòu)建社區(qū)的 ChatBot。

IBM 研究院 AI 模型副總裁大衛(wèi)?考克斯（David Cox）的期望是開源 AI 能夠最終獲勝。他將當(dāng)前的局面與 1990 年代 Linux 挑戰(zhàn)微軟的歷史相類比，認(rèn)為某些玩家正在試圖擁有和控制 AI，做法與當(dāng)年微軟向發(fā)展中市場傾銷免費(fèi) Windows 如出一轍。

OpenAI 和 Meta 都發(fā)布了所謂“開放”的模型，但不披露訓(xùn)練數(shù)據(jù)集，還對使用者能夠獲得的收入設(shè)置上限。這些都是為了防止競爭者獲得吸引力。

圖丨David Cox（來源：MIT-IBM Waston AI Lab）

考克斯認(rèn)為真正開放的 AI 意味著它不被任何人擁有，不只代表一家公司的價(jià)值觀。他還提到地緣政治因素：國家之間互不信任，而模型很容易被有問題的數(shù)據(jù)投毒，真正的開放開發(fā)可以解決這個(gè)問題。IBM 在斯坦福透明度指數(shù)上排名第一，得分 95%。考克斯用一種自嘲式的幽默結(jié)束：IBM 以無聊著稱，但無聊意味著穩(wěn)定。讓 AI 在 2026 年變得更開放、更怪異，也許還有一點(diǎn)更無聊吧。

普林斯頓大學(xué) Vertaix 研究實(shí)驗(yàn)室創(chuàng)始人阿吉?布索?迪恩（Adji Bousso Dieng）希望 AI 能夠從效率工具轉(zhuǎn)變?yōu)榭茖W(xué)發(fā)現(xiàn)的催化劑。她指出，過去十年深度學(xué)習(xí)的主導(dǎo)范式是“插值”，模型擅長模仿訓(xùn)練數(shù)據(jù)的分布，但在最罕見的樣本上表現(xiàn)不佳。

物理科學(xué)中的許多重大挑戰(zhàn)，從設(shè)計(jì)全新蛋白質(zhì)到發(fā)現(xiàn)能夠捕獲二氧化碳的新型金屬有機(jī)框架等問題無法被表述為監(jiān)督學(xué)習(xí)問題，而應(yīng)該被視為發(fā)現(xiàn)問題，其所尋找的東西恰恰是稀有的。

圖丨Adji Bousso Dieng（來源：Princeton Engineering）

在這些場景中，分布的主導(dǎo)模式往往在科學(xué)上不那么有趣，因?yàn)樗鼈兇淼氖俏覀円呀?jīng)知道的東西。迪恩認(rèn)為，我們需要將多樣性提升為一等目標(biāo)，而不僅僅是將其視為次要的評估指標(biāo)。如果我們實(shí)現(xiàn)這種轉(zhuǎn)變，AI 將不再僅僅是人類知識的模仿者，而會成為擴(kuò)展知識的真正伙伴。

微軟首席數(shù)據(jù)科學(xué)家胡安?M?拉維斯塔?費(fèi)雷斯（Juan M. Lavista Ferres）聚焦于教育。ChatGPT 發(fā)布三年多后，教育界仍在與這項(xiàng)技術(shù)的影響搏斗。他指出，AI 檢測器在實(shí)驗(yàn)室里表現(xiàn)良好，但它們的這種表現(xiàn)假設(shè)學(xué)生會提交原始的模型輸出，可他們并不會。一旦有了檢測器，學(xué)生就有動機(jī)去規(guī)避它，而規(guī)避并不困難。

這是一個(gè)結(jié)構(gòu)性問題：如果你能構(gòu)建一個(gè)檢測 AI 生成文本的系統(tǒng)，那你就可以用這個(gè)系統(tǒng)來訓(xùn)練一個(gè)擊敗它的系統(tǒng)。檢測可能會懲罰錯(cuò)誤的人（尤其是非英語母語者），同時(shí)未能阻止最復(fù)雜的規(guī)避。他建議教育者使用現(xiàn)場考試、口頭答辯等真實(shí)的理解展示方式，并假設(shè)學(xué)生會使用 AI 工具來設(shè)計(jì)作業(yè)。精靈已經(jīng)從瓶子里出來了，沒有辦法把它放回去。

圖丨Juan M. Lavista Ferres（來源：Microsoft）

艾倫人工智能研究所高級研究科學(xué)家譚梅?古普塔（Tanmay Gupta）認(rèn)為，2026 年 AI 研究應(yīng)該正視一個(gè)核心認(rèn)識：預(yù)測的模型與行動的系統(tǒng)是不同的，后者才是我們真正需要的。世界上有經(jīng)濟(jì)意義的任務(wù)不會在單個(gè)預(yù)測結(jié)束，它們需要在復(fù)雜、動態(tài)的環(huán)境中采取一系列行動。

考慮一下編程是如何演變的：模型曾經(jīng)只是自動補(bǔ)全代碼行，但現(xiàn)代編程 Agent 越來越多地接受高級規(guī)范、搜索代碼庫、運(yùn)行測試，并以最少的人工干預(yù)返回工作解決方案。古普塔希望能將這種演變帶到其他領(lǐng)域。

這些目標(biāo)導(dǎo)向的 AI 系統(tǒng)需要的不僅僅是預(yù)測能力，還需要持久記憶、長時(shí)間專注于目標(biāo)的能力、對實(shí)時(shí)反饋的響應(yīng)，以及在不斷變化的環(huán)境中應(yīng)對不確定性的能力。處理未明確、定義不清、未發(fā)現(xiàn)和未想象的任務(wù)是下一個(gè)前沿。

圖丨Tanmay Gupta（來源：Medium）

加州大學(xué)圣地亞哥分校副教授 Pengtao Xie 的期望圍繞生物醫(yī)學(xué)領(lǐng)域的多模態(tài)模型。在過去幾年里，聯(lián)合推理文本、圖像、序列的模型取得了快速進(jìn)展，但在生物醫(yī)學(xué)環(huán)境中，這些能力往往仍然是碎片化的、脆弱的或難以解釋的。

他強(qiáng)調(diào)，生物系統(tǒng)本質(zhì)上是多尺度和多視角的，基礎(chǔ)模型應(yīng)該實(shí)現(xiàn)深度的多模態(tài)整合，而不是模態(tài)的表面拼接。另一個(gè)關(guān)鍵焦點(diǎn)是可解釋性：在生物醫(yī)學(xué)中，僅有預(yù)測是遠(yuǎn)遠(yuǎn)不夠的，研究人員和臨床醫(yī)生需要理解模型為什么做出某個(gè)決定、它依賴什么證據(jù)。2026 年的進(jìn)展不僅應(yīng)該通過基準(zhǔn)測試來衡量，還應(yīng)該通過整合到生物醫(yī)學(xué)工作流程中來衡量。

圖丨Pengtao Xie（來源：Pengtao Xie）

AMD 企業(yè)副總裁莎朗?周（Sharon Zhou）則希望看到 AI 打破與每個(gè)人的一對一關(guān)系，將人們聚集在一起而不是孤立他們。今天的互聯(lián)網(wǎng)正在被推向兩個(gè)極端，一端是嚴(yán)重的 AI“垃圾化”，一邊是拼命想把 LLM 擋在門外的人工策展。但這種張力可以是整合性的：AI 可以被設(shè)計(jì)成連接人們、加強(qiáng)人際聯(lián)系的工具。

圖丨SharonZhou（來源：MIT Technology Review）

想象一下，當(dāng)你在凌晨三點(diǎn)和 LLM 談?wù)撘粋€(gè)人際關(guān)系問題時(shí)，它問你是否想和另一個(gè)有同樣感受的人聊聊，然后加入你們的對話，用有趣的問題讓交流活躍起來，直到你意識到你交了幾個(gè)朋友，修復(fù)了你的 bug，還獲得了處理人際關(guān)系的新視角。好奇心在被分享時(shí)會加速，它是有傳染性的。要是AI從一開始就被設(shè)計(jì)成撮合人的角色，人和 AI 都能從中受益。

吳恩達(dá)在公開信的最后寫道：新年快樂，祝大家在新的一年里有一個(gè)美好的建設(shè)之旅。而“建設(shè)”這個(gè)詞或許正應(yīng)當(dāng)是今年 AI 發(fā)展的主線。在炒作與泡沫的喧囂中，真正重要的是那些正在默默建設(shè)的人，以及他們建設(shè)出來的、能夠真正完成工作的東西。

參考資料：

https://www.deeplearning.ai/the-batch/issue-334/

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.