網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

論文推薦 | 自我完善的AI：AI與人類以更安全的共同超級(jí)智能（Co-Superintelligence）為目標(biāo)的共同自我完善

2025-12-15 17:51:52　來(lái)源: 科學(xué)的歷程

湖北舉報(bào)

分享至

*機(jī)器翻譯最新論文，Meta團(tuán)隊(duì)關(guān)于超級(jí)AI的最新討論，作者JasonWeston和Jakob Foerster。感謝邱德鈞教授推薦

自我完善是當(dāng)前人工智能領(lǐng)域令人振奮的目標(biāo)，但充滿風(fēng)險(xiǎn)且可能需要時(shí)間才能完全實(shí)現(xiàn)。我們主張，對(duì)人類而言更可實(shí)現(xiàn)且更優(yōu)的目標(biāo)是最大化協(xié)同完善：即人類研究者與人工智能協(xié)作，共同達(dá)成超智能。具體而言，這意味著著力提升人工智能系統(tǒng)與人類研究者協(xié)同開(kāi)展人工智能研究的能力——從構(gòu)思到實(shí)驗(yàn)全程合作，既能加速人工智能研究進(jìn)程，又能通過(guò)人機(jī)共生關(guān)系為雙方賦予更安全的超級(jí)智能。將人類研究改進(jìn)納入閉環(huán)系統(tǒng)，既能加速目標(biāo)達(dá)成，又能確保過(guò)程安全。

1.自我完善AI的目標(biāo)

自誕生以來(lái)，能夠自我改進(jìn)的人工智能始終是該領(lǐng)域的主要目標(biāo)[1]。歷史上，實(shí)際應(yīng)用主要聚焦于通過(guò)權(quán)重參數(shù)化模型，并尋找最佳權(quán)重組合——從線性模型到神經(jīng)網(wǎng)絡(luò)，整個(gè)過(guò)程均無(wú)需人工干預(yù)。2010年代開(kāi)啟了模型規(guī)模持續(xù)擴(kuò)大的時(shí)代[2]，雖然性能顯著提升，但自我改進(jìn)仍僅限于權(quán)重優(yōu)化，而架構(gòu)、數(shù)據(jù)、目標(biāo)函數(shù)、更新規(guī)則及實(shí)現(xiàn)（代碼）基本固定不變。當(dāng)前時(shí)代將自我優(yōu)化探索擴(kuò)展至全方位學(xué)習(xí)改進(jìn)：模型能自主生成訓(xùn)練數(shù)據(jù)[3]、通過(guò)自我挑戰(zhàn)提升性能[4,5]，并學(xué)會(huì)根據(jù)任務(wù)表現(xiàn)自我評(píng)估與獎(jiǎng)勵(lì)[6,7,8]；詳見(jiàn)表2。其中部分維度已顯著提升性能，合成數(shù)據(jù)生成與大型語(yǔ)言模型作為評(píng)判者等方法已成為前沿模型的標(biāo)準(zhǔn)構(gòu)建模塊。而追求能夠自我優(yōu)化架構(gòu)、重寫自身代碼的人工智能仍處于萌芽階段[9,10]，但早期跡象顯示其潛力巨大，當(dāng)前自主人工智能研究代理的推進(jìn)便是明證[11,12,13,14]。

如今顯然，我們正朝著日益智能的人工智能系統(tǒng)邁進(jìn)，從長(zhǎng)遠(yuǎn)來(lái)看，這些系統(tǒng)將在所有任務(wù)指標(biāo)上大幅超越人類。完全實(shí)現(xiàn)自我改進(jìn)無(wú)疑是終極標(biāo)志。然而，若在系統(tǒng)中未嵌入適當(dāng)?shù)囊龑?dǎo)機(jī)制就賦予人工智能這種自主能力，將給人類帶來(lái)巨大風(fēng)險(xiǎn)——從濫用到目標(biāo)錯(cuò)位[15]。盡管如此，在人工智能全面超越人類之前，我們?nèi)杂袝r(shí)間，尤其是在人工智能研究領(lǐng)域。因此我們建議，更應(yīng)聚焦于人類與人工智能協(xié)同解決這些問(wèn)題。

2.人類更好的目標(biāo)：共同自我完善AI（co-improving AI）

我們的核心觀點(diǎn)是：“解決人工智能”的進(jìn)程可通過(guò)構(gòu)建與人類協(xié)作解決人工智能問(wèn)題的人工智能來(lái)加速。這有別于自我改進(jìn)型人工智能的目標(biāo)——后者旨在盡快將人類排除在決策循環(huán)之外，讓人工智能自主開(kāi)展研究與學(xué)習(xí)。相反，我們倡導(dǎo)“協(xié)同改進(jìn)”模式：構(gòu)建協(xié)作型人工智能代理，使其與人類共同開(kāi)展研究。由此，我們通過(guò)研究本身來(lái)加速研究進(jìn)程。關(guān)鍵在于，人類參與決策鏈?zhǔn)刮覀兡軌蛞龑?dǎo)研究走向正確方向——即“解決人工智能”意味著為人類創(chuàng)造積極解決方案。我們尤其認(rèn)為，這種積極解決方案應(yīng)體現(xiàn)在人工智能在社會(huì)各領(lǐng)域增強(qiáng)人類能力、賦能人類，而非追求徹底自動(dòng)化以取代人類決策。

盡管當(dāng)前大部分人工智能研究仍由人類主導(dǎo)，但我們預(yù)期隨著時(shí)間推移，這種負(fù)擔(dān)將逐漸分擔(dān)——隨著人工智能的進(jìn)步，它能與我們協(xié)同工作，承擔(dān)更多提供解決方案的工作量。這種協(xié)作能充分發(fā)揮人類與人工智能互補(bǔ)的技能優(yōu)勢(shì)，二者目前在不同領(lǐng)域各具專長(zhǎng)，而我們預(yù)計(jì)人工智能將在更多維度持續(xù)超越人類。然而，由于人工智能尚未成熟到能夠完全自我改進(jìn)，且容易出現(xiàn)目標(biāo)錯(cuò)位，我們認(rèn)為協(xié)同改進(jìn)能讓我們更快、更安全地實(shí)現(xiàn)目標(biāo)。也就是說(shuō)，在人工智能的幫助下，我們更有可能解決人工智能的能力和安全問(wèn)題——但前提是人類始終參與其中，共同開(kāi)展研究。因此，協(xié)同改進(jìn)有助于為人類帶來(lái)積極成果。

難道我們不是已經(jīng)在這么做了嗎？通往超級(jí)智能的道路存在多種可能性，當(dāng)前的人工智能系統(tǒng)已在某種程度上協(xié)助我們探索這些研究方向，例如通過(guò)代碼輔助和寫作輔助功能?？傮w而言，提升前沿模型的整體能力確實(shí)能使其具備部分適合科研協(xié)作的技能——這屬于附帶效果。然而我們通常發(fā)現(xiàn)，當(dāng)技能得到針對(duì)性訓(xùn)練時(shí)會(huì)進(jìn)一步提升。例如大量投入提升AI編程能力后，其編程水平確實(shí)有所提高。但編程問(wèn)題同樣尚未解決[16]，而“解決”AI問(wèn)題遠(yuǎn)不止于此。我們的核心觀點(diǎn)是：若投入更多開(kāi)發(fā)資源賦予AI進(jìn)行AI研究協(xié)作的能力，這些能力同樣會(huì)得到提升。

我們能獲得什么？人工智能的進(jìn)步源于訓(xùn)練數(shù)據(jù)與方法變革的雙重驅(qū)動(dòng)——從架構(gòu)到訓(xùn)練目標(biāo)的變革，這些進(jìn)步往往協(xié)同作用，引發(fā)顯著的范式轉(zhuǎn)變。例如：創(chuàng)建ImageNet并引入AlexNet[33, 34]、整理網(wǎng)絡(luò)數(shù)據(jù)并擴(kuò)展變換器模型[35, 34, 37]、標(biāo)注指令遵循數(shù)據(jù)并構(gòu)建RLHF訓(xùn)練[38, 39, 40]、收集可驗(yàn)證推理任務(wù)并運(yùn)用RLVR訓(xùn)練思維鏈模型 [41, 42, 43, 25]。每項(xiàng)突破都凝聚了人類研究者巨大的付出，伴隨著無(wú)數(shù)細(xì)微的中間成果、錯(cuò)誤方向與探索死胡同。任何提升研究效率的手段都將加速這一進(jìn)程。因此，與強(qiáng)大的人工智能系統(tǒng)開(kāi)展協(xié)同研究，必將加速發(fā)現(xiàn)當(dāng)前尚未顯現(xiàn)的未知范式變革。

總體而言，我們預(yù)期協(xié)同改進(jìn)能帶來(lái)以下優(yōu)勢(shì)：(i) 加速發(fā)現(xiàn)重要范式轉(zhuǎn)變的進(jìn)程；(ii) 相較于直接自我改進(jìn)，在推進(jìn)過(guò)程中提供更高透明度與可控性；(iii) 更聚焦于以人為本的安全人工智能。例如，我們或許能開(kāi)發(fā)出在機(jī)器學(xué)習(xí)理論領(lǐng)域超越人類的系統(tǒng)，從而實(shí)現(xiàn)可驗(yàn)證安全的人工智能。相比之下，完全自主的人工智能自我改進(jìn)系統(tǒng)可能存在目標(biāo)誤設(shè)問(wèn)題（例如其對(duì)“解決人工智能問(wèn)題”的定義未考慮人類需求）。

我們?nèi)绾螌?shí)現(xiàn)？為構(gòu)建能與我們協(xié)同開(kāi)展研究的人工智能，我們應(yīng)將部分精力聚焦于培養(yǎng)具備這些技能的AI。這意味著需要通過(guò)新基準(zhǔn)測(cè)試來(lái)衡量AI的研究協(xié)作能力，并構(gòu)建能提升這些基準(zhǔn)的訓(xùn)練數(shù)據(jù)與方法——正如我們培養(yǎng)其他技能時(shí)所做的那樣。這些技能應(yīng)覆蓋端到端研究流程中的所有核心AI研究活動(dòng)。我們?cè)诒?中定義了若干核心技能，包括：協(xié)同識(shí)別研究問(wèn)題、創(chuàng)建訓(xùn)練數(shù)據(jù)與基準(zhǔn)測(cè)試、創(chuàng)新方法論、設(shè)計(jì)并執(zhí)行實(shí)驗(yàn)、開(kāi)展評(píng)估與錯(cuò)誤分析（并將結(jié)果反饋至整個(gè)流程優(yōu)化）。同樣重要的目標(biāo)還包括：安全與對(duì)齊機(jī)制的協(xié)同設(shè)計(jì)與開(kāi)發(fā)、系統(tǒng)改進(jìn)、創(chuàng)新成果向?qū)嶋H應(yīng)用場(chǎng)景的轉(zhuǎn)化，以及科學(xué)傳播。關(guān)鍵區(qū)別在于：與近期提出的端到端人工智能科學(xué)家方法[11, 14]不同，本研究旨在提升研究質(zhì)量，而非通過(guò)全自動(dòng)化加速產(chǎn)出研究成果（如論文）。

從協(xié)同改進(jìn)到協(xié)同超智能我們?cè)O(shè)想?yún)f(xié)同改進(jìn)的首要目標(biāo)是提升我們研究改進(jìn)人工智能的能力。我們預(yù)期成功時(shí)的最終結(jié)果——如同自我改進(jìn)范式那樣——將是一個(gè)具備自我改進(jìn)能力的超智能系統(tǒng)。然而不同之處在于：當(dāng)人類在每個(gè)循環(huán)步驟中協(xié)同AI系統(tǒng)推進(jìn)時(shí)，我們擁有更多機(jī)會(huì)引導(dǎo)該進(jìn)程產(chǎn)生積極的人類效益。尤其可關(guān)注安全與社會(huì)危害（詳見(jiàn)后文），并在每個(gè)階段提升人類集體知識(shí)儲(chǔ)備。

展望未來(lái)，我們進(jìn)一步設(shè)想?yún)f(xié)同進(jìn)化的目標(biāo)將從構(gòu)建參與AI研究的協(xié)作AI，轉(zhuǎn)向在各類研究或關(guān)乎人類的重要議題上實(shí)現(xiàn)協(xié)同進(jìn)化。隨著AI能力不斷提升，這些新技能有望變得更易掌握。從人類社會(huì)角度看，構(gòu)建AI能幫助人類提升自身能力、知識(shí)儲(chǔ)備及生存境遇。因此我們可聚焦于實(shí)現(xiàn)這些目標(biāo)的人工智能建設(shè)。我們將超越人類現(xiàn)有能力的AI賦能稱為協(xié)同智能，強(qiáng)調(diào)人工智能能為人類創(chuàng)造的價(jià)值。

協(xié)同改進(jìn)與社會(huì)危害及效益隨著能力提升，潛在危害亦可能增加。當(dāng)前存在諸多危害源于模型能力不足，例如越獄現(xiàn)象[44]的發(fā)生，正是因?yàn)槟Ｐ臀茨堋袄斫狻弊陨硪驯辉姜z。與人工智能協(xié)作可助力尋找研究解決方案——解決它們自身的問(wèn)題！——即發(fā)現(xiàn)并實(shí)施新能力，從而打造更安全的模型、建立新安全流程，并共同制定價(jià)值觀、約束機(jī)制和治理框架。這種樂(lè)觀觀點(diǎn)認(rèn)為，若操作得當(dāng)，人工智能增強(qiáng)的能力反而能減少危害。

隨著人工智能能力提升，還存在樂(lè)觀機(jī)遇可協(xié)助解決其自身影響之外的諸多社會(huì)問(wèn)題。相較于自我進(jìn)化的超級(jí)智能反烏托邦范式——即人工智能統(tǒng)治者向人類強(qiáng)加最佳實(shí)踐——協(xié)同進(jìn)化范式主張通過(guò)合作達(dá)成共識(shí)，尋找可操作的解決方案。人類與人工智能的多方協(xié)作有助于整合觀點(diǎn)、結(jié)構(gòu)化辯論，并推動(dòng)人類達(dá)成積極結(jié)論與成果。

協(xié)同改進(jìn)與開(kāi)放性若人類欲提升科學(xué)認(rèn)知，最明晰的途徑便是運(yùn)用科學(xué)方法。這意味著開(kāi)展可復(fù)現(xiàn)的科學(xué)研究，公開(kāi)傳播研究成果，使他人得以驗(yàn)證或在此基礎(chǔ)上推進(jìn)，從而促進(jìn)集體知識(shí)進(jìn)步。協(xié)同改進(jìn)能加速這一進(jìn)程，無(wú)論在人工智能領(lǐng)域還是其他科學(xué)領(lǐng)域皆然。我們注意到當(dāng)前多家工業(yè)實(shí)驗(yàn)室正逐漸遠(yuǎn)離開(kāi)放式人工智能研究。正如[45]所述，我們認(rèn)同“不應(yīng)以濫用擔(dān)憂為借口過(guò)度限制開(kāi)放性——尤其當(dāng)真實(shí)動(dòng)機(jī)涉及企業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)時(shí)”。然而在人工智能領(lǐng)域，正如其他科學(xué)領(lǐng)域，我們認(rèn)為應(yīng)考慮實(shí)施管控式開(kāi)放機(jī)制，以在必要時(shí)防范社會(huì)危害[45]。隨著技術(shù)能力的提升，這應(yīng)成為持續(xù)探討的議題。

3.與其他現(xiàn)狀的關(guān)系

相關(guān)立場(chǎng)我們的立場(chǎng)與關(guān)于以人為本的人工智能的論述相關(guān)[46, 47, 48, 49]，但更具體地指向通過(guò)協(xié)作研究實(shí)現(xiàn)（協(xié)同）超智能的目標(biāo)。類似地，[50]的研究倡導(dǎo)合作型人工智能，主張與機(jī)器建立共同基礎(chǔ)，其中研究將成為特殊案例。盡管如此，我們認(rèn)同在超人類AI出現(xiàn)后，探索各類人機(jī)協(xié)作模式仍是未來(lái)人類社會(huì)的關(guān)鍵目標(biāo)。另有研究強(qiáng)調(diào)目標(biāo)錯(cuò)位是重大挑戰(zhàn)，主張AI目標(biāo)必須以人類為導(dǎo)向[51]。關(guān)鍵在于，我們主張這一艱巨課題能夠且應(yīng)當(dāng)通過(guò)協(xié)作解決。例如，與人工智能的協(xié)作可能更易于發(fā)現(xiàn)其自身設(shè)計(jì)缺陷；但我們認(rèn)為此類研究應(yīng)當(dāng)立即展開(kāi)——而非等到系統(tǒng)全面部署后才倉(cāng)促補(bǔ)救，屆時(shí)為時(shí)已晚。

對(duì)立觀點(diǎn)諸多研究探討了自主自我改進(jìn)及其實(shí)現(xiàn)途徑，例如[9, 52, 53, 54, 55]。相應(yīng)地，大量研究也開(kāi)發(fā)了具有不同技術(shù)貢獻(xiàn)的實(shí)際實(shí)例，詳見(jiàn)表2所示案例。

[54]的作者們倡導(dǎo)進(jìn)入“體驗(yàn)時(shí)代”，其中自我完善通過(guò)人工智能自主學(xué)習(xí)自身經(jīng)驗(yàn)實(shí)現(xiàn)。這意味著與人類的協(xié)作將大幅減少——例如他們指出人工智能將“在材料科學(xué)、醫(yī)學(xué)或硬件設(shè)計(jì)等領(lǐng)域自主設(shè)計(jì)并開(kāi)展實(shí)驗(yàn)”。他們同時(shí)承認(rèn)這“減少了人類干預(yù)和調(diào)解智能體行動(dòng)的機(jī)會(huì)，因此需要極高的信任與責(zé)任門檻”。另有觀點(diǎn)認(rèn)為當(dāng)自我進(jìn)化目標(biāo)達(dá)成后人類將無(wú)足輕重，例如[56]指出："……人工智能將殖民銀河系。人類雖不會(huì)扮演重要角色，但這無(wú)妨。我們應(yīng)當(dāng)為參與這場(chǎng)超越人類的宏大進(jìn)程而自豪。"

與此相對(duì)，我們構(gòu)想的世界是：人類始終作為不可或缺的組成部分——雖經(jīng)最大程度增強(qiáng)——參與經(jīng)濟(jì)、科學(xué)乃至所有決策流程。我們堅(jiān)信人工智能界應(yīng)在追求長(zhǎng)期目標(biāo)的過(guò)程中，全面擁抱并踐行這一愿景。

4.結(jié)論

我們認(rèn)為現(xiàn)有自主自我改進(jìn)人工智能的目標(biāo)存在誤導(dǎo)性，原因有二：這既非實(shí)現(xiàn)超級(jí)智能的最快途徑，亦非最安全的途徑。我們主張采取協(xié)同改進(jìn)模式：由人類研究者專注構(gòu)建協(xié)作型人工智能，尤其要使其協(xié)助我們開(kāi)展研究——借助其力量，推動(dòng)人工智能持續(xù)提升協(xié)作能力、增強(qiáng)效能并保障安全性。實(shí)現(xiàn)這一目標(biāo)后，未來(lái)便能創(chuàng)造出極具能力的AI，它們將與人類攜手解決關(guān)乎全人類的重要目標(biāo)與社會(huì)難題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.