微軟研究院突破：AI智能體實現(xiàn)偵探式探索與經(jīng)驗內(nèi)化

2026-02-27 22:18:10　來源: 科技行者

北京舉報

分享至

這項由微軟研究院聯(lián)合韓國科學技術院共同完成的開創(chuàng)性研究，于2026年發(fā)表在國際學習表征會議（ICLR 2026）上。對于那些想要深入了解這項研究的讀者，可以通過論文編號arXiv:2602.23008v1查詢完整的技術細節(jié)。

一、從困在迷宮里的AI說起

當我們讓人工智能去完成一些需要多步驟思考的復雜任務時，經(jīng)常會遇到一個令人沮喪的現(xiàn)象：這些AI智能體就像一個總是在同一個地方打轉的人，明明應該去探索新的路徑，卻總是重復著同樣的錯誤。

這種現(xiàn)象在AI領域被稱為"探索不足"問題。就好比你要求一個人在一個陌生的城市里找到最好的餐廳，但這個人卻始終只在熟悉的幾條街道上轉悠，從來不敢嘗試走進那些看起來陌生但可能藏著驚喜的小巷。大型語言模型雖然擁有豐富的預訓練知識，但在面對需要主動探索的環(huán)境時，往往傾向于依賴已有的知識模式，而不愿意冒險嘗試可能失敗但能帶來新發(fā)現(xiàn)的行動。

更具體地說，當前的AI智能體在執(zhí)行科學實驗或網(wǎng)購這樣的多步驟任務時，經(jīng)常會卡在某個環(huán)節(jié)上。比如在虛擬科學實驗中，AI被要求"打開紅色燈泡"，它可能會一直嘗試在當前房間里尋找紅色燈泡，即使這個房間里根本沒有。正確的做法應該是先探索其他房間，找到燈泡的位置，然后再想辦法點亮它。但現(xiàn)有的AI系統(tǒng)往往缺乏這種系統(tǒng)性探索的能力。

二、記憶與學習的巧妙結合

面對這個挑戰(zhàn)，微軟研究院的科學家們提出了一個極其巧妙的解決方案，他們稱之為"探索性記憶增強在線和離線策略優(yōu)化"（EMPO?）。這個名字雖然聽起來復雜，但其核心思想?yún)s可以用一個簡單的比喻來理解。

設想一位經(jīng)驗豐富的偵探在調(diào)查一系列相關案件。這位偵探不僅會在每次調(diào)查中嘗試新的線索追蹤方法，還會仔細記錄每次調(diào)查的心得體會。更重要的是，他會將這些經(jīng)驗內(nèi)化為自己的直覺和判斷能力，這樣即使在沒有案件記錄的情況下，他也能憑借積累的經(jīng)驗做出正確的判斷。

EMPO?框架正是模擬了這樣的學習過程。它讓AI智能體具備了三種不同的"調(diào)查模式"：有時候它會像新手偵探一樣純粹依靠直覺行動，有時候它會查閱以往的案件記錄來指導當前的行動，而在學習階段，它還會將從記錄中學到的經(jīng)驗轉化為自己內(nèi)在的能力。

這種設計的精妙之處在于，它不僅讓AI能夠利用外部記憶來改善探索效果，更重要的是，它能夠將這些外部指導逐漸內(nèi)化到AI的參數(shù)中，使AI即使在沒有外部記憶輔助的情況下也能表現(xiàn)出色。這就像一個學生通過查閱筆記來學習，但最終目標是不看筆記也能答對考試題目。

三、三種模式的協(xié)調(diào)配合

EMPO?框架的核心在于它設計了一套精巧的多模式系統(tǒng)，就像一個訓練有素的調(diào)查團隊，根據(jù)不同情況采用不同的工作方式。

在執(zhí)行任務的階段，AI智能體會在兩種模式之間隨機切換。第一種是"裸奔模式"，智能體完全依靠自己當前的判斷能力來行動，就像一個經(jīng)驗豐富的偵探憑直覺辦案。第二種是"記憶輔助模式"，智能體會先查詢自己的記憶庫，尋找與當前情況相似的歷史經(jīng)驗，然后基于這些"案例檔案"來制定行動策略。

每當一次任務結束后，無論成功還是失敗，AI都會像一個善于反思的偵探一樣，總結這次經(jīng)歷的關鍵要點。這些總結不是簡單的成功或失敗記錄，而是更深層的洞察。比如，"在尋找紅色燈泡的任務中，直接在走廊里尋找是無效的，應該先探索相鄰的房間"，或者"要創(chuàng)造綠色顏料，需要先在藝術工作室找到藍色和黃色顏料，然后進行混合"。

在學習階段，EMPO?展現(xiàn)出了它最獨特的創(chuàng)新之處。對于那些在記憶輔助下完成的任務，系統(tǒng)會采用兩種不同的學習策略。第一種是"在線學習"，就像學生按照參考答案來復習，系統(tǒng)會強化那些在記憶指導下取得好結果的行動模式。第二種是"離線學習"，這是更加巧妙的設計：系統(tǒng)會問自己"如果我當時沒有記憶提示，我是否還能做出同樣好的決策？"然后針對性地訓練這種不依賴外部提示的能力。

這種離線學習可以理解為一種"知識蒸餾"過程。就像一個學生通過反復練習，最終能夠不看筆記就掌握知識要點一樣，AI通過這種方式將外部記憶中的智慧逐漸轉化為內(nèi)在的能力。

四、防止學習過程中的"翻車"

在實際的技術實現(xiàn)中，研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象：當AI嘗試從記憶指導的經(jīng)驗中學習時，有時候會出現(xiàn)訓練不穩(wěn)定的問題，就像一個學生在從參考答案學習時，有時候會因為過度依賴答案而忘記了思考的基本邏輯。

為了解決這個問題，研究人員引入了一個巧妙的"安全閥"機制。當系統(tǒng)檢測到某些決策的置信度過低時（具體來說，是當模型對某個行動的預測概率低于設定閾值時），它會暫時忽略這些不確定的決策，專注于那些更有把握的學習機會。這就像一個謹慎的學生，在不確定答案的時候會暫時跳過，先鞏固那些已經(jīng)理解的知識點。

另外，為了確保AI始終保持探索新領域的動力，研究團隊還設計了一個"好奇心機制"。這個機制會給AI遇到新情況時提供額外的獎勵，鼓勵它去探索那些從未見過的場景。具體來說，當AI遇到與歷史經(jīng)驗差異較大的新情況時，系統(tǒng)會自動給予額外的獎勵分數(shù)，這樣AI就不會因為害怕失敗而總是選擇安全的老路。

五、在虛擬世界中的精彩表現(xiàn)

為了驗證這個框架的有效性，研究團隊選擇了兩個極具挑戰(zhàn)性的虛擬環(huán)境來進行測試。這兩個環(huán)境分別是ScienceWorld（科學世界）和WebShop（網(wǎng)絡購物），它們都需要AI進行復雜的多步驟推理和探索。

在ScienceWorld環(huán)境中，AI需要完成各種科學實驗任務，比如組裝電路來點亮特定顏色的燈泡，或者混合化學物質來創(chuàng)造特定顏色的顏料。這些任務的復雜性在于，AI不僅需要理解任務目標，還需要在虛擬環(huán)境中主動探索，找到必需的工具和材料，然后按照正確的步驟完成實驗。

以"點亮紅色燈泡"這個任務為例，傳統(tǒng)的AI智能體往往會在初始房間里反復嘗試尋找紅色燈泡，即使這個房間里并沒有。當嘗試失敗后，它們通常不知道應該去探索其他區(qū)域。而使用EMPO?框架的AI在幾次嘗試后，就能夠從記憶中學到"當前位置沒有目標物品時，應該系統(tǒng)性地探索其他房間"這樣的策略。更重要的是，經(jīng)過多次訓練后，即使不依賴記憶提示，AI也能自主地采用這種探索策略。

在WebShop環(huán)境中，AI需要根據(jù)用戶的購物需求，在復雜的電商網(wǎng)站上搜索、篩選和購買商品。這個過程涉及理解用戶需求、導航網(wǎng)站界面、比較不同商品的屬性和價格等多個步驟。傳統(tǒng)的AI往往會在某個步驟上卡住，比如不知道如何有效地使用搜索功能，或者在面對多個相似商品時不知道如何做出最優(yōu)選擇。

實驗結果顯示，EMPO?框架在這兩個環(huán)境中都取得了顯著的性能提升。在ScienceWorld中，相比于當前最先進的在線強化學習方法GRPO，EMPO?的表現(xiàn)提升了128.6%。在WebShop環(huán)境中，提升幅度也達到了11.3%。這些數(shù)字背后的意義在于，AI不再是在同一個地方打轉，而是真正學會了系統(tǒng)性的探索和問題解決。

六、從依賴記憶到獨立思考的轉變

EMPO?框架最令人印象深刻的特性之一，是它展現(xiàn)出的從"依賴外部提示"到"獨立自主判斷"的學習曲線。這個過程就像一個學生從需要查閱筆記到能夠獨立解題的成長過程。

在訓練的早期階段，AI嚴重依賴記憶中的經(jīng)驗提示來做出決策。就像一個新手廚師需要不斷查看菜譜才能做出一道菜一樣，AI此時還無法獨立處理復雜的任務。但是隨著訓練的進行，一個有趣的現(xiàn)象出現(xiàn)了：即使在完全沒有記憶提示的情況下，AI的表現(xiàn)也在穩(wěn)步提升。

更加令人驚喜的是，當研究團隊測試這個經(jīng)過訓練的AI在全新的、從未見過的任務上的表現(xiàn)時，他們發(fā)現(xiàn)AI表現(xiàn)出了出色的適應能力。即使面對完全陌生的任務，AI只需要很少的幾次嘗試就能夠利用記憶機制快速學會新的策略。這就像一個經(jīng)驗豐富的問題解決者，雖然面對的是新問題，但能夠quickly地找到解決思路。

舉個具體的例子，當研究團隊讓一個在生物學任務上訓練的AI去解決電學實驗問題時，AI在沒有任何參數(shù)更新的情況下，僅僅通過幾次試驗和記憶積累，就能在新任務上取得良好的表現(xiàn)。這種跨領域的適應能力表明，EMPO?不僅僅是在訓練特定的任務技能，更是在培養(yǎng)AI的通用問題解決能力。

七、與其他方法的比較優(yōu)勢

為了充分評估EMPO?的效果，研究團隊將其與多種現(xiàn)有方法進行了全面比較。這些對比方法代表了當前AI領域的不同技術路徑，每一種都有其獨特的特點和適用場景。

首先是Reflexion方法，這種方法純粹依賴外部記憶，就像一個總是需要查閱筆記本的學生。雖然它能夠利用歷史經(jīng)驗來改善決策，但由于沒有參數(shù)更新機制，它的學習能力相對有限，往往在復雜任務上很快就遇到性能瓶頸。

其次是Retrospex這樣的離線強化學習方法，它們類似于通過大量歷史案例進行學習的專家系統(tǒng)。這些方法的優(yōu)勢在于能夠從大量數(shù)據(jù)中提取有價值的模式，但缺點是在面對與訓練數(shù)據(jù)差異較大的新情況時，往往表現(xiàn)不佳。

還有GRPO這樣的在線強化學習方法，它們能夠在與環(huán)境的實時互動中不斷學習和改進。然而，由于缺乏有效的探索機制，這些方法經(jīng)常會陷入局部最優(yōu)解，就像一個人總是走同樣的路線而不知道還有更好的選擇。

相比之下，EMPO?的優(yōu)勢在于它巧妙地結合了記憶輔助的探索能力和參數(shù)更新的學習能力。這就像培養(yǎng)了一個既能查閱資料又能獨立思考的全能型問題解決者。實驗結果顯示，在幾乎所有的任務類型中，EMPO?都顯著優(yōu)于這些單一策略的方法。

特別值得注意的是，在一些任務中，純粹的參數(shù)學習方法甚至表現(xiàn)得比簡單的記憶方法還要差。這種現(xiàn)象說明，缺乏有效探索機制的學習可能會讓AI陷入錯誤的行為模式，而難以自我糾正。EMPO?通過其混合策略成功地避免了這個陷阱。

八、技術實現(xiàn)的精巧之處

在技術實現(xiàn)層面，EMPO?展現(xiàn)出了多個精巧的設計細節(jié)，這些細節(jié)雖然看似微小，卻對整體性能產(chǎn)生了重要影響。

記憶檢索機制采用了基于語義相似度的智能匹配算法。當AI面對當前情況時，它不是簡單地查找完全相同的歷史經(jīng)驗，而是尋找那些在本質上相似的情況。這就像一個有經(jīng)驗的醫(yī)生，雖然每個病人的癥狀可能略有不同，但能夠識別出相似的疾病模式。這種語義匹配確保了AI能夠從相關的歷史經(jīng)驗中獲得有價值的指導，而不是被表面的差異所迷惑。

在記憶生成方面，系統(tǒng)不是簡單地記錄成功或失敗的結果，而是讓AI自己總結每次經(jīng)歷的深層洞察。這些總結通常是簡潔但富有洞察力的句子，比如"電路連接需要確保正極和負極的正確匹配"或"混合顏料時需要在專門的工作區(qū)域進行操作"。這種自我反思的機制確保了記憶內(nèi)容的質量和實用性。

為了防止記憶系統(tǒng)變得過于龐大和混亂，研究團隊還設計了一個智能的記憶管理機制。系統(tǒng)會自動識別和刪除重復或過時的記憶條目，保持記憶庫的精簡和高效。同時，它會根據(jù)記憶條目的使用頻率和效果來調(diào)整它們的優(yōu)先級，確保最有價值的經(jīng)驗總是能夠被優(yōu)先檢索到。

九、計算效率的平衡藝術

雖然EMPO?帶來了顯著的性能提升，但研究團隊也坦誠地分析了這種方法在計算效率方面的代價。相比傳統(tǒng)的強化學習方法，EMPO?需要額外的計算資源來處理記憶檢索、生成和管理。

具體來說，記憶相關的操作大約增加了19%的訓練時間。這部分額外時間主要用于在每次任務結束后生成經(jīng)驗總結，以及在需要記憶輔助時進行相似度檢索。雖然這確實增加了計算成本，但研究團隊通過時間-性能曲線分析發(fā)現(xiàn)，即使考慮到這些額外的計算時間，EMPO?仍然比傳統(tǒng)方法更加高效，因為它能夠更快地達到更好的性能水平。

研究團隊還指出，隨著AI能力的提升，這種對外部記憶的依賴會逐漸減少。換句話說，雖然訓練階段需要額外的計算資源，但訓練完成后的AI在實際應用中并不需要這些記憶支持，因為它已經(jīng)將關鍵的經(jīng)驗內(nèi)化為自身的能力。這就像投資教育的道理：雖然學習階段需要投入更多資源，但最終培養(yǎng)出的能力會帶來長期的回報。

十、未來發(fā)展的無限可能

EMPO?框架的成功不僅解決了當前AI智能體探索能力不足的問題，更重要的是它為未來的AI發(fā)展開辟了新的可能性。這個框架的核心思想可以擴展到更多領域和更復雜的任務中。

在數(shù)學推理領域，AI可以通過類似的機制來積累解題經(jīng)驗，逐漸從需要查閱公式和定理到能夠獨立推導復雜的數(shù)學證明。在代碼編程方面，AI可以從簡單的代碼片段學習開始，逐漸掌握復雜的軟件架構設計能力。在多模態(tài)任務中，AI可以學會協(xié)調(diào)處理文本、圖像、聲音等不同類型的信息，就像一個全能的創(chuàng)作者。

研究團隊特別強調(diào)了這種方法在安全關鍵應用中的潛在價值。由于EMPO?培養(yǎng)的是AI的內(nèi)在能力而不僅僅是對外部提示的依賴，它在那些無法容忍錯誤的應用場景中可能更加可靠。比如在醫(yī)療診斷或自動駕駛等領域，AI需要在沒有外部輔助的情況下做出正確判斷。

當然，研究團隊也認識到當前方法的一些局限性?，F(xiàn)在的記憶檢索機制相對簡單，主要基于語義相似度匹配。未來可能需要開發(fā)更加智能的記憶組織和檢索方法，比如基于因果關系或抽象概念的匹配。另外，目前的研究主要集中在特定類型的任務上，擴展到更廣泛的應用領域還需要進一步的探索。

說到底，EMPO?代表了AI發(fā)展的一個重要方向：不是簡單地讓機器變得更快或更強，而是讓它們學會真正的智能行為——探索、學習、適應和成長。就像人類從嬰兒成長為能夠獨立思考的成年人一樣，AI也需要經(jīng)歷從依賴外部指導到形成內(nèi)在智慧的過程。EMPO?為這種成長提供了一個可行的路徑，它不僅讓我們看到了更智能的AI的可能性，也為實現(xiàn)這種可能性提供了具體的技術方案。

這項研究最深遠的意義在于，它展示了如何讓AI真正學會學習。在未來，我們或許會看到能夠自主探索新知識、適應新環(huán)境、解決新問題的AI系統(tǒng)，它們不再需要人類為每一個可能的情況預先編程，而是能夠像人類一樣通過經(jīng)驗積累來不斷成長和進化。這樣的AI將不僅僅是工具，更可能成為真正的智能合作伙伴，與人類一起探索這個充滿未知的世界。

Q&A

Q1：EMPO?框架是如何讓AI學會探索的？

A：EMPO?就像訓練一個偵探一樣，讓AI在三種模式下工作：有時純粹憑直覺行動，有時查閱以往案例記錄來指導行動，然后通過特殊的學習機制將外部記憶中的智慧逐漸轉化為內(nèi)在能力。這樣AI不僅能利用記憶改善探索效果，更能將這些經(jīng)驗內(nèi)化，即使沒有外部提示也能做出正確判斷。

Q2：這個方法比其他AI訓練方法好在哪里？

A：傳統(tǒng)方法要么只依賴記憶但不會真正學習，要么只會參數(shù)學習但探索能力差。EMPO?巧妙結合了兩者優(yōu)勢，在ScienceWorld環(huán)境中比最先進的GRPO方法提升了128.6%，在WebShop中提升了11.3%。更重要的是，它培養(yǎng)的是AI的內(nèi)在能力，訓練完成后即使不依賴外部記憶也能表現(xiàn)出色。

Q3：EMPO?訓練出來的AI能處理全新的任務嗎？

A：能夠很好地適應。研究顯示，即使面對完全陌生的任務，經(jīng)過EMPO?訓練的AI只需要很少幾次嘗試就能利用記憶機制快速學會新策略，而且不需要更新任何參數(shù)。這就像培養(yǎng)了一個經(jīng)驗豐富的問題解決者，雖然面對新問題，但能夠快速找到解決思路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.