国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

普林斯頓大學新突破:讓AI像人類一樣思考推理的STATe框架

0
分享至


這項由普林斯頓大學、以色列理工學院、希伯來大學等機構聯(lián)合開展的研究發(fā)表于2026年2月的arXiv預印本平臺(論文編號:arXiv:2602.14265v1),為人工智能推理能力的提升開辟了全新路徑。有興趣深入了解的讀者可以通過該論文編號查詢完整研究內(nèi)容。

當我們面對復雜問題時,通常會先制定一個解決方案,然后一步步執(zhí)行,最后檢查結果是否符合預期。比如做一道復雜的數(shù)學題,我們會先想用什么方法,再逐步計算,最后驗證答案。然而,目前的人工智能系統(tǒng)在處理復雜推理任務時,往往像是在黑暗中摸索,缺乏明確的行動規(guī)劃和反思機制。

研究團隊發(fā)現(xiàn),現(xiàn)有的AI推理方法雖然能生成多個候選答案,但這些答案往往大同小異,就像是同一個廚師用相同食材做出的幾道看似不同但本質(zhì)相同的菜。更關鍵的是,我們很難理解AI是如何得出這些答案的,也無法指導它朝著更好的方向改進。

為了解決這些問題,研究團隊開發(fā)了一個名為STATe-of-Thoughts(簡稱STATe)的新框架。這個框架的核心思想是讓AI像一個經(jīng)驗豐富的項目經(jīng)理一樣工作:首先制定明確的行動計劃,然后按計劃執(zhí)行每個步驟,最后評估執(zhí)行效果并調(diào)整策略。

一、STATe框架的工作原理

STATe框架可以比作一個智能的烹飪助手系統(tǒng)。當你想做一道復雜的菜時,這個系統(tǒng)不會隨意開始,而是先由"廚房總管"(控制器)根據(jù)現(xiàn)有食材和你的喜好,選擇接下來應該執(zhí)行的烹飪動作,比如"先炒香料"或"加入蔬菜"。然后"主廚"(生成器)按照這個指導具體執(zhí)行操作,制作出這道菜的一個步驟。最后"美食評委"(評估器)會品嘗并評分,決定這個步驟是否成功,是否值得繼續(xù)這個方向。

這個過程的巧妙之處在于,每一步都不是隨機的,而是基于明確的行動模板。研究團隊預先設計了各種"烹飪技巧"模板,比如在論證推理中,有"舉例說明"、"對比分析"、"因果推理"等不同的推理策略。每個模板都包含具體的行動指導,就像烹飪食譜中的"先爆炒30秒"或"小火慢燉15分鐘"這樣的明確指令。

與傳統(tǒng)方法相比,STATe框架最大的優(yōu)勢是可解釋性。傳統(tǒng)的AI推理就像是一個黑盒子,我們只能看到輸入和輸出,卻不知道中間發(fā)生了什么。而STATe框架則像是一個透明的廚房,每一個烹飪步驟、每一個決策都清晰可見。當AI選擇使用"舉例說明"這個策略時,我們可以明確地看到它為什么這樣選擇,以及這個選擇對最終結果產(chǎn)生了什么影響。

二、三個核心組件的協(xié)同工作

STATe框架由三個核心組件組成,它們就像一個高效團隊中的三個關鍵角色。

控制器負責戰(zhàn)略規(guī)劃,它的工作類似于一個經(jīng)驗豐富的項目經(jīng)理。面對當前的任務狀態(tài),控制器需要從預設的行動模板庫中選擇最合適的下一步行動。比如在寫一篇論證文章時,如果當前已經(jīng)提出了觀點,控制器可能會選擇"提供支撐證據(jù)"或"考慮反對意見"等策略。控制器有兩種工作模式:一種是讓AI自己決定選擇哪個行動(生成式控制器),另一種是讓AI對所有可能的行動進行評分排序(重排序控制器)。

生成器則是具體的執(zhí)行者,相當于團隊中的技術專家。它接收控制器的指令后,會根據(jù)行動模板的具體要求來生成內(nèi)容。每個行動模板不僅包含要執(zhí)行的任務描述,還包含具體的執(zhí)行指導。比如"舉例說明"模板會指導生成器以"例如"開頭,然后提供具體的案例來支持當前論點。這種設計確保了生成的內(nèi)容不僅相關,而且具有明確的結構和風格。

評估器充當質(zhì)量控制的角色,就像一個嚴格的質(zhì)檢員。對于推理過程中的每一步,評估器都會進行評分,判斷這一步是否有助于解決問題。對于最終答案,評估器會從多個維度進行綜合評價,比如邏輯性、完整性、說服力等。評估器也有多種實現(xiàn)方式,可以是基于大語言模型的智能評判,也可以是基于規(guī)則的程序化檢查,還可以是基于排序模型的相對比較。

三、多樣化生成的創(chuàng)新機制

傳統(tǒng)的AI系統(tǒng)在生成多個候選答案時,通常采用"溫度采樣"的方法,這就像是調(diào)節(jié)爐火的溫度來獲得不同的烹飪效果。溫度低時,AI會選擇最保險的答案,就像小火慢燉出的溫和口味;溫度高時,AI會更加冒險,但往往產(chǎn)生不相關或質(zhì)量低下的答案,就像火候過大導致的糊鍋。

STATe框架采用了完全不同的策略。它不是通過調(diào)節(jié)"火候"來獲得變化,而是通過選擇不同的"烹飪方法"來實現(xiàn)多樣性。每個行動模板代表一種獨特的處理方式,比如"因果分析"會引導AI探索事件之間的因果關系,而"類比推理"會引導AI尋找相似的情況進行對比。這樣產(chǎn)生的多個候選答案在本質(zhì)上是不同的,而不僅僅是表面的文字變化。

研究團隊在NoveltyBench數(shù)據(jù)集上進行的實驗證實了這種方法的有效性。NoveltyBench是一個專門用于測試AI生成內(nèi)容多樣性的基準數(shù)據(jù)集,包含100個不同類型的任務,涵蓋隨機性、事實知識、創(chuàng)意寫作和主觀判斷等多個領域。實驗結果顯示,STATe框架在多樣性方面顯著優(yōu)于傳統(tǒng)方法。比如使用Qwen3-30B模型時,STATe能夠生成5.02個語義上不同的答案(滿分為10),而最好的傳統(tǒng)方法只能生成3.36個。

更重要的是,這種多樣性的提升并沒有以犧牲質(zhì)量為代價。在質(zhì)量評估中,STATe生成的答案同樣表現(xiàn)出色,這說明該框架確實實現(xiàn)了"又好又多"的目標。這種成果在多個不同的大語言模型上都得到了驗證,包括Qwen3系列、Nemotron-3系列和Ministral-3系列等,證明了方法的普遍適用性。

四、論證質(zhì)量的可預測性發(fā)現(xiàn)

為了驗證STATe框架的實際效果,研究團隊設計了一個論證生成的案例研究。他們選擇了"政府是否應該全面禁止一次性塑料制品"這個具有爭議性的話題,讓AI生成支持禁令的論證文章。

這個實驗的設計頗為精巧。研究團隊為論證生成定義了兩個維度的行動模板:內(nèi)容維度和結構維度。內(nèi)容維度包含十種不同的論證角度,比如"成本效益分析"關注經(jīng)濟影響,"權利與自由"強調(diào)個人權益,"倫理原則"從道德角度考慮問題。結構維度包含十種不同的論述方式,比如"因果推理"探索前因后果,"對比分析"比較不同方案,"舉例說明"提供具體案例。

通過STATe框架,AI可以在每個推理步驟中選擇不同的內(nèi)容角度和結構方式的組合,從而產(chǎn)生豐富多樣的論證路徑。研究團隊使用這個系統(tǒng)生成了15000個論證文章(每種合成模式5000個),然后通過大規(guī)模的成對比較實驗來評估這些文章的質(zhì)量。

令人驚喜的發(fā)現(xiàn)是,AI的行動選擇序列與最終論證質(zhì)量之間存在強烈的關聯(lián)性。研究團隊構建了預測模型,發(fā)現(xiàn)僅僅通過分析AI在生成過程中選擇了哪些行動模板,就能夠相當準確地預測最終論證的質(zhì)量。在最佳設置下,這種預測的準確性達到了57%的解釋方差,這在社會科學研究中已經(jīng)是相當高的預測能力。

更有趣的是,行動的時序信息比單純的行動類型更重要。也就是說,不僅要看AI使用了什么策略,還要看它在什么時候使用這些策略。比如,在論證開始時就提出反對意見(讓步式開頭)和在論證結尾處理反對意見(反駁式結尾)會產(chǎn)生截然不同的效果。這個發(fā)現(xiàn)揭示了論證結構的重要性,也驗證了STATe框架在捕捉推理過程細節(jié)方面的優(yōu)勢。

五、智能化的策略探索與優(yōu)化

STATe框架最精彩的部分可能是它的自我改進能力。就像一個優(yōu)秀的廚師會根據(jù)食客的反饋調(diào)整菜譜,STATe系統(tǒng)也能根據(jù)生成結果的質(zhì)量反饋來優(yōu)化未來的行動選擇。

研究團隊利用前面提到的預測模型,對所有可能的三步推理路徑進行了評估。雖然理論上存在100萬種可能的組合(100的三次方),但他們從中篩選出了預測質(zhì)量最高且在訓練數(shù)據(jù)中從未出現(xiàn)過的50條路徑。這些路徑代表了AI系統(tǒng)尚未探索但很有潛力的推理策略。

接下來的實驗就像是一場"策略大比拼"。研究團隊讓STATe系統(tǒng)嚴格按照這些預測的優(yōu)質(zhì)路徑來生成新的論證文章,然后與三種基準方法進行比較:完全隨機的路徑選擇、僅基于內(nèi)容主題的簡單策略、以及從歷史最佳文章中選擇的樣本。

結果令人印象深刻。針對性生成的文章在與隨機基準的比較中,勝率達到77-81%,在與簡單策略的比較中勝率為64-77%。更重要的是,即使與歷史上質(zhì)量最好的5%的文章相比,這些新生成的文章仍然保持了19-52%的勝率,這遠遠超出了隨機水平的5%。

這個結果有兩重意義。首先,它證明了預測模型確實學到了有用的策略知識,能夠指導系統(tǒng)探索新的高質(zhì)量生成路徑。其次,它展示了STATe框架的實用價值——系統(tǒng)不僅能分析已有的成功案例,還能主動發(fā)現(xiàn)和創(chuàng)造新的成功策略。

六、方法的技術創(chuàng)新與實現(xiàn)細節(jié)

STATe框架在技術實現(xiàn)上也有諸多創(chuàng)新之處。首先是行動模板的設計。每個模板不僅包含要執(zhí)行的任務描述,還包含兩種類型的指導信息:前綴指導和內(nèi)部推理指導。

前綴指導就像是給每個句子一個固定的開頭,比如"例如"用于舉例說明,"然而"用于提出反對意見。這種設計確保生成的內(nèi)容在結構上符合預期,同時也為后續(xù)的分析提供了清晰的標識。內(nèi)部推理指導則更像是給AI的"內(nèi)心獨白",告訴它在執(zhí)行這個行動時應該考慮什么問題,關注哪些方面。

其次是樹狀搜索的實現(xiàn)。STATe框架將推理過程組織成樹狀結構,每個節(jié)點代表一個推理狀態(tài),每條邊代表一個行動選擇。這種設計允許系統(tǒng)同時探索多條推理路徑,并根據(jù)中間評估結果動態(tài)調(diào)整搜索方向。當某條路徑的評估分數(shù)較低時,系統(tǒng)會自動"剪枝",避免浪費計算資源。

第三是早停機制的設計。STATe框架包含一個特殊的"完成"行動,允許控制器在認為推理已經(jīng)充分的時候主動終止,避免過度思考導致的質(zhì)量下降。這個機制類似于人類在解決問題時的直覺判斷——知道什么時候應該停下來。

最后是合成模式的多樣化。研究團隊設計了四種不同的合成模式,來控制最終輸出與中間推理步驟的關系。嚴格模式要求幾乎逐字保留所有推理內(nèi)容;忠實模式允許輕微的重新表述但保持原意;重構模式允許重新組織內(nèi)容結構;總結模式則將推理過程作為內(nèi)部指導,只輸出最終結論。這種設計為不同的應用場景提供了靈活性。

七、實驗驗證與性能表現(xiàn)

研究團隊進行了大規(guī)模的實驗驗證,使用了多個不同系列的大語言模型,包括Qwen3系列(4B、8B、30B參數(shù))、Nemotron-3-30B和Ministral-3-14B。這種多模型驗證確保了結果的可靠性和普遍適用性。

在多樣性測試中,STATe框架在所有模型配置下都表現(xiàn)出色。以Qwen3-30B為例,在推薦的0.7溫度設置下,STATe能夠生成5.02個不同的答案,而傳統(tǒng)的思維鏈(CoT)方法只能生成2.44個,最好的基準方法也只達到3.36個。這種提升不僅在數(shù)量上顯著,在質(zhì)量維度上也保持了競爭力。

在論證生成的案例研究中,15000個生成樣本的大規(guī)模分析提供了豐富的數(shù)據(jù)支持。通過50000次隨機成對比較,研究團隊構建了可靠的質(zhì)量評估體系。預測模型的性能驗證使用了嚴格的交叉驗證和自助采樣方法,確保了統(tǒng)計結果的可信度。

特別值得注意的是,研究團隊還控制了論證長度這個潛在的混淆因素。他們發(fā)現(xiàn)論證長度與質(zhì)量評分之間存在正相關關系,這在社會科學研究中是常見的現(xiàn)象。通過長度匹配的對照實驗,研究團隊證明了STATe框架的優(yōu)勢不僅僅來自于生成更長的內(nèi)容,而確實來自于更好的策略選擇。

八、方法的局限性與未來方向

研究團隊誠實地討論了STATe框架的局限性。首先是對開源模型的依賴。由于框架需要使用前綴填充技術來實現(xiàn)精確的行動控制,目前主要適用于開源大語言模型,而這些模型在某些任務上的能力仍然不如最先進的閉源模型。

其次是行動空間設計的復雜性。為不同的任務設計合適的行動模板需要領域?qū)I(yè)知識和大量的試錯過程。行動模板的粒度選擇(粗粒度vs細粒度)也會影響系統(tǒng)的性能,需要針對具體應用進行調(diào)優(yōu)。

第三是因果推斷的挑戰(zhàn)。雖然研究團隊發(fā)現(xiàn)了行動選擇與輸出質(zhì)量之間的強關聯(lián)性,但這些發(fā)現(xiàn)主要基于觀察數(shù)據(jù)而非控制實驗。要真正確立因果關系,需要更復雜的實驗設計和統(tǒng)計方法。

第四是合成模式的權衡。不同的合成模式在可解釋性和輸出質(zhì)量之間存在權衡關系。嚴格模式雖然保持了最高的可解釋性,但可能產(chǎn)生不夠自然的文本;而更靈活的模式雖然文本質(zhì)量更高,但削弱了行動選擇與最終輸出之間的聯(lián)系。

研究團隊也指出了幾個有前景的未來研究方向。首先是將STATe框架與人類實驗相結合,驗證在真實的人類受眾中的效果。其次是探索更復雜的搜索算法,比如蒙特卡洛樹搜索,來更智能地探索行動空間。第三是研究多輪對話和對抗性場景下的應用。最后是與強化學習和提示詞優(yōu)化技術的結合,進一步提升系統(tǒng)性能。

說到底,STATe框架代表了人工智能推理能力發(fā)展的一個重要里程碑。它不僅在技術層面實現(xiàn)了可控制、可解釋的多樣化生成,更重要的是為我們理解和改進AI推理過程提供了新的工具和思路。這項研究表明,通過精心設計的結構化方法,我們可以讓AI系統(tǒng)更像人類專家一樣進行深思熟慮的推理,而不是簡單的模式匹配。隨著技術的進一步發(fā)展和完善,STATe框架有望在教育、法律、商業(yè)決策等需要高質(zhì)量推理的領域發(fā)揮重要作用,幫助人們做出更好的決策,產(chǎn)生更有說服力的論證,并最終推動人工智能向著更加智能、可控和可信的方向發(fā)展。

Q&A

Q1:STATe框架與傳統(tǒng)AI推理方法的主要區(qū)別是什么?

A:STATe框架最大的區(qū)別在于它采用了結構化的行動模板來指導推理過程,而不是依靠隨機采樣。傳統(tǒng)方法就像在黑暗中摸索,只能通過調(diào)節(jié)"溫度"來獲得不同答案,往往產(chǎn)生相似或低質(zhì)量的結果。STATe則像一個有經(jīng)驗的專家,每一步都有明確的策略選擇,比如選擇"舉例說明"還是"因果分析",這樣產(chǎn)生的答案在本質(zhì)上更加多樣化且質(zhì)量更高。

Q2:STATe框架如何實現(xiàn)可解釋性?

A:STATe框架通過記錄完整的行動選擇序列來實現(xiàn)可解釋性。就像烹飪食譜一樣,我們可以清楚地看到AI在每一步選擇了什么策略,為什么這樣選擇,以及這些選擇如何影響最終結果。研究發(fā)現(xiàn),僅通過分析這些行動序列,就能預測論證質(zhì)量的57%差異,這說明AI的決策過程是可以理解和分析的。

Q3:普通人如何利用STATe框架的研究成果?

A:雖然STATe框架目前主要用于科研,但它的思想可以應用到日常的推理和寫作中。比如在寫論證文章時,我們可以學習它的結構化方法:先選擇論證角度(成本效益、倫理原則等),再選擇論述方式(舉例、對比、因果分析等),最后評估效果。這種系統(tǒng)性的思維方式能幫助我們產(chǎn)生更有說服力的論證,做出更好的決策。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

你干過哪些陰暗齷齪的事?網(wǎng)友:最后一個真的好炸裂好真實

帶你感受人間冷暖
2026-02-17 01:00:24
4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

娛說瑜悅
2026-03-02 14:18:06
特朗普稱同意與伊朗新領導層對話

特朗普稱同意與伊朗新領導層對話

每日經(jīng)濟新聞
2026-03-02 08:17:27
蘋果iPhone 17e國行采用單實體SIM + eSIM設計

蘋果iPhone 17e國行采用單實體SIM + eSIM設計

IT之家
2026-03-02 22:24:08
美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

美伊大戰(zhàn)后果來了,石油漲價歐佩克宣布增產(chǎn),中國能源轉(zhuǎn)型很明智

甜檸聊史
2026-03-02 16:51:07
3月1日俄烏最新:恐怖的場景

3月1日俄烏最新:恐怖的場景

西樓飲月
2026-03-01 20:55:56
一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

一家4口爬山祈福,33歲妻子墜亡,死者父親稱已完成尸檢,丈夫最新回應質(zhì)疑:帶兒女山頂屋內(nèi)休息,20分鐘后人就不見了

都市快報橙柿互動
2026-03-02 11:43:55
北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

北京女子奔赴河南見陌生男,一見面抱緊崩潰說:對不起,我來晚了

觀察鑒娛
2026-03-02 10:22:34
媒體人:不了解楊瀚森場下訓練情況,但英語進步速度讓人憂慮

媒體人:不了解楊瀚森場下訓練情況,但英語進步速度讓人憂慮

懂球帝
2026-03-02 13:29:16
明明手上沒權,為什么內(nèi)賈德還非死不可?真相遠非復仇那么簡單

明明手上沒權,為什么內(nèi)賈德還非死不可?真相遠非復仇那么簡單

李健政觀察
2026-03-02 11:51:27
CCTV5直播!中國男籃VS日本時間敲定,3大猛將回歸,雙殺希望大了

CCTV5直播!中國男籃VS日本時間敲定,3大猛將回歸,雙殺希望大了

何老師呀
2026-03-02 23:50:09
基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

混沌錄
2026-03-02 17:15:04
對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

對話鄭永年:斬首哈梅內(nèi)伊后,特朗普究竟想要什么?

大灣區(qū)評論
2026-03-01 21:23:33
日本模特阿部夏樹身材惹火,網(wǎng)友:這傲人胸圍是真實存在的嗎?

日本模特阿部夏樹身材惹火,網(wǎng)友:這傲人胸圍是真實存在的嗎?

娛樂領航家
2026-03-02 19:00:03
中國藝人被困中東!黃渤驚險逃離,玄子一家7000租車,周雨彤回京

中國藝人被困中東!黃渤驚險逃離,玄子一家7000租車,周雨彤回京

潮鹿逐夢
2026-03-02 22:48:22
2026年竟還有60Hz手機!iPhone 17e引爭議 網(wǎng)友吐槽:除了處理器一無是處

2026年竟還有60Hz手機!iPhone 17e引爭議 網(wǎng)友吐槽:除了處理器一無是處

快科技
2026-03-03 00:14:05
郭晶晶12歲女兒霍中妍最近火出圈了!她正臉照和奶奶朱玲玲有相似

郭晶晶12歲女兒霍中妍最近火出圈了!她正臉照和奶奶朱玲玲有相似

小椰的奶奶
2026-03-03 00:59:59
王楚然巴黎時裝周“牛仔褲災難”引全網(wǎng)吐槽

王楚然巴黎時裝周“牛仔褲災難”引全網(wǎng)吐槽

深度解析熱點
2026-03-02 18:41:27
伊朗:是我擊落的

伊朗:是我擊落的

南方都市報
2026-03-02 19:25:52
春節(jié)剛過完,茅臺價格又跌下來了

春節(jié)剛過完,茅臺價格又跌下來了

深水財經(jīng)社
2026-03-02 20:35:04
2026-03-03 02:28:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

油價飆升 美伊沖突將如何攪動全球經(jīng)濟

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

家居
親子
房產(chǎn)
游戲
軍事航空

家居要聞

萬物互聯(lián) 享科技福祉

親子要聞

45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

外媒給《寶可夢》新作60分:不夠有趣的縫合怪

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版