国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

上交大智能計算研究院論文:不只算對答案,大模型如何真正學(xué)會運籌建模丨ICLR 2026

0
分享至


上海交大智能計算研究院提出 StepORLM,通過生成式過程監(jiān)督提升運籌建模的整體可靠性。

作者丨鄭佳美

編輯丨岑峰

在大語言模型逐步從通用推理工具走向?qū)I(yè)領(lǐng)域應(yīng)用的過程中,運籌優(yōu)化(OR)成為一個極具吸引力、同時也極具挑戰(zhàn)性的方向。

一方面,運籌優(yōu)化問題天然具備清晰的數(shù)學(xué)結(jié)構(gòu)和可驗證的求解結(jié)果,看似非常適合由模型自動完成建模與求解;另一方面,真實運籌建模高度依賴變量定義、約束設(shè)計與目標函數(shù)之間的整體一致性,其推理過程往往呈現(xiàn)出強步驟依賴和強耦合特征,遠非算出一個正確答案所能覆蓋。

正是在這一張力之下,當前運籌建模大模型研究逐漸暴露出一個核心困境:模型在求解器層面得到正確結(jié)果,并不意味著其完成了正確的建模。在現(xiàn)有主流訓(xùn)練范式中,無論是僅依據(jù)最終求解結(jié)果進行獎勵,還是對中間步驟進行局部、逐步的過程監(jiān)督,都難以準確刻畫運籌建模這種長鏈條推理任務(wù)的真實質(zhì)量。

這種監(jiān)督信號與任務(wù)本質(zhì)之間的錯位,使得建模錯誤可能被掩蓋,甚至被反復(fù)強化,逐漸成為大模型走向工業(yè)級運籌優(yōu)化應(yīng)用的關(guān)鍵瓶頸。在這樣的研究背景下,來自上海交通大學(xué)智能計算研究院葛冬冬、林江浩研究團隊提出了《StepORLM: A Self-Evolving Framework with Generative Process Supervision for Operations Research Language Models》。

這項研究并未僅從模型規(guī)?;驍?shù)據(jù)量入手,而是從訓(xùn)練范式本身出發(fā),系統(tǒng)性反思了結(jié)果獎勵與傳統(tǒng)過程監(jiān)督在運籌建模任務(wù)中的根本局限,并提出了一種由策略模型與生成式過程獎勵模型(GenPRM)協(xié)同進化的自進化訓(xùn)練框架。通過將最終求解結(jié)果與對完整推理過程的回顧式、全局評估相結(jié)合,StepORLM 試圖引導(dǎo)模型真正學(xué)習(xí)如何構(gòu)建一致、可靠的運籌優(yōu)化模型,而不僅僅是生成一個可行解。


論文地址:https://arxiv.org/abs/2509.22558

01
小模型,贏在方法

在實驗評估方面,這項研究在6 個具有代表性的運籌優(yōu)化基準數(shù)據(jù)集上對所提出的方法進行了系統(tǒng)測試,這些數(shù)據(jù)集涵蓋了從相對簡單的線性規(guī)劃問題到高復(fù)雜度、貼近真實應(yīng)用場景的工業(yè)級混合整數(shù)規(guī)劃問題,具體包括 NL4Opt、MAMO(EasyLP 與 ComplexLP)、NLP4LP、ComplexOR、IndustryOR 以及 ReSocratic。

所有實驗統(tǒng)一采用 Pass@1 accuracy 作為評價指標,即模型僅生成一次完整的解題軌跡,并通過外部 OR 求解器進行驗證,只有當生成的代碼能夠成功執(zhí)行、建模過程正確且最終結(jié)果被求解器判定為可行且最優(yōu)時,才被視為一次成功。這一評價標準對模型提出了較高要求,不僅考察最終數(shù)值結(jié)果的正確性,也嚴格約束了建模邏輯和實現(xiàn)層面的可靠性。

再看實驗結(jié)果,在與不同類別方法的對比實驗中,StepORLM 展現(xiàn)出顯著優(yōu)勢。首先,與零樣本通用大語言模型相比,僅有 8B 參數(shù)規(guī)模的 StepORLM 在平均準確率上明顯超過了 DeepSeek-V3(671B)和 Qwen2.5-72B 等超大模型,并全面優(yōu)于 GPT-4o 的零樣本表現(xiàn),尤其在 ComplexOR 和 IndustryOR 等高難度場景中優(yōu)勢更加突出。

這一結(jié)果表明,在運籌優(yōu)化建模任務(wù)中,模型參數(shù)規(guī)模本身已不再是決定性因素,訓(xùn)練范式與監(jiān)督信號設(shè)計才是性能提升的關(guān)鍵。

其次,與現(xiàn)有專門針對 OR 任務(wù)進行微調(diào)的模型相比,StepORLM 在所有基準數(shù)據(jù)集上均取得了更優(yōu)結(jié)果,且在 NLP4LP、ComplexOR 和 ReSocratic 等高度依賴多步驟推理正確性的任務(wù)中提升尤為明顯,這進一步說明其性能增益并非來源于更多或更大規(guī)模的數(shù)據(jù),而主要得益于訓(xùn)練過程中引入了更高質(zhì)量、更符合任務(wù)本質(zhì)的監(jiān)督信號。

進一步地,與多種 agentic method 推理方法(如 CoT、Chain-of-Experts、OptiMUS 和 CAFA)相比,StepORLM 僅通過單次生成就能取得更穩(wěn)定的表現(xiàn)和更少的建模錯誤。其根本原因在于,agent 方法主要在推理階段嘗試對已生成的結(jié)果進行修正,而 StepORLM 則通過在訓(xùn)練階段引入過程級監(jiān)督,從根源上減少了錯誤推理路徑被模型學(xué)習(xí)和強化的可能性。


此外,研究還評估了將共同進化得到的生成式過程獎勵模型引入推理階段、作為驗證器的效果。實驗結(jié)果顯示,當 StepORLM 與 GenPRM 結(jié)合使用時,其平均 Pass@1 準確率可進一步提升至 85.6%,并在最具挑戰(zhàn)性的 ComplexOR 和 IndustryOR 數(shù)據(jù)集上分別取得了約 9.9% 和 9.5% 的顯著增益。

更為重要的是,GenPRM 并不只對 StepORLM 有效,當其與其他運籌優(yōu)化模型(如 ORLM)結(jié)合使用時,同樣能夠帶來接近 10% 的性能提升,這表明 GenPRM 學(xué)到的是模型無關(guān)的運籌推理判據(jù),而非僅針對某一特定模型的啟發(fā)式規(guī)則。


最后,通過一系列消融實驗,研究驗證了各個關(guān)鍵組件在整體框架中的必要性:移除 warm-up 階段的監(jiān)督微調(diào)會導(dǎo)致性能大幅下降,取消自進化訓(xùn)練會使模型性能迅速停滯,凍結(jié) GenPRM 不再進化或用普通 DPO 替代加權(quán) DPO 均會削弱學(xué)習(xí)效果。


同時,訓(xùn)練過程分析結(jié)果也表明,模型性能的提升是隨著自進化迭代逐步累積的,而并非通過一次監(jiān)督微調(diào)即可達到最終水平。


02
從偶然正確,到系統(tǒng)可靠

這項研究針對大語言模型在運籌優(yōu)化建模任務(wù)中存在的可靠性問題展開,研究團隊指出,現(xiàn)有方法主要存在兩類根本性缺陷。

第一類是結(jié)果導(dǎo)向獎勵的信用分配問題(Credit Assignment Problem),即僅依據(jù)外部求解器是否成功對模型進行獎勵。在這種情況下,只要模型最終得到一個可行且正確的解,即便中間推理過程存在明顯錯誤,也會被強化。

這在運籌場景中尤為危險,例如漏掉某個較松的約束、變量定義不嚴謹?shù)儒e誤,可能在特定實例里不影響最優(yōu)值,卻會讓模型誤以為“這類建模也行”,從而把不穩(wěn)定甚至錯誤的建模邏輯固化下來。

第二類缺陷來自傳統(tǒng)判別式過程監(jiān)督的短視性(Myopic Supervision),這類方法通常對推理過程中的每一步進行獨立評估,難以理解步驟之間的依賴關(guān)系,也無法判斷某些早期決策在整體建模語境下是否合理。

然而,運籌優(yōu)化建模本質(zhì)上是一種步驟之間高度依賴、強耦合的長鏈條推理任務(wù),局部、割裂的監(jiān)督信號難以準確反映整體推理質(zhì)量。

針對上述問題,研究人員提出了 StepORLM 的整體訓(xùn)練框架,這個框架采用“兩階段訓(xùn)練 + 自進化閉環(huán)”的設(shè)計思路。在第一階段的 warm-up 過程中,研究團隊旨在構(gòu)建一個高質(zhì)量的初始策略模型,使其具備基本的運籌優(yōu)化建模能力,能夠輸出結(jié)構(gòu)化、多步驟的推理過程,并避免在建模和代碼生成階段出現(xiàn)大量隨意性錯誤。

為此,研究人員利用教師模型(GPT-4o)自動生成運籌優(yōu)化問題,并通過改寫、單位轉(zhuǎn)換和參數(shù)縮放等方式增強問題多樣性。隨后,教師模型為每個問題生成完整的推理軌跡,覆蓋問題分析、變量定義、目標函數(shù)構(gòu)建、約束設(shè)計、數(shù)學(xué)模型表述以及求解代碼實現(xiàn)等關(guān)鍵步驟。

所有生成軌跡均需經(jīng)過嚴格驗證,包括代碼執(zhí)行以及外部 OR 求解器對可行性、最優(yōu)性和執(zhí)行正確性的檢查。若驗證失敗,系統(tǒng)會自動將反饋返回給教師模型進行修正,直至通過驗證或達到重試上限。最終,這個階段構(gòu)建了由問題及其對應(yīng)的完整且正確推理軌跡組成的數(shù)據(jù)集,用于對策略模型進行監(jiān)督微調(diào)。


在此基礎(chǔ)上,這項研究進入第二階段,即策略模型與生成式過程獎勵模型(GenPRM)協(xié)同進化的自進化訓(xùn)練階段,這也是研究團隊提出的核心創(chuàng)新。

在這個階段,系統(tǒng)同時維護兩個模型:策略模型負責(zé)生成完整的 OR 解題軌跡,而 GenPRM 則從全局視角對整條推理過程進行回顧式評估,判斷各個步驟在整體建模邏輯中的合理性。與傳統(tǒng)過程獎勵模型不同,GenPRM 并非對單個步驟進行簡單打分,而是具備推理與綜合判斷能力,能夠捕捉步驟之間的依賴關(guān)系。

在每一輪訓(xùn)練迭代中,策略模型針對同一問題生成多條候選解題軌跡,并引入雙源反饋機制進行評估。一方面,研究人員通過外部求解器為每條軌跡提供最終結(jié)果的正確性反饋;另一方面,GenPRM 對整條推理過程進行評價,衡量不同軌跡在過程層面的質(zhì)量。

在此基礎(chǔ)上,不同軌跡被兩兩比較以構(gòu)造偏好對,其中求解器驗證成功的軌跡優(yōu)于失敗的軌跡,而在結(jié)果相同的情況下,則由過程質(zhì)量更高的軌跡勝出。研究團隊進一步引入加權(quán)的 Direct Preference Optimization 方法,對不同偏好對賦予不同權(quán)重,從而區(qū)分嚴重建模錯誤與細微推理改進,并據(jù)此更新策略模型。


與此同時,GenPRM 也利用經(jīng)求解器驗證的高質(zhì)量推理軌跡進行持續(xù)監(jiān)督微調(diào),使其評估標準逐步變得更加準確和嚴格。

隨著訓(xùn)練迭代的推進,策略模型生成的軌跡質(zhì)量不斷提升,反過來為 GenPRM 提供更高質(zhì)量的訓(xùn)練樣本,而不斷進化的 GenPRM 又能夠為策略模型提供更精確的過程反饋,從而在二者之間形成穩(wěn)定的正反饋閉環(huán),推動整個系統(tǒng)在自進化過程中持續(xù)提升運籌優(yōu)化建模能力。


03
一種可遷移的訓(xùn)練范式

在實驗結(jié)果的基礎(chǔ)上,這項研究在方法論和應(yīng)用層面均具有重要意義。首先,從方法論角度來看,研究團隊明確指出并通過實證驗證了一個關(guān)鍵認識:在運籌優(yōu)化這類具有強步驟依賴特征的任務(wù)中,獎勵模型本身若缺乏推理能力,將難以為策略模型提供有效監(jiān)督。

傳統(tǒng)方法往往假設(shè)最終結(jié)果正確即可反映推理質(zhì)量,或認為通過對中間步驟進行逐步、局部打分便能彌補結(jié)果獎勵的不足,而這項研究表明,這兩種監(jiān)督方式在運籌建模場景下均存在系統(tǒng)性偏差。

由于運籌建模中各步驟之間高度耦合,局部正確并不等價于全局一致,只有具備整體理解能力的過程監(jiān)督,才能有效緩解歸因錯誤和短視問題。

其次,在運籌優(yōu)化與大語言模型結(jié)合的研究領(lǐng)域中,這項研究顯著提升了模型在建模正確性、約束完整性以及實際應(yīng)用可靠性等方面的表現(xiàn)。研究團隊通過引入過程級監(jiān)督與自進化訓(xùn)練機制,使模型不僅能夠生成形式正確的規(guī)劃表達式,還能夠構(gòu)建邏輯一致、可被求解器穩(wěn)定執(zhí)行的完整運籌優(yōu)化模型,從而推動大語言模型從“會寫線性規(guī)劃”向“會進行運籌建模”轉(zhuǎn)變。

進一步而言,這項研究提出的訓(xùn)練范式對其他復(fù)雜推理任務(wù)同樣具有啟發(fā)意義。其強調(diào)的整體化、回顧式過程監(jiān)督思想,可推廣至數(shù)學(xué)證明、代碼生成、科學(xué)建模以及其他長鏈條決策任務(wù),為解決強依賴推理場景中監(jiān)督信號失真的問題提供了一種具有普適性的思路。

04
構(gòu)建 StepORLM 的人

這篇論文的第一作者為周宸宇,他目前是上海交通大學(xué)智能計算研究院博士生,導(dǎo)師為葉蔭宇教授和葛冬冬教授,研究方向聚焦于大語言模型與運籌優(yōu)化、復(fù)雜推理任務(wù)及其訓(xùn)練方法。

他的研究興趣還涵蓋強化學(xué)習(xí)與區(qū)塊鏈等方向,曾獲得 ACM-ICPC 亞洲區(qū)域賽金牌,并在 ICLR、WWW、CSCW 等國際會議上發(fā)表多篇學(xué)術(shù)論文。

除學(xué)術(shù)研究外,周宸宇具有較為豐富的產(chǎn)業(yè)與工程實踐背景,曾在杉數(shù)科技、騰訊、美團等公司從事與人工智能和優(yōu)化相關(guān)的研究或技術(shù)工作,并在量化投資與金融科技領(lǐng)域積累了實踐經(jīng)驗。


參考鏈接:https://0xzhouchenyu.github.io

論文的通訊錄作者為林江浩,2025 年博士畢業(yè)于上海交通大學(xué)計算機科學(xué)與技術(shù)專業(yè),現(xiàn)任上海交通大學(xué)安泰經(jīng)濟與管理學(xué)院助理教授,研究方向包括大語言模型和 AI 智能體,以及此類技術(shù)在推薦系統(tǒng)、運籌優(yōu)化、智能商務(wù)等交叉領(lǐng)域的應(yīng)用。

學(xué)術(shù)方面,他已累計發(fā)表國際學(xué)術(shù)論文 40 余篇,研究成果發(fā)表于 ICLR、NeurIPS、KDD、WWW、TOIS 等國際頂級會議與期刊,獲得兩項最佳論文獎,其中 1 篇論文入選 ESI 全球 Top 1% 高被引論文,在相關(guān)研究領(lǐng)域具有較高的學(xué)術(shù)影響力。


參考鏈接:https://linjianghao.com

未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
特朗普“停戰(zhàn)”,還挺諷刺的

特朗普“停戰(zhàn)”,還挺諷刺的

中國新聞周刊
2026-03-10 22:22:09
深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔心信息遭泄露

深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔心信息遭泄露

小蘿卜絲
2026-03-10 17:33:28
曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

曝伊朗女足已正式登機離開澳洲:多人落淚+反抗未果 有2人成功留下

風(fēng)過鄉(xiāng)
2026-03-10 21:14:19
李斌談超快充和換電模式:超快再快不可能有換電快,超快充對電池壽命和安全性等有損害

李斌談超快充和換電模式:超快再快不可能有換電快,超快充對電池壽命和安全性等有損害

中國能源網(wǎng)
2026-03-10 11:33:11
火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

火爆全網(wǎng)的“養(yǎng)龍蝦”,第一批受害者已出現(xiàn)!有人被AI燒掉數(shù)萬元

派大星紀錄片
2026-03-10 11:13:04
難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

難以置信!網(wǎng)傳一女子征婚,稱網(wǎng)貸欠200多萬,誰幫還債就嫁給誰

火山詩話
2026-03-10 13:46:15
出售藍軍23.5億鎊去向爭議,英國政府下最后通牒,阿布抗爭近4年

出售藍軍23.5億鎊去向爭議,英國政府下最后通牒,阿布抗爭近4年

夏侯看英超
2026-03-11 01:34:41
北大醫(yī)學(xué)專家胡大一:睡覺,一個讓你延長生命的革命性新秘方

北大醫(yī)學(xué)專家胡大一:睡覺,一個讓你延長生命的革命性新秘方

新浪財經(jīng)
2026-03-10 00:31:51
給屁眼做美白,已經(jīng)成為歐美上流社會的肛需

給屁眼做美白,已經(jīng)成為歐美上流社會的肛需

beebee
2026-03-10 11:09:50
證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

山間聽雨
2026-03-10 22:09:43
金與正發(fā)出警告:后果可怕,不堪設(shè)想!

金與正發(fā)出警告:后果可怕,不堪設(shè)想!

IN朝鮮
2026-03-10 16:38:48
伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

伊朗南部3省宣布支持巴列維,川普與內(nèi)塔爆發(fā)口水戰(zhàn),欲打退堂鼓

史政先鋒
2026-03-10 21:00:09
中國游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡直是災(zāi)難!

中國游客不來了,日本政府大力歡迎印度游客!日本空姐崩潰:他們用完的廁所簡直是災(zāi)難!

東京新青年
2026-03-10 18:52:49
伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

閃電新聞
2026-03-10 19:30:10
國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險提示

國家互聯(lián)網(wǎng)應(yīng)急中心發(fā)布OpenClaw安全應(yīng)用風(fēng)險提示

界面新聞
2026-03-10 19:29:53
不怕被報復(fù)?伊朗女足5人摘下頭巾!獲準留在澳洲 球員家人遭逮捕

不怕被報復(fù)?伊朗女足5人摘下頭巾!獲準留在澳洲 球員家人遭逮捕

念洲
2026-03-10 07:46:07
中國女足4-0戰(zhàn)勝對手,晉級四強

中國女足4-0戰(zhàn)勝對手,晉級四強

大嘴說臺球
2026-03-10 21:43:09
于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

于東來公布公司40億資產(chǎn)利潤分配方案:胖東來12名店長共分2.4億,每人2000萬元

大象新聞
2026-03-10 14:46:05
這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

這菜再貴也要吃,大量上市!通便排毒,殺菌消炎,提高免疫力

阿龍美食記
2026-03-10 16:31:51
陳都靈太嫩了

陳都靈太嫩了

阿廢冷眼觀察所
2026-02-28 11:28:38
2026-03-11 02:47:01
AI科技評論 incentive-icons
AI科技評論
點評學(xué)術(shù),服務(wù)AI
7111文章數(shù) 20739關(guān)注度
往期回顧 全部

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

數(shù)碼
健康
教育
時尚
藝術(shù)

數(shù)碼要聞

M5 Max 版 16 英寸 MacBook Pro 體驗:算力巔峰與專業(yè)視界

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

教育要聞

南京十三中發(fā)來邀請函!

看來看去這些才是適合普通人的穿搭!不花哨、不繁瑣,提氣質(zhì)

藝術(shù)要聞

震撼!美國油畫家約書亞·拉洛克的作品讓人驚嘆不已!

無障礙瀏覽 進入關(guān)懷版