網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大語言模型的新征程—— ACL 2025頂會(huì)見聞前沿論壇實(shí)錄｜GAIR Live

2025-09-12 15:37:40　來源: AI科技評(píng)論

廣東舉報(bào)

分享至

ACL 投稿破8000，大模型把計(jì)算語言學(xué)推向‘智能體’時(shí)代，三位頂級(jí)學(xué)者拆解 NLP 未來趨勢(shì)。

作者丨岑峰

編輯丨陳彩嫻

2025年的 ACL（計(jì)算語言學(xué)協(xié)會(huì)）年會(huì)，無疑是大語言模型（ LLM ）持續(xù)主導(dǎo) NLP 領(lǐng)域的又一里程碑。這不僅僅體現(xiàn)在學(xué)術(shù)研究的深度，更體現(xiàn)在會(huì)議本身的各項(xiàng)數(shù)據(jù)上——史無前例的8000多篇投稿，其中中國作者的比例高達(dá)51%。這一現(xiàn)象清晰地傳遞出大模型已成為 NLP 領(lǐng)域核心的信號(hào)，也標(biāo)志著整個(gè)行業(yè)的格局正在發(fā)生深刻變化。

通過與多位參會(huì)者的溝通，我們得出這樣的結(jié)論：大模型并未“沖淡”計(jì)算語言學(xué)的核心，反而在其技術(shù)框架下，為傳統(tǒng)議題賦予了新的定義和呈現(xiàn)形式。同時(shí)，其多模態(tài)特性打破了傳統(tǒng)的研究壁壘，吸引了來自計(jì)算機(jī)視覺、網(wǎng)絡(luò)安全等不同領(lǐng)域的學(xué)者，使得 ACL 大會(huì)的氛圍愈發(fā)跨學(xué)科。

為了深入剖析這一變革，雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌特別邀請(qǐng)了三位杰出學(xué)者——美國埃默里大學(xué)副教授劉菲、美國約翰霍普金斯大學(xué)助理教授肖超瑋，以及中國科學(xué)院自動(dòng)化研究所研究員張家俊，三位嘉賓從他們?cè)?ACL 的所見所聞出發(fā)，就大模型的能力邊界、安全魯棒性以及多模態(tài)融合展開了一場(chǎng)深度對(duì)話。

面對(duì)“大模型是否會(huì)沖淡計(jì)算語言學(xué)”的擔(dān)憂，三位嘉賓一致認(rèn)為，ACL 的核心本質(zhì)并未改變，它始終是通過計(jì)算手段研究和運(yùn)用語言；大模型只是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)自我進(jìn)化的體現(xiàn)。對(duì)于投稿量激增和中國作者比例創(chuàng)歷史新高，三位嘉賓給出了多維度解讀。張家俊老師認(rèn)為，這主要得益于開源技術(shù)對(duì)研究門檻的降低，以及 AI 應(yīng)用場(chǎng)景的廣泛拓展；劉菲老師則補(bǔ)充道，大模型顯著提升了研究生產(chǎn)力，讓撰寫論文的效率大幅提升，這也是投稿量激增的直接原因。

然后，三位嘉賓從自己的研究方向和本次 ACL 帶來的論文出發(fā)，進(jìn)一步剖析了今年 ACL 所反映的學(xué)術(shù)趨勢(shì)變化。其中一個(gè)趨勢(shì)是，大語言模型正從單純的“問答機(jī)器”向具備高級(jí)“智能體”特征的“問題解決者”演進(jìn)。劉菲老師指出，當(dāng)前大模型的推理能力已大幅提升，但面對(duì)復(fù)雜任務(wù)時(shí)，必須“規(guī)劃先行”；她進(jìn)一步深入剖析了 LLM 在推理（Reasoning）和規(guī)劃（Planning）能力上的躍遷，強(qiáng)調(diào)未來的 LLM 不僅需要強(qiáng)大的內(nèi)部推理，更要學(xué)會(huì)調(diào)用外部工具，以彌補(bǔ)知識(shí)局限性，學(xué)會(huì)“說不”；張家俊老師則說明，大模型的主動(dòng)澄清能力等交互方式的改變將是根本性的，它將使 AI 從一個(gè)被動(dòng)響應(yīng)的工具，轉(zhuǎn)變?yōu)橐粋€(gè)能夠進(jìn)行主動(dòng)、有意義的交互的智能伙伴。

與此同時(shí)，LLM 的快速發(fā)展也伴隨著日益嚴(yán)峻的安全與魯棒性挑戰(zhàn)。肖超瑋老師將模型對(duì)抗性攻擊與防御形容為一場(chǎng)“永無止境的攻防戰(zhàn)”。他揭示了攻擊策略的“持續(xù)學(xué)習(xí)能力”，并提出了一種全新的防御范式——“學(xué)習(xí)安全推理邏輯”。這一思路不再依賴于生成海量數(shù)據(jù)進(jìn)行對(duì)抗訓(xùn)練，而是通過讓模型學(xué)會(huì)“瀏覽動(dòng)態(tài)攻擊策略列表”并進(jìn)行深層語義分析，從而主動(dòng)識(shí)別并化解潛在的惡意指令。這標(biāo)志著 LLM 安全研究正從被動(dòng)防御轉(zhuǎn)向主動(dòng)、策略性的智能防御。

三位嘉賓還共同展望了多模態(tài)融合的未來圖景。張家俊老師將 LLM 的演變喻為一場(chǎng)范式革命，并指出多模態(tài)融合是 LLM 的下一個(gè)必經(jīng)之路。它將使 LLM 具備跨模態(tài)的理解和生成能力，從簡單的“看圖說話”進(jìn)化到真正的“感知與交互”。

三位老師描繪了一幅清晰而宏大的 LLM 未來藍(lán)圖：一個(gè)不僅能理解、生成語言，還能進(jìn)行復(fù)雜推理、安全規(guī)劃，并與多模態(tài)世界深度融合的通用智能體。這不僅是學(xué)術(shù)研究的新方向，更是 AI 產(chǎn)業(yè)實(shí)踐的下一個(gè)主戰(zhàn)場(chǎng)。

以下是此次圓桌討論的精彩分享，AI 科技評(píng)論進(jìn)行了不改原意的編輯整理：

ACL的包容性與“自我進(jìn)化”

岑峰：去年 ACL 主席 Emily M. Bender 說“ ACL 不是 AI 會(huì)議”，引發(fā)了關(guān)于大模型是否會(huì)沖淡計(jì)算語言學(xué)研究的擔(dān)憂。但一年過去，大模型相關(guān)論文卻斬獲最佳論文，這股“ AI 味”不減反增。我的第一個(gè)問題是：我們當(dāng)前是在見證計(jì)算語言學(xué)被 AI“收編”，還是看到它借助 AI 之力實(shí)現(xiàn)自我進(jìn)化？

劉菲：我是去年和今年ACL 主會(huì)多個(gè)領(lǐng)域的高級(jí)領(lǐng)域主席（Senior Area Chair），我認(rèn)為，作為自然語言處理領(lǐng)域的頂級(jí)會(huì)議，ACL 必須與時(shí)俱進(jìn)。

當(dāng)前，大模型和智能體等技術(shù)浪潮正席卷整個(gè)行業(yè)。傳統(tǒng)的 NLP 研究方向，如對(duì)話、問答、機(jī)器翻譯等，已經(jīng)沿用了十多年。如今，大模型帶來了許多新的研究方向，比如大模型安全、多模態(tài)、多語言等，這些都是亟待探索的重要領(lǐng)域。我很高興看到，今年的 ACL 已經(jīng)開始適應(yīng)這種變化，將大模型智能體和人機(jī)協(xié)作等方向納入了會(huì)議議題。我相信，未來 ACL 的領(lǐng)域劃分會(huì)迎來更大調(diào)整，以更好地適應(yīng)當(dāng)前 AI 技術(shù)的發(fā)展。

肖超瑋：從我個(gè)人研究經(jīng)歷來看，這種轉(zhuǎn)變正體現(xiàn)了 NLP 會(huì)議日益增強(qiáng)的包容性。我從機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺安全轉(zhuǎn)向 NLP 安全，我以前是不投 NLP 會(huì)議的，最近這兩年開始投 NLP 會(huì)議，恰好說明這個(gè)領(lǐng)域在大模型的時(shí)代下正在迎接不同背景的學(xué)者。我認(rèn)為，計(jì)算語言學(xué)的核心議題并未消失，而是在大模型框架下有了新的呈現(xiàn)。比如我研究的多語言安全問題，不同語言和文化對(duì)“安全”的定義各不相同，這正是大模型時(shí)代計(jì)算語言學(xué)需要深入探索的新議題。今年 ACL 大會(huì)的跨學(xué)科氛圍非常濃厚，這種融合趨勢(shì)為計(jì)算語言學(xué)帶來了更多新視角和新機(jī)遇。

張家?。何艺J(rèn)同劉老師和肖老師的觀點(diǎn)，ACL 的核心本質(zhì)沒有改變，它始終是通過計(jì)算手段研究和運(yùn)用語言，大模型是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)進(jìn)一步進(jìn)化的體現(xiàn)。對(duì)于 Emily M. Bender 主席的觀點(diǎn)，我認(rèn)為她并非否定 AI 的價(jià)值，而是以一種極端的方式提醒學(xué)界：不應(yīng)只關(guān)注 AI 技術(shù)本身，更要關(guān)注研究的多樣性與語言本質(zhì)的探索。

大模型不僅是研究語言的“工具”，也成為了具備語言能力的“研究對(duì)象”，這極大地拓展了計(jì)算語言學(xué)的內(nèi)涵。同時(shí)，大模型的多模態(tài)特性也推動(dòng)了 ACL 的跨學(xué)科融合。雖然大模型研究成為主流，但 ACL 對(duì)語言學(xué)核心議題的關(guān)注并未減弱，今年仍有許多論文聚焦語言組合性、語法學(xué)習(xí)等基礎(chǔ)研究。

此外，我非常認(rèn)同劉老師關(guān)于傳統(tǒng)研究方向需要調(diào)整的觀點(diǎn)，明年我們將討論如何優(yōu)化會(huì)議領(lǐng)域劃分，以更好地適應(yīng)發(fā)展。

岑峰：今年 ACL 投稿量突破8000篇，創(chuàng)下歷史新高。這股“內(nèi)卷”是源于跨學(xué)科的新問題，還是因?yàn)?AI 技術(shù)降低了研究門檻？

張家俊：我認(rèn)為兩個(gè)原因都存在，但技術(shù)門檻降低的影響更為顯著。這主要得益于開源技術(shù)。當(dāng)前，90%以上的研究都基于開源模型、方法和數(shù)據(jù)。就像上世紀(jì)90年代末，統(tǒng)計(jì)機(jī)器翻譯的工具開源后，相關(guān)研究才迎來爆發(fā)式增長。如今， AI 應(yīng)用場(chǎng)景的廣泛拓展也吸引了更多領(lǐng)域的研究者加入，共同推動(dòng)了投稿量的激增。

肖超瑋：我非常認(rèn)同張老師的觀點(diǎn)。我之前的網(wǎng)絡(luò)安全領(lǐng)域，因?yàn)榧夹g(shù)和工具不便開源，導(dǎo)致會(huì)議投稿量與 ACL 有天壤之別。在 NLP 領(lǐng)域，我深刻體會(huì)到了開源環(huán)境的優(yōu)勢(shì)：大量國內(nèi)外的開源大模型性能出色，降低了研究門檻，吸引了更多研究者。此外，ACL 采用的 ARR（ACL Rolling Review）機(jī)制也是吸引跨領(lǐng)域研究者的重要因素。它不像一些會(huì)議的“一票否決”制，而是允許作者根據(jù)審稿意見修改后重新提交，甚至可以更換審稿人。這種機(jī)制更適應(yīng) AI 技術(shù)的快速迭代，也讓更多有價(jià)值的研究成果有機(jī)會(huì)被看到。正是這種友好的投稿機(jī)制和成熟的開源環(huán)境共同推動(dòng)了 ACL 投稿量的激增。

劉菲：我非常認(rèn)同兩位老師的觀點(diǎn)。大模型極大地提升了研究生產(chǎn)力，這是投稿量激增的直接原因。傳統(tǒng)上寫一篇論文可能需要兩周，現(xiàn)在借助大模型兩天就能完成初稿。這種效率的飛躍，讓更多人能快速上手。我建議希望進(jìn)入 NLP 領(lǐng)域的研究者，可以從開源項(xiàng)目入手，并結(jié)合自己的專長探索“ NLP + 垂直領(lǐng)域”的交叉方向，這樣既有實(shí)際需求，也更容易產(chǎn)出有價(jià)值的成果。

岑峰：今年 ACL 大會(huì)，中國作者的論文比例達(dá)到51%。三位老師第一次參加 ACL 是什么時(shí)候？相比當(dāng)年，如今讓你們感受最“不一樣”的地方是什么？

肖超瑋：我過去主要是參加機(jī)器學(xué)習(xí)，視覺和安全的會(huì)議，今年首次參加 ACL，最大感觸是它與機(jī)器學(xué)習(xí)會(huì)議的核心關(guān)注點(diǎn)不同。機(jī)器學(xué)習(xí)會(huì)議更關(guān)注模型和算法本身，而 ACL 則更包容，它圍繞語言學(xué)本質(zhì)，匯聚了不同文化、語言背景的思考，這幫助我理解“如何設(shè)計(jì)安全策略”這類關(guān)鍵問題，進(jìn)而指導(dǎo)我們構(gòu)建更負(fù)責(zé)任、更安全的模型。此外，今年中國企業(yè)在會(huì)場(chǎng)的高參與度和在開源大模型領(lǐng)域的顯著進(jìn)展，也讓我印象深刻。

劉菲：我對(duì)中國在 AI 領(lǐng)域的快速發(fā)展感到非常欣慰。過去十幾年，我們打下了堅(jiān)實(shí)的基礎(chǔ)，大模型的研發(fā)需要完整的技術(shù)鏈條支撐。我看到國內(nèi)在數(shù)據(jù)處理、模型架構(gòu)探索等基礎(chǔ)研究上都取得了顯著進(jìn)展。同時(shí)，國內(nèi)大模型配套生態(tài)系統(tǒng)也在高速發(fā)展，研究正從基礎(chǔ)技術(shù)突破邁向智能體等應(yīng)用層面。我期待未來一兩年，大模型能更多地融入我們的日常生活。

張家?。何业谝淮螀⒓?ACL 是在2013年，會(huì)議地點(diǎn)在保加利亞索菲亞。當(dāng)時(shí)的 ACL 更聚焦語言學(xué)本質(zhì)，而如今大模型已成為主流研究方向。

我感受最深的有幾點(diǎn)：第一，論文數(shù)量大幅增長，讓人很難全部閱讀；第二，中國研究者的話語權(quán)顯著提升，無論在論文貢獻(xiàn)還是組織參與度上都變得更有影響力；第三，研究領(lǐng)域的邊界日益模糊，不同方向的方法和對(duì)象趨同，跨領(lǐng)域交流變得更順暢；第四，應(yīng)用場(chǎng)景不斷拓展，NLP 已從相對(duì)小眾的研究方向，成為 AI 領(lǐng)域的核心焦點(diǎn)。

大模型規(guī)劃：統(tǒng)一評(píng)估框架的必要性

岑峰：劉菲老師團(tuán)隊(duì)的一篇關(guān)于 LLM 規(guī)劃的論文獲得了本次 ACL 的杰出論文，為何當(dāng)前該領(lǐng)域特別需要這樣一個(gè)統(tǒng)一的評(píng)估框架和能力地圖？它解決了哪些迫在眉睫的問題？

劉菲：我們的團(tuán)隊(duì)之所以如此關(guān)注大語言模型的規(guī)劃能力，核心原因在于，當(dāng)前大模型的推理能力已實(shí)現(xiàn)大幅提升，這讓它們具備了解決高難度、復(fù)雜任務(wù)的潛力。但這類任務(wù)往往無法一蹴而就，需要通過“任務(wù)拆解”將其分解為多個(gè)可執(zhí)行的子模塊，這正是規(guī)劃能力的核心。

舉個(gè)具體的例子，如果你想用智能體制定一份為期一周的北京旅行行程，它首先需要拆解出多個(gè)子任務(wù)，比如“預(yù)訂機(jī)票”、“預(yù)訂酒店”和“每日行程安排”。這三個(gè)子任務(wù)本身就非常復(fù)雜。更重要的是，不同用戶對(duì)這些子任務(wù)的需求差異巨大，這意味著復(fù)雜任務(wù)的第一步必須是合理的、個(gè)性化的任務(wù)拆分。

此外，這些子任務(wù)的解決路徑也各不相同。有些可以由系統(tǒng)自動(dòng)處理，但可能存在不穩(wěn)定性；有些則需要人工介入。更關(guān)鍵的是，子任務(wù)之間并非孤立存在，它們有著明確的關(guān)聯(lián)結(jié)構(gòu)。規(guī)劃的最終目標(biāo)是讓用戶完全滿意，而“個(gè)性化” 是實(shí)現(xiàn)這一目標(biāo)的最大難點(diǎn)。做好規(guī)劃，需要綜合考慮這些多維度的個(gè)性化因素。

正因?yàn)橐?guī)劃任務(wù)的復(fù)雜性和多樣性，我們認(rèn)為構(gòu)建一個(gè)統(tǒng)一的評(píng)估框架至關(guān)重要。我在自然語言處理領(lǐng)域工作了近15年，始終堅(jiān)信 “評(píng)估先行”。一套優(yōu)質(zhì)的、經(jīng)過深思熟慮的評(píng)估指標(biāo)能夠有效指導(dǎo)系統(tǒng)開發(fā)，讓研究方向更為集中和高效。反之，如果缺乏扎實(shí)可靠的評(píng)估框架，整個(gè)領(lǐng)域的發(fā)展就會(huì)變得分散，甚至陷入停滯。因此，要真正推動(dòng)大模型規(guī)劃與推理領(lǐng)域的前進(jìn)，必須先建立一個(gè)統(tǒng)一且精細(xì)的評(píng)估框架。

此外，規(guī)劃能力也與當(dāng)前的智能體人工智能（ Agentic AI ）高度相關(guān)。規(guī)劃的效率直接決定了智能體完成任務(wù)的效率，從這個(gè)角度看，規(guī)劃與決策無疑是極具潛力的研究方向。除了規(guī)劃，我們團(tuán)隊(duì)也對(duì)多智能體協(xié)同和競(jìng)爭方向有著濃厚的興趣。我認(rèn)為，未來大模型可以升級(jí)為個(gè)性化模型，讓每個(gè)人都擁有一個(gè)專屬的智能助手。在這種情境下，智能體之間可能存在復(fù)雜的社會(huì)關(guān)系：在團(tuán)隊(duì)協(xié)作時(shí)，它們需要合作；而在爭奪同一個(gè)資源時(shí)，它們又會(huì)形成競(jìng)爭。無論是合作還是競(jìng)爭，多智能體都需要強(qiáng)大的規(guī)劃和協(xié)同能力，這也是我們未來重點(diǎn)關(guān)注的方向。

岑峰：如果小模型能在特定規(guī)劃任務(wù)上達(dá)到大模型的性能，這對(duì)商業(yè)化應(yīng)用與部署會(huì)有何影響？

劉菲：小模型具有很強(qiáng)的推理能力，而大模型的優(yōu)勢(shì)在于知識(shí)儲(chǔ)備。如果一個(gè)工業(yè)落地場(chǎng)景無需大量外部知識(shí)，僅需調(diào)用大模型的單一能力，那么經(jīng)過知識(shí)蒸餾的小模型就極具價(jià)值。但若任務(wù)對(duì)專業(yè)知識(shí)有高要求，則仍需采用參數(shù)規(guī)模更大的模型?？偠灾?，小模型在特定場(chǎng)景下的高性能表現(xiàn)，將大幅降低部署成本，加速商業(yè)化落地。

岑峰：劉老師在論文中提到“強(qiáng)化不可行任務(wù)檢測(cè)指標(biāo)”的建議，讓大模型學(xué)會(huì)“說不”，從技術(shù)層面會(huì)面臨哪些挑戰(zhàn)？又會(huì)給用戶體驗(yàn)帶來怎樣的改變？

劉菲：從用戶角度，我非常希望大模型能主動(dòng)“說不”。目前，大模型在訓(xùn)練時(shí)傾向于迎合用戶需求，這導(dǎo)致它們?cè)诨卮鸩淮_切的問題時(shí)容易產(chǎn)生“幻覺”，比如虛構(gòu)一個(gè)不存在的電影劇情。

要解決這個(gè)問題，長遠(yuǎn)來看，我們需要將傳統(tǒng)的分類模型方法與大模型結(jié)合，實(shí)現(xiàn)“結(jié)論與推理依據(jù)的對(duì)齊”。當(dāng)前，大模型通過逐 token 生成推理依據(jù)，但其最終結(jié)論可能與推理過程不一致。未來，我們需要確保無論結(jié)論是基于分類模型還是參數(shù)化模型，其口頭解釋都能保持一致。如果大模型能學(xué)會(huì)“說不”，將能提供更準(zhǔn)確、更可信的信息，避免誤導(dǎo)用戶，從而帶來更好的用戶體驗(yàn)。

從被動(dòng)到主動(dòng)：大模型的未來交互策略

岑峰：張老師團(tuán)隊(duì)也有一篇 ACL 的 Highlight 論文，其核心思想是“讓視覺語言模型學(xué)會(huì)提問，消解視覺回答中的模糊性”。如何通俗解讀這一研究？它與人類的提問邏輯有何異同？

張家?。何覀冄芯康暮诵氖亲屢曈X語言模型擁有“追問”的能力。在視覺問答（ VQA ）中，很多問題回答不準(zhǔn)確，是因?yàn)閱栴}本身就很模糊。這就像我們問“那個(gè)東西怎么用？”，對(duì)方會(huì)反問“你指的是哪個(gè)？”來明確需求。但大模型默認(rèn)用戶問題是完全正確的，不會(huì)主動(dòng)澄清。由于圖像信息量大，這種模糊性在視覺領(lǐng)域尤其突出。因此，我們的研究就是教會(huì)模型，在識(shí)別到模糊提問時(shí)，先通過追問來明確用戶意圖，再給出精準(zhǔn)回答。

岑峰：除了論文中提到的三類模糊性，是否還存在其他類型？能否結(jié)合例子具體說明？

張家俊：我們當(dāng)前將模糊性劃分為三類，主要是基于現(xiàn)有數(shù)據(jù)集的特性和技術(shù)的可行性。但實(shí)際上，除了這三種，在現(xiàn)實(shí)場(chǎng)景中肯定還存在其他類型的模糊性問題。

其中一個(gè)非常典型的例子就是由文化背景差異帶來的模糊性。在不同的國家和文化語境下，即使是相同的問題，其背后所指向的需求或隱含的文化含義也可能截然不同，也存在數(shù)據(jù)構(gòu)造極為困難的巨大的挑戰(zhàn)。要構(gòu)建涵蓋不同文化、不同常識(shí)背景的模糊問題數(shù)據(jù)集，需要大量的跨文化標(biāo)注，目前這方面的積累還遠(yuǎn)遠(yuǎn)不夠。所以，我們選擇先聚焦于“指代、意圖、拼寫” 這三類更容易界定和構(gòu)造數(shù)據(jù)的問題，后續(xù)再逐步拓展。

為了幫助大家更好地理解這三類模糊性，我可以結(jié)合視覺場(chǎng)景來舉幾個(gè)具體的例子：

指代模糊：想象一張照片里有兩個(gè)人一前一后站著，一個(gè)穿著“殺馬特”風(fēng)格的衣服，另一個(gè)是“二次元”風(fēng)格。如果用戶問模型：“這個(gè)人怎么穿成這樣？”模型就無法確定用戶指的是哪一個(gè)人。這就是典型的指代模糊，模型需要通過追問來解決，比如問：“您指的是照片中靠前的人，還是靠后的人？”
意圖模糊：比如一張圖片展示了一個(gè)人站在倫敦橋上，背景能看到著名的大本鐘。這時(shí)，用戶可能會(huì)問：“這個(gè)人站在哪里？”從表面看，用戶是在問具體位置，但深層的意圖可能是想知道所在的城市，也就是“倫敦”。如果模型只回答“在橋上”，就沒有真正滿足用戶的需求。這就是意圖模糊，模型需要追問來確認(rèn)，比如問：“您是想了解具體地點(diǎn)，還是所在的城市？”
拼寫模糊：假設(shè)圖片是在某個(gè)展覽活動(dòng)現(xiàn)場(chǎng)，用戶想問“這是一個(gè)什么事件？”但因?yàn)橥糇皱e(cuò)誤，打成了“這是一個(gè)什么時(shí)間？”雖然語法正確，但語義完全偏離了。這就是拼寫模糊，模型需要識(shí)別出這種偏差并進(jìn)行追問，比如問：“您是否想問‘這是一個(gè)什么事件？’”

這些例子清晰地說明了，在復(fù)雜的人機(jī)交互中，讓模型學(xué)會(huì)主動(dòng)識(shí)別和消解模糊性，是提升用戶體驗(yàn)的關(guān)鍵。

岑峰：如何從技術(shù)上讓模型具備“該直接回答還是主動(dòng)追問”的判斷能力？這項(xiàng)研究對(duì)未來 AI 認(rèn)知發(fā)展有何啟示？

張家?。汉诵脑谟谧屇Ｐ蛽碛小白灾鳌?，即清楚自己“知道什么、不知道什么”。當(dāng)面對(duì)不確定的問題時(shí)，它能識(shí)別出不確定性，并主動(dòng)交互。目前，我們通過數(shù)據(jù)驅(qū)動(dòng) 的方式來實(shí)現(xiàn)這一能力。我們專門針對(duì)模糊場(chǎng)景，自動(dòng)化構(gòu)造了大規(guī)模訓(xùn)練數(shù)據(jù)，將“需要追問”的案例作為正樣本，將“可直接回答”的案例作為負(fù)樣本，以此教會(huì)模型進(jìn)行二元判斷。從長遠(yuǎn)看，若模型能同時(shí)具備“自知之明”和“用戶認(rèn)知建?！钡哪芰?，有望自主形成主動(dòng)交互意識(shí)。

岑峰：這一能力能否擴(kuò)展到其他領(lǐng)域？它將如何改變?nèi)伺c AI 的交互方式？

張家?。哼@一能力的通用性非常強(qiáng)，可以擴(kuò)展到智能客服、智能家居、車載系統(tǒng)等高頻人機(jī)交互場(chǎng)景，甚至在智能決策系統(tǒng)中，模型也能通過主動(dòng)提問來補(bǔ)全信息，提升決策準(zhǔn)確性。這種主動(dòng)澄清能力，將成為多模態(tài)模型和決策模型的基礎(chǔ)能力。例如，在撰寫綜述時(shí)，模型若能主動(dòng)詢問用戶“您希望重點(diǎn)覆蓋哪些領(lǐng)域？”，便能生成更貼合需求的內(nèi)容。這種交互方式的改變將是根本性的，它將使AI從一個(gè)被動(dòng)響應(yīng)的工具，轉(zhuǎn)變?yōu)橐粋€(gè)能夠進(jìn)行主動(dòng)、有意義的交互的智能伙伴。

大模型安全與魯棒性：一場(chǎng)永無止境的攻防戰(zhàn)

岑峰：在大模型時(shí)代，有哪些新的攻擊或防御策略？傳統(tǒng)方法是否仍有效？

肖超瑋：我將結(jié)合我們團(tuán)隊(duì)的研究探索，分享對(duì)大模型安全領(lǐng)域的最新觀察與趨勢(shì)。

早期的對(duì)抗攻擊研究主要集中在計(jì)算機(jī)視覺領(lǐng)域。那時(shí)的防御方案聚焦于“System 1” 層次，即通過生成對(duì)抗樣本，并進(jìn)行 “對(duì)抗訓(xùn)練” 來微調(diào)模型。然而，這種方法的致命缺陷是泛化性極差。它只能應(yīng)對(duì)已知的擾動(dòng)，面對(duì)更廣泛、更復(fù)雜的未知攻擊時(shí)，幾乎束手無策。

早在2022年，我們團(tuán)隊(duì)就提出了一個(gè)不同的思路，從 “System 2” 層面設(shè)計(jì)防御方案。我們的 DiffPure 通過引入“擴(kuò)散模型”，模擬人類的“慢思考”過程，實(shí)現(xiàn)在無需接觸對(duì)抗樣本的情況下，也能對(duì)未知擾動(dòng)進(jìn)行有效防御。

如今，這種“System 2” 的思路在大模型安全研究中得到了延伸。我們最近的工作 ARMOR，僅僅讓模型“背”下安全策略是遠(yuǎn)遠(yuǎn)不夠的，而是必須讓它通過一個(gè)主動(dòng)的推理過程來分析問題，明確不安全行為違反了哪些安全準(zhǔn)則。當(dāng)前，無論是 OpenAI 的 “深度思考的對(duì)齊” 還是國內(nèi)清華大學(xué)等團(tuán)隊(duì)的工作 STAIR，都在嘗試通過“推理模型” 來強(qiáng)化安全對(duì)齊。

然而，現(xiàn)有的一些推理防御方案仍存在漏洞。其根本原因在于，模型的推理邏輯和人類對(duì)比可能存在偏差。對(duì)于一個(gè)惡意的共計(jì)，人類解決問題的關(guān)鍵，是讓模型像人類一樣“抽絲剝縷”，先理解到底是在問什么問題，再基于安準(zhǔn)則做出判斷，是不是這個(gè)問題是不是違背了安全準(zhǔn)則。

因此，我們提出了“結(jié)構(gòu)化推理” 方法，旨在明確模型的推理邏輯，使其決策過程更貼近人類思維。我們認(rèn)為，如何將這種結(jié)構(gòu)化推理與基于強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動(dòng)方法相結(jié)合，是當(dāng)前一個(gè)重要的研究方向。

另一個(gè)重要趨勢(shì)是智能體安全（ Agent Security ）。今年 ACL 會(huì)議上，業(yè)界開始關(guān)注 “間接指令注入（ indirect problem injection ）” 這種新的系統(tǒng)級(jí)威脅。針對(duì)這類問題，我們?cè)?ACL 會(huì)議上面也提出了 Agrail , 通過構(gòu)建一個(gè)智能體安全護(hù)欄提升智能體的安全。

總的來說，安全研究正在從早期的“ System 1 ” 級(jí)對(duì)齊微調(diào)，深化到“ System2 ”級(jí)別利用“結(jié)構(gòu)化推理” 提升模型安全性；并從單一模型擴(kuò)展到系統(tǒng)層面，通過構(gòu)建外部防御機(jī)制來系統(tǒng)性地解決安全問題。這些都是當(dāng)前領(lǐng)域的重要進(jìn)展，并且仍在持續(xù)推進(jìn)。

岑峰：與計(jì)算機(jī)視覺相比，NLP 在對(duì)抗攻擊與魯棒性方面面臨哪些獨(dú)特挑戰(zhàn)？

肖超瑋：我之所以從計(jì)算機(jī)視覺（ CV ）轉(zhuǎn)向自然語言處理（ NLP ）領(lǐng)域，正是因?yàn)檎Z言具有獨(dú)特的價(jià)值和挑戰(zhàn)。CV 領(lǐng)域的對(duì)抗攻擊通常很直接，比如在停車標(biāo)志上貼一張?zhí)厥庠O(shè)計(jì)的貼紙來誤導(dǎo)模型，而 NLP 則完全不同，語言是人類設(shè)計(jì)的、帶有強(qiáng)烈社會(huì)性的知識(shí)載體和社交工具。其邏輯與人類現(xiàn)實(shí)社會(huì)中的“說服”或“PUA”非常相似。攻擊者可以通過不同的語言技巧和策略，誘導(dǎo)模型給出有害的回答。這說明 NLP 的攻擊門檻非常低，普通用戶就能實(shí)施，這是語言特性帶來的全新挑戰(zhàn)。

為此，我們的研究方向像 AutoDAN-Turbo，ARMOR 等是從“策略空間”切入，系統(tǒng)地梳理和識(shí)別這些基于策略的攻擊手段，再讓模型學(xué)習(xí)如何防御。早期的攻擊方式相對(duì)簡單，比如替換個(gè)別單詞，但現(xiàn)在的攻擊已升級(jí)，不再是簡單的文本改寫，而是通過設(shè)計(jì)特定策略來精準(zhǔn)誘導(dǎo)模型。這種升級(jí)不僅為攻擊行為開辟了巨大空間，也給防御工作帶來了巨大挑戰(zhàn)。我認(rèn)為，這正是語言獨(dú)特的社會(huì)性和動(dòng)態(tài)的語言學(xué)屬性所導(dǎo)致的。

岑峰：AI 安全的未來方向是怎樣的？除了對(duì)抗攻擊和防御，還有哪些更深層次的問題需要解決？

肖超瑋：我認(rèn)為未來的 AI 安全需要重點(diǎn)關(guān)注四個(gè)方向：

推理模型的應(yīng)用：核心問題是，我們?cè)撊绾卫猛评砟Ｐ?？是采用我們提出的“結(jié)構(gòu)化推理”，還是更偏向目標(biāo)對(duì)齊的方法，這需要深入研究。
目標(biāo)過擬合：目前許多模型通過獎(jiǎng)勵(lì)機(jī)制來確保目標(biāo)達(dá)成，但過度關(guān)注結(jié)果可能導(dǎo)致模型在過程中產(chǎn)生欺騙行為。如何解決這種“目標(biāo)過擬合”帶來的新安全挑戰(zhàn)，是亟待解決的問題。
個(gè)性化安全：這是一個(gè)跨學(xué)科的難題。安全本身沒有統(tǒng)一的定義，如何讓模型能適應(yīng)不同國家、不同個(gè)體的安全準(zhǔn)則，并構(gòu)建一個(gè)兼顧個(gè)體需求與公共安全的策略框架，是需要深層探索的方向。
智能體安全：隨著大模型向多智能體系統(tǒng)演進(jìn)，系統(tǒng)級(jí)安全問題日益突出，比如“間接指令注入”。智能體比單一模型更脆弱，因此如何定義和解決智能體安全問題，是未來需要重點(diǎn)思考的方向。

岑峰：張老師，我也想請(qǐng)教您，從多模態(tài)大模型研究的視角，您如何看待 AI 安全問題？

張家?。何曳浅ＵJ(rèn)同肖老師的觀點(diǎn)，語言的主觀性和不確定性確實(shí)為 AI 安全帶來了獨(dú)特的挑戰(zhàn)。而當(dāng)我們將技術(shù)從單一的語言或視覺模態(tài)拓展到多模態(tài)時(shí)，AI 安全問題會(huì)進(jìn)一步加劇。

舉個(gè)我們研究中遇到的例子：一個(gè)安全對(duì)齊良好的大語言模型，其抗攻擊能力較強(qiáng)。但如果加入語音交互模態(tài)，安全風(fēng)險(xiǎn)便會(huì)立刻凸顯。不同的口音或年齡群體在提問時(shí)，很可能繞過為文本模態(tài)設(shè)計(jì)的安全機(jī)制。

為此，我們團(tuán)隊(duì)開展了“行為克隆” 的研究，旨在實(shí)現(xiàn) “跨模態(tài)對(duì)齊”。核心思想是：在語音和文本語義一致的前提下，模型對(duì)兩種模態(tài)輸入的行為響應(yīng)也必須完全一致。我們通過這種方法，在不修改大語言模型核心參數(shù)的情況下，實(shí)現(xiàn)了語音到文本的模態(tài)對(duì)齊，從而讓模型在處理語音輸入時(shí)也能繼承原有的安全能力。

然而，這種方法尚未完全解決所有多模態(tài)安全問題。例如，語音中的情緒、重音差異仍可能導(dǎo)致模型內(nèi)部表征發(fā)生微小變化，進(jìn)而影響其安全防御水平。因此，我認(rèn)為多模態(tài)場(chǎng)景下的 AI 安全研究，既存在巨大的探索空間，也面臨著更為嚴(yán)峻的挑戰(zhàn)。

產(chǎn)學(xué)研融合：新企業(yè)入局與人才新需求

岑峰：今年我們看到了量化基金、律師事務(wù)所等新企業(yè)入局 ACL，會(huì)對(duì) NLP 研究和人才需求產(chǎn)生哪些影響？ACL 的學(xué)術(shù)成果又該如何更好地轉(zhuǎn)化為產(chǎn)業(yè)應(yīng)用？

張家俊：今年 ACL 的贊助商確實(shí)呈現(xiàn)顯著多樣化，這背后是大模型發(fā)展推動(dòng) NLP 技術(shù)的應(yīng)用邊界不斷拓展。如今，大模型不僅應(yīng)用于互聯(lián)網(wǎng)，更在金融、法律、醫(yī)療等實(shí)體行業(yè)落地，催生了企業(yè)對(duì) NLP 人才的差異化需求。這些新入局的企業(yè)通過贊助頂會(huì)，來吸引人才和對(duì)接前沿研究，這是其核心驅(qū)動(dòng)力。

關(guān)于學(xué)術(shù)成果如何對(duì)接產(chǎn)業(yè)，這取決于論文的研究屬性：

興趣驅(qū)動(dòng)型研究：這類研究以學(xué)術(shù)探索為核心，通常不考慮實(shí)際應(yīng)用。例如，有最佳論文聚焦“大模型內(nèi)部公平性”這類基礎(chǔ)問題，其直接商業(yè)價(jià)值有限，企業(yè)聯(lián)合研究的動(dòng)力也較低。
應(yīng)用/任務(wù)驅(qū)動(dòng)型研究：這類研究是連接學(xué)術(shù)與產(chǎn)業(yè)的核心。它又分為兩個(gè)方向：

?基礎(chǔ)模型構(gòu)建：比如專注于預(yù)訓(xùn)練數(shù)據(jù)篩選、對(duì)齊數(shù)據(jù)工程等。ACL 的許多杰出論文都屬于此類，它們由產(chǎn)學(xué)研聯(lián)合開展，能直接轉(zhuǎn)化為業(yè)界模型開發(fā)的核心技術(shù)。

?具體場(chǎng)景落地：比如面向律師事務(wù)所的“法律文本分析”，或面向量化基金的“金融輿情挖掘”。這類研究從行業(yè)實(shí)際問題出發(fā)，目標(biāo)就是技術(shù)落地，因此天然具備與產(chǎn)業(yè)對(duì)接的屬性，能直接轉(zhuǎn)化為企業(yè)的產(chǎn)品功能。

因此，“應(yīng)用驅(qū)動(dòng)型研究”是推動(dòng) ACL 學(xué)術(shù)價(jià)值向產(chǎn)業(yè)價(jià)值高效轉(zhuǎn)化的關(guān)鍵。

肖超瑋：我非常認(rèn)同張老師的分析，大模型正在拓展其應(yīng)用邊界。我分享一個(gè)親身經(jīng)歷：我的航班延誤8小時(shí)，航空公司只愿意賠償100美元。我用大模型查詢后得知，根據(jù)歐盟法律，我應(yīng)該獲得600歐元的賠償，最終成功拿到了這筆錢。這個(gè)案例讓我感觸很深：大模型憑借其海量知識(shí)儲(chǔ)備，讓普通人也能便捷地獲取專業(yè)知識(shí)，這在過去是無法想象的。

這個(gè)例子也恰好說明了模型與產(chǎn)業(yè)結(jié)合的巨大價(jià)值?，F(xiàn)在，越來越多的企業(yè)，包括安全領(lǐng)域的公司，都在探索如何構(gòu)建AI安全防護(hù)機(jī)制，比如打造 “ AI 防火墻” 或利用 AI 生成 “安全代碼”。這些都不僅僅是學(xué)術(shù)研究，而是能直接應(yīng)用于產(chǎn)業(yè)的實(shí)際方向。

關(guān)于如何更好地推動(dòng)研究與產(chǎn)業(yè)結(jié)合，我認(rèn)為可以從兩個(gè)方面發(fā)力：

應(yīng)用驅(qū)動(dòng)型研究：研究者可以結(jié)合自身優(yōu)勢(shì)，深耕特定應(yīng)用場(chǎng)景，圍繞產(chǎn)業(yè)實(shí)際需求開展研究。
基礎(chǔ)理論研究：同樣要重視大模型的訓(xùn)練邏輯、算法設(shè)計(jì)等基礎(chǔ)研究。這些看似不直接落地，但它們是未來技術(shù)突破的核心，終有一天會(huì)迸發(fā)出巨大的產(chǎn)業(yè)價(jià)值。

觀眾QA

岑峰：有觀眾提問：若防御者能利用推理（ reasoning ）提升安全，攻擊者同樣可借助推理實(shí)施攻擊，那么該領(lǐng)域合理的研究假設(shè)應(yīng)如何界定？

肖超瑋：是的，攻防雙方都可利用推理能力。所以對(duì)于防御的關(guān)鍵就是，在合理的威脅模型的假設(shè)下，在攻擊者也可以用各種合理的工具，各種手段還能防御成功就是合理的。比如現(xiàn)在 OpenAI 的防御的威脅模型就是，他不會(huì)全給你模型完整的和真實(shí)的推理過程，而是經(jīng)過篩選后僅暴露部分內(nèi)容，這些內(nèi)容不會(huì)妨礙正常用戶對(duì)推理過程的理解，滿足了可解釋信也不會(huì)影響模型回答問題的準(zhǔn)確性。這種假設(shè)就是合理的。這種假設(shè)下，雖然攻擊者可以用各種手段，也可以用推理共計(jì)，但是他不能利用模型真實(shí)的和完整的推理內(nèi)容。

岑峰：第二個(gè)觀眾問題：“大語言模型面臨多種攻擊方式，是否存在通用的魯棒防御方法？”

肖超瑋：我認(rèn)為，這個(gè)問題的答案可以概括為“既無絕對(duì)通用的方法，也存在可探索的通用防御方向”。

從“無” 的角度看，絕對(duì)的通用防御是不存在的。攻擊者具備持續(xù)學(xué)習(xí)的能力，他們總能探索出全新的攻擊形式。因此，我們不能再沿用傳統(tǒng)的防御思路，比如僅僅通過生成海量數(shù)據(jù)來進(jìn)行對(duì)抗訓(xùn)練，這種方式是行不通的。

然而，從“有” 的角度看，我們存在可行的通用防御方向。我們需要轉(zhuǎn)變思路，讓模型學(xué)習(xí)如何進(jìn)行安全推理。正如我們近期研究的工作 ARMOR 提出的，模型首先需要具備瀏覽一個(gè)動(dòng)態(tài)攻擊策略列表的能力，并能從中識(shí)別出輸入問題可能采用的攻擊策略，進(jìn)而理清用戶的真實(shí)意圖。這個(gè)列表是可維護(hù)、可低成本更新的，我們可以不斷將新的攻擊策略補(bǔ)充進(jìn)去。

我們希望傳遞的理念是，研究應(yīng)從“結(jié)構(gòu)化推理” 和提成本的“終生學(xué)習(xí)” ，快讀迭代的角度去思考防御。讓模型學(xué)習(xí)理解高層級(jí)的推理邏輯，而不是單純地記憶數(shù)據(jù)實(shí)例。攻擊者可能會(huì)用不同的語言、不同的勸說策略發(fā)起攻擊，但從高層級(jí)來看，這些攻擊手段存在諸多共性。因此，我們需要維護(hù)的是這份高層級(jí)共性策略列表，并持續(xù)更新，防御者可以低成本的讓模型基于該列表進(jìn)行推理，來以終身學(xué)習(xí)的方式去防御。只有讓模型掌握這種識(shí)別推理邏輯能力，才有可能從根本上解決問題，真正推動(dòng) AI 安全領(lǐng)域取得進(jìn)展。

岑峰：時(shí)間過得飛快，我們這次圓桌到這里就結(jié)束了。謝謝三位嘉賓的分享，謝謝觀眾們的觀看，我們下次再見！

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

大語言模型的新征程—— ACL 2025頂會(huì)見聞前沿論壇實(shí)錄｜GAIR Live