国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大語言模型的新征程—— ACL 2025頂會(huì)見聞前沿論壇實(shí)錄|GAIR Live

0
分享至



ACL 投稿破8000,大模型把計(jì)算語言學(xué)推向‘智能體’時(shí)代,三位頂級(jí)學(xué)者拆解 NLP 未來趨勢(shì)。

作者丨岑峰

編輯丨陳彩嫻

2025年的 ACL(計(jì)算語言學(xué)協(xié)會(huì))年會(huì),無疑是大語言模型( LLM )持續(xù)主導(dǎo) NLP 領(lǐng)域的又一里程碑。這不僅僅體現(xiàn)在學(xué)術(shù)研究的深度,更體現(xiàn)在會(huì)議本身的各項(xiàng)數(shù)據(jù)上——史無前例的8000多篇投稿,其中中國作者的比例高達(dá)51%。這一現(xiàn)象清晰地傳遞出大模型已成為 NLP 領(lǐng)域核心的信號(hào),也標(biāo)志著整個(gè)行業(yè)的格局正在發(fā)生深刻變化。

通過與多位參會(huì)者的溝通,我們得出這樣的結(jié)論:大模型并未“沖淡”計(jì)算語言學(xué)的核心,反而在其技術(shù)框架下,為傳統(tǒng)議題賦予了新的定義和呈現(xiàn)形式。同時(shí),其多模態(tài)特性打破了傳統(tǒng)的研究壁壘,吸引了來自計(jì)算機(jī)視覺、網(wǎng)絡(luò)安全等不同領(lǐng)域的學(xué)者,使得 ACL 大會(huì)的氛圍愈發(fā)跨學(xué)科。

為了深入剖析這一變革,雷峰網(wǎng)、AI 科技評(píng)論 GAIR Live 品牌特別邀請(qǐng)了三位杰出學(xué)者——美國埃默里大學(xué)副教授劉菲、美國約翰霍普金斯大學(xué)助理教授肖超瑋,以及中國科學(xué)院自動(dòng)化研究所研究員張家俊,三位嘉賓從他們?cè)?ACL 的所見所聞出發(fā),就大模型的能力邊界、安全魯棒性以及多模態(tài)融合展開了一場(chǎng)深度對(duì)話。

面對(duì)“大模型是否會(huì)沖淡計(jì)算語言學(xué)”的擔(dān)憂,三位嘉賓一致認(rèn)為,ACL 的核心本質(zhì)并未改變,它始終是通過計(jì)算手段研究和運(yùn)用語言;大模型只是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)自我進(jìn)化的體現(xiàn)。對(duì)于投稿量激增和中國作者比例創(chuàng)歷史新高,三位嘉賓給出了多維度解讀。張家俊老師認(rèn)為,這主要得益于開源技術(shù)對(duì)研究門檻的降低,以及 AI 應(yīng)用場(chǎng)景的廣泛拓展;劉菲老師則補(bǔ)充道,大模型顯著提升了研究生產(chǎn)力,讓撰寫論文的效率大幅提升,這也是投稿量激增的直接原因。

然后,三位嘉賓從自己的研究方向和本次 ACL 帶來的論文出發(fā),進(jìn)一步剖析了今年 ACL 所反映的學(xué)術(shù)趨勢(shì)變化。其中一個(gè)趨勢(shì)是,大語言模型正從單純的“問答機(jī)器”向具備高級(jí)“智能體”特征的“問題解決者”演進(jìn)。劉菲老師指出,當(dāng)前大模型的推理能力已大幅提升,但面對(duì)復(fù)雜任務(wù)時(shí),必須“規(guī)劃先行”;她進(jìn)一步深入剖析了 LLM 在推理(Reasoning)和規(guī)劃(Planning)能力上的躍遷,強(qiáng)調(diào)未來的 LLM 不僅需要強(qiáng)大的內(nèi)部推理,更要學(xué)會(huì)調(diào)用外部工具,以彌補(bǔ)知識(shí)局限性,學(xué)會(huì)“說不”;張家俊老師則說明,大模型的主動(dòng)澄清能力等交互方式的改變將是根本性的,它將使 AI 從一個(gè)被動(dòng)響應(yīng)的工具,轉(zhuǎn)變?yōu)橐粋€(gè)能夠進(jìn)行主動(dòng)、有意義的交互的智能伙伴。

與此同時(shí),LLM 的快速發(fā)展也伴隨著日益嚴(yán)峻的安全與魯棒性挑戰(zhàn)。肖超瑋老師將模型對(duì)抗性攻擊與防御形容為一場(chǎng)“永無止境的攻防戰(zhàn)”。他揭示了攻擊策略的“持續(xù)學(xué)習(xí)能力”,并提出了一種全新的防御范式——“學(xué)習(xí)安全推理邏輯”。這一思路不再依賴于生成海量數(shù)據(jù)進(jìn)行對(duì)抗訓(xùn)練,而是通過讓模型學(xué)會(huì)“瀏覽動(dòng)態(tài)攻擊策略列表”并進(jìn)行深層語義分析,從而主動(dòng)識(shí)別并化解潛在的惡意指令。這標(biāo)志著 LLM 安全研究正從被動(dòng)防御轉(zhuǎn)向主動(dòng)、策略性的智能防御。

三位嘉賓還共同展望了多模態(tài)融合的未來圖景。張家俊老師將 LLM 的演變喻為一場(chǎng)范式革命,并指出多模態(tài)融合是 LLM 的下一個(gè)必經(jīng)之路。它將使 LLM 具備跨模態(tài)的理解和生成能力,從簡單的“看圖說話”進(jìn)化到真正的“感知與交互”。

三位老師描繪了一幅清晰而宏大的 LLM 未來藍(lán)圖:一個(gè)不僅能理解、生成語言,還能進(jìn)行復(fù)雜推理、安全規(guī)劃,并與多模態(tài)世界深度融合的通用智能體。這不僅是學(xué)術(shù)研究的新方向,更是 AI 產(chǎn)業(yè)實(shí)踐的下一個(gè)主戰(zhàn)場(chǎng)。


以下是此次圓桌討論的精彩分享,AI 科技評(píng)論進(jìn)行了不改原意的編輯整理:

01

ACL的包容性與自我進(jìn)化

岑峰:去年 ACL 主席 Emily M. Bender 說“ ACL 不是 AI 會(huì)議”,引發(fā)了關(guān)于大模型是否會(huì)沖淡計(jì)算語言學(xué)研究的擔(dān)憂。但一年過去,大模型相關(guān)論文卻斬獲最佳論文,這股“ AI 味”不減反增。我的第一個(gè)問題是:我們當(dāng)前是在見證計(jì)算語言學(xué)被 AI“收編”,還是看到它借助 AI 之力實(shí)現(xiàn)自我進(jìn)化?

劉菲:我是去年和今年ACL 主會(huì)多個(gè)領(lǐng)域的高級(jí)領(lǐng)域主席(Senior Area Chair),我認(rèn)為,作為自然語言處理領(lǐng)域的頂級(jí)會(huì)議,ACL 必須與時(shí)俱進(jìn)。

當(dāng)前,大模型和智能體等技術(shù)浪潮正席卷整個(gè)行業(yè)。傳統(tǒng)的 NLP 研究方向,如對(duì)話、問答、機(jī)器翻譯等,已經(jīng)沿用了十多年。如今,大模型帶來了許多新的研究方向,比如大模型安全、多模態(tài)、多語言等,這些都是亟待探索的重要領(lǐng)域。我很高興看到,今年的 ACL 已經(jīng)開始適應(yīng)這種變化,將大模型智能體和人機(jī)協(xié)作等方向納入了會(huì)議議題。我相信,未來 ACL 的領(lǐng)域劃分會(huì)迎來更大調(diào)整,以更好地適應(yīng)當(dāng)前 AI 技術(shù)的發(fā)展。

肖超瑋:從我個(gè)人研究經(jīng)歷來看,這種轉(zhuǎn)變正體現(xiàn)了 NLP 會(huì)議日益增強(qiáng)的包容性。我從機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺安全轉(zhuǎn)向 NLP 安全,我以前是不投 NLP 會(huì)議的,最近這兩年開始投 NLP 會(huì)議,恰好說明這個(gè)領(lǐng)域在大模型的時(shí)代下正在迎接不同背景的學(xué)者。我認(rèn)為,計(jì)算語言學(xué)的核心議題并未消失,而是在大模型框架下有了新的呈現(xiàn)。比如我研究的多語言安全問題,不同語言和文化對(duì)“安全”的定義各不相同,這正是大模型時(shí)代計(jì)算語言學(xué)需要深入探索的新議題。今年 ACL 大會(huì)的跨學(xué)科氛圍非常濃厚,這種融合趨勢(shì)為計(jì)算語言學(xué)帶來了更多新視角和新機(jī)遇。

張家?。何艺J(rèn)同劉老師和肖老師的觀點(diǎn),ACL 的核心本質(zhì)沒有改變,它始終是通過計(jì)算手段研究和運(yùn)用語言,大模型是計(jì)算語言學(xué)借助 AI 技術(shù)實(shí)現(xiàn)進(jìn)一步進(jìn)化的體現(xiàn)。對(duì)于 Emily M. Bender 主席的觀點(diǎn),我認(rèn)為她并非否定 AI 的價(jià)值,而是以一種極端的方式提醒學(xué)界:不應(yīng)只關(guān)注 AI 技術(shù)本身,更要關(guān)注研究的多樣性與語言本質(zhì)的探索。

大模型不僅是研究語言的“工具”,也成為了具備語言能力的“研究對(duì)象”,這極大地拓展了計(jì)算語言學(xué)的內(nèi)涵。同時(shí),大模型的多模態(tài)特性也推動(dòng)了 ACL 的跨學(xué)科融合。雖然大模型研究成為主流,但 ACL 對(duì)語言學(xué)核心議題的關(guān)注并未減弱,今年仍有許多論文聚焦語言組合性、語法學(xué)習(xí)等基礎(chǔ)研究。

此外,我非常認(rèn)同劉老師關(guān)于傳統(tǒng)研究方向需要調(diào)整的觀點(diǎn),明年我們將討論如何優(yōu)化會(huì)議領(lǐng)域劃分,以更好地適應(yīng)發(fā)展。

岑峰:今年 ACL 投稿量突破8000篇,創(chuàng)下歷史新高。這股“內(nèi)卷”是源于跨學(xué)科的新問題,還是因?yàn)?AI 技術(shù)降低了研究門檻?

張家俊:我認(rèn)為兩個(gè)原因都存在,但技術(shù)門檻降低的影響更為顯著。這主要得益于開源技術(shù)。當(dāng)前,90%以上的研究都基于開源模型、方法和數(shù)據(jù)。就像上世紀(jì)90年代末,統(tǒng)計(jì)機(jī)器翻譯的工具開源后,相關(guān)研究才迎來爆發(fā)式增長。如今, AI 應(yīng)用場(chǎng)景的廣泛拓展也吸引了更多領(lǐng)域的研究者加入,共同推動(dòng)了投稿量的激增。

肖超瑋:我非常認(rèn)同張老師的觀點(diǎn)。我之前的網(wǎng)絡(luò)安全領(lǐng)域,因?yàn)榧夹g(shù)和工具不便開源,導(dǎo)致會(huì)議投稿量與 ACL 有天壤之別。在 NLP 領(lǐng)域,我深刻體會(huì)到了開源環(huán)境的優(yōu)勢(shì):大量國內(nèi)外的開源大模型性能出色,降低了研究門檻,吸引了更多研究者。此外,ACL 采用的 ARR(ACL Rolling Review)機(jī)制也是吸引跨領(lǐng)域研究者的重要因素。它不像一些會(huì)議的“一票否決”制,而是允許作者根據(jù)審稿意見修改后重新提交,甚至可以更換審稿人。這種機(jī)制更適應(yīng) AI 技術(shù)的快速迭代,也讓更多有價(jià)值的研究成果有機(jī)會(huì)被看到。正是這種友好的投稿機(jī)制和成熟的開源環(huán)境共同推動(dòng)了 ACL 投稿量的激增。

劉菲:我非常認(rèn)同兩位老師的觀點(diǎn)。大模型極大地提升了研究生產(chǎn)力,這是投稿量激增的直接原因。傳統(tǒng)上寫一篇論文可能需要兩周,現(xiàn)在借助大模型兩天就能完成初稿。這種效率的飛躍,讓更多人能快速上手。我建議希望進(jìn)入 NLP 領(lǐng)域的研究者,可以從開源項(xiàng)目入手,并結(jié)合自己的專長探索“ NLP + 垂直領(lǐng)域”的交叉方向,這樣既有實(shí)際需求,也更容易產(chǎn)出有價(jià)值的成果。

岑峰:今年 ACL 大會(huì),中國作者的論文比例達(dá)到51%。三位老師第一次參加 ACL 是什么時(shí)候?相比當(dāng)年,如今讓你們感受最“不一樣”的地方是什么?

肖超瑋:我過去主要是參加機(jī)器學(xué)習(xí),視覺和安全的會(huì)議,今年首次參加 ACL,最大感觸是它與機(jī)器學(xué)習(xí)會(huì)議的核心關(guān)注點(diǎn)不同。機(jī)器學(xué)習(xí)會(huì)議更關(guān)注模型和算法本身,而 ACL 則更包容,它圍繞語言學(xué)本質(zhì),匯聚了不同文化、語言背景的思考,這幫助我理解“如何設(shè)計(jì)安全策略”這類關(guān)鍵問題,進(jìn)而指導(dǎo)我們構(gòu)建更負(fù)責(zé)任、更安全的模型。此外,今年中國企業(yè)在會(huì)場(chǎng)的高參與度和在開源大模型領(lǐng)域的顯著進(jìn)展,也讓我印象深刻。

劉菲:我對(duì)中國在 AI 領(lǐng)域的快速發(fā)展感到非常欣慰。過去十幾年,我們打下了堅(jiān)實(shí)的基礎(chǔ),大模型的研發(fā)需要完整的技術(shù)鏈條支撐。我看到國內(nèi)在數(shù)據(jù)處理、模型架構(gòu)探索等基礎(chǔ)研究上都取得了顯著進(jìn)展。同時(shí),國內(nèi)大模型配套生態(tài)系統(tǒng)也在高速發(fā)展,研究正從基礎(chǔ)技術(shù)突破邁向智能體等應(yīng)用層面。我期待未來一兩年,大模型能更多地融入我們的日常生活。

張家?。何业谝淮螀⒓?ACL 是在2013年,會(huì)議地點(diǎn)在保加利亞索菲亞。當(dāng)時(shí)的 ACL 更聚焦語言學(xué)本質(zhì),而如今大模型已成為主流研究方向。

我感受最深的有幾點(diǎn):第一,論文數(shù)量大幅增長,讓人很難全部閱讀;第二,中國研究者的話語權(quán)顯著提升,無論在論文貢獻(xiàn)還是組織參與度上都變得更有影響力;第三,研究領(lǐng)域的邊界日益模糊,不同方向的方法和對(duì)象趨同,跨領(lǐng)域交流變得更順暢;第四,應(yīng)用場(chǎng)景不斷拓展,NLP 已從相對(duì)小眾的研究方向,成為 AI 領(lǐng)域的核心焦點(diǎn)。

02

大模型規(guī)劃:統(tǒng)一評(píng)估框架的必要性

岑峰:劉菲老師團(tuán)隊(duì)的一篇關(guān)于 LLM 規(guī)劃的論文獲得了本次 ACL 的杰出論文,為何當(dāng)前該領(lǐng)域特別需要這樣一個(gè)統(tǒng)一的評(píng)估框架和能力地圖?它解決了哪些迫在眉睫的問題?

劉菲:我們的團(tuán)隊(duì)之所以如此關(guān)注大語言模型的規(guī)劃能力,核心原因在于,當(dāng)前大模型的推理能力已實(shí)現(xiàn)大幅提升,這讓它們具備了解決高難度、復(fù)雜任務(wù)的潛力。但這類任務(wù)往往無法一蹴而就,需要通過“任務(wù)拆解”將其分解為多個(gè)可執(zhí)行的子模塊,這正是規(guī)劃能力的核心。

舉個(gè)具體的例子,如果你想用智能體制定一份為期一周的北京旅行行程,它首先需要拆解出多個(gè)子任務(wù),比如“預(yù)訂機(jī)票”、“預(yù)訂酒店”和“每日行程安排”。這三個(gè)子任務(wù)本身就非常復(fù)雜。更重要的是,不同用戶對(duì)這些子任務(wù)的需求差異巨大,這意味著復(fù)雜任務(wù)的第一步必須是合理的、個(gè)性化的任務(wù)拆分。

此外,這些子任務(wù)的解決路徑也各不相同。有些可以由系統(tǒng)自動(dòng)處理,但可能存在不穩(wěn)定性;有些則需要人工介入。更關(guān)鍵的是,子任務(wù)之間并非孤立存在,它們有著明確的關(guān)聯(lián)結(jié)構(gòu)。規(guī)劃的最終目標(biāo)是讓用戶完全滿意,而“個(gè)性化” 是實(shí)現(xiàn)這一目標(biāo)的最大難點(diǎn)。做好規(guī)劃,需要綜合考慮這些多維度的個(gè)性化因素。

正因?yàn)橐?guī)劃任務(wù)的復(fù)雜性和多樣性,我們認(rèn)為構(gòu)建一個(gè)統(tǒng)一的評(píng)估框架至關(guān)重要。我在自然語言處理領(lǐng)域工作了近15年,始終堅(jiān)信 “評(píng)估先行”。一套優(yōu)質(zhì)的、經(jīng)過深思熟慮的評(píng)估指標(biāo)能夠有效指導(dǎo)系統(tǒng)開發(fā),讓研究方向更為集中和高效。反之,如果缺乏扎實(shí)可靠的評(píng)估框架,整個(gè)領(lǐng)域的發(fā)展就會(huì)變得分散,甚至陷入停滯。因此,要真正推動(dòng)大模型規(guī)劃與推理領(lǐng)域的前進(jìn),必須先建立一個(gè)統(tǒng)一且精細(xì)的評(píng)估框架。

此外,規(guī)劃能力也與當(dāng)前的智能體人工智能( Agentic AI ) 高度相關(guān)。規(guī)劃的效率直接決定了智能體完成任務(wù)的效率,從這個(gè)角度看,規(guī)劃與決策無疑是極具潛力的研究方向。除了規(guī)劃,我們團(tuán)隊(duì)也對(duì)多智能體協(xié)同和競(jìng)爭方向有著濃厚的興趣。我認(rèn)為,未來大模型可以升級(jí)為個(gè)性化模型,讓每個(gè)人都擁有一個(gè)專屬的智能助手。在這種情境下,智能體之間可能存在復(fù)雜的社會(huì)關(guān)系:在團(tuán)隊(duì)協(xié)作時(shí),它們需要合作;而在爭奪同一個(gè)資源時(shí),它們又會(huì)形成競(jìng)爭。無論是合作還是競(jìng)爭,多智能體都需要強(qiáng)大的規(guī)劃和協(xié)同能力,這也是我們未來重點(diǎn)關(guān)注的方向。

岑峰:如果小模型能在特定規(guī)劃任務(wù)上達(dá)到大模型的性能,這對(duì)商業(yè)化應(yīng)用與部署會(huì)有何影響?

劉菲:小模型具有很強(qiáng)的推理能力,而大模型的優(yōu)勢(shì)在于知識(shí)儲(chǔ)備。如果一個(gè)工業(yè)落地場(chǎng)景無需大量外部知識(shí),僅需調(diào)用大模型的單一能力,那么經(jīng)過知識(shí)蒸餾的小模型就極具價(jià)值。但若任務(wù)對(duì)專業(yè)知識(shí)有高要求,則仍需采用參數(shù)規(guī)模更大的模型??偠灾?,小模型在特定場(chǎng)景下的高性能表現(xiàn),將大幅降低部署成本,加速商業(yè)化落地。

岑峰:劉老師在論文中提到“強(qiáng)化不可行任務(wù)檢測(cè)指標(biāo)”的建議,讓大模型學(xué)會(huì)“說不”,從技術(shù)層面會(huì)面臨哪些挑戰(zhàn)?又會(huì)給用戶體驗(yàn)帶來怎樣的改變?

劉菲:從用戶角度,我非常希望大模型能主動(dòng)“說不”。目前,大模型在訓(xùn)練時(shí)傾向于迎合用戶需求,這導(dǎo)致它們?cè)诨卮鸩淮_切的問題時(shí)容易產(chǎn)生“幻覺”,比如虛構(gòu)一個(gè)不存在的電影劇情。

要解決這個(gè)問題,長遠(yuǎn)來看,我們需要將傳統(tǒng)的分類模型方法與大模型結(jié)合,實(shí)現(xiàn)“結(jié)論與推理依據(jù)的對(duì)齊”。當(dāng)前,大模型通過逐 token 生成推理依據(jù),但其最終結(jié)論可能與推理過程不一致。未來,我們需要確保無論結(jié)論是基于分類模型還是參數(shù)化模型,其口頭解釋都能保持一致。如果大模型能學(xué)會(huì)“說不”,將能提供更準(zhǔn)確、更可信的信息,避免誤導(dǎo)用戶,從而帶來更好的用戶體驗(yàn)。

03

從被動(dòng)到主動(dòng):大模型的未來交互策略

岑峰:張老師團(tuán)隊(duì)也有一篇 ACL 的 Highlight 論文,其核心思想是“讓視覺語言模型學(xué)會(huì)提問,消解視覺回答中的模糊性”。如何通俗解讀這一研究?它與人類的提問邏輯有何異同?

張家?。何覀冄芯康暮诵氖亲屢曈X語言模型擁有“追問”的能力。在視覺問答( VQA )中,很多問題回答不準(zhǔn)確,是因?yàn)閱栴}本身就很模糊。這就像我們問“那個(gè)東西怎么用?”,對(duì)方會(huì)反問“你指的是哪個(gè)?”來明確需求。但大模型默認(rèn)用戶問題是完全正確的,不會(huì)主動(dòng)澄清。由于圖像信息量大,這種模糊性在視覺領(lǐng)域尤其突出。因此,我們的研究就是教會(huì)模型,在識(shí)別到模糊提問時(shí),先通過追問來明確用戶意圖,再給出精準(zhǔn)回答

岑峰:除了論文中提到的三類模糊性,是否還存在其他類型?能否結(jié)合例子具體說明?

張家俊:我們當(dāng)前將模糊性劃分為三類,主要是基于現(xiàn)有數(shù)據(jù)集的特性和技術(shù)的可行性。但實(shí)際上,除了這三種,在現(xiàn)實(shí)場(chǎng)景中肯定還存在其他類型的模糊性問題。

其中一個(gè)非常典型的例子就是由文化背景差異帶來的模糊性。在不同的國家和文化語境下,即使是相同的問題,其背后所指向的需求或隱含的文化含義也可能截然不同,也存在數(shù)據(jù)構(gòu)造極為困難的巨大的挑戰(zhàn)。要構(gòu)建涵蓋不同文化、不同常識(shí)背景的模糊問題數(shù)據(jù)集,需要大量的跨文化標(biāo)注,目前這方面的積累還遠(yuǎn)遠(yuǎn)不夠。所以,我們選擇先聚焦于“指代、意圖、拼寫” 這三類更容易界定和構(gòu)造數(shù)據(jù)的問題,后續(xù)再逐步拓展。

為了幫助大家更好地理解這三類模糊性,我可以結(jié)合視覺場(chǎng)景來舉幾個(gè)具體的例子:

  • 指代模糊:想象一張照片里有兩個(gè)人一前一后站著,一個(gè)穿著“殺馬特”風(fēng)格的衣服,另一個(gè)是“二次元”風(fēng)格。如果用戶問模型:“這個(gè)人怎么穿成這樣?”模型就無法確定用戶指的是哪一個(gè)人。這就是典型的指代模糊,模型需要通過追問來解決,比如問:“您指的是照片中靠前的人,還是靠后的人?”

  • 意圖模糊:比如一張圖片展示了一個(gè)人站在倫敦橋上,背景能看到著名的大本鐘。這時(shí),用戶可能會(huì)問:“這個(gè)人站在哪里?”從表面看,用戶是在問具體位置,但深層的意圖可能是想知道所在的城市,也就是“倫敦”。如果模型只回答“在橋上”,就沒有真正滿足用戶的需求。這就是意圖模糊,模型需要追問來確認(rèn),比如問:“您是想了解具體地點(diǎn),還是所在的城市?”

  • 拼寫模糊:假設(shè)圖片是在某個(gè)展覽活動(dòng)現(xiàn)場(chǎng),用戶想問“這是一個(gè)什么事件?”但因?yàn)橥糇皱e(cuò)誤,打成了“這是一個(gè)什么時(shí)間?”雖然語法正確,但語義完全偏離了。這就是拼寫模糊,模型需要識(shí)別出這種偏差并進(jìn)行追問,比如問:“您是否想問‘這是一個(gè)什么事件?’”

這些例子清晰地說明了,在復(fù)雜的人機(jī)交互中,讓模型學(xué)會(huì)主動(dòng)識(shí)別和消解模糊性,是提升用戶體驗(yàn)的關(guān)鍵。

岑峰:如何從技術(shù)上讓模型具備“該直接回答還是主動(dòng)追問”的判斷能力?這項(xiàng)研究對(duì)未來 AI 認(rèn)知發(fā)展有何啟示?

張家?。汉诵脑谟谧屇P蛽碛小白灾鳌?,即清楚自己“知道什么、不知道什么”。當(dāng)面對(duì)不確定的問題時(shí),它能識(shí)別出不確定性,并主動(dòng)交互。目前,我們通過 數(shù)據(jù)驅(qū)動(dòng) 的方式來實(shí)現(xiàn)這一能力。我們專門針對(duì)模糊場(chǎng)景,自動(dòng)化構(gòu)造了大規(guī)模訓(xùn)練數(shù)據(jù),將“需要追問”的案例作為正樣本,將“可直接回答”的案例作為負(fù)樣本,以此教會(huì)模型進(jìn)行二元判斷。從長遠(yuǎn)看,若模型能同時(shí)具備“自知之明”和“用戶認(rèn)知建?!钡哪芰?,有望自主形成主動(dòng)交互意識(shí)。

岑峰:這一能力能否擴(kuò)展到其他領(lǐng)域?它將如何改變?nèi)伺c AI 的交互方式?

張家?。哼@一能力的通用性非常強(qiáng),可以擴(kuò)展到智能客服、智能家居、車載系統(tǒng)等高頻人機(jī)交互場(chǎng)景,甚至在智能決策系統(tǒng)中,模型也能通過主動(dòng)提問來補(bǔ)全信息,提升決策準(zhǔn)確性。這種主動(dòng)澄清能力,將成為多模態(tài)模型和決策模型的基礎(chǔ)能力。例如,在撰寫綜述時(shí),模型若能主動(dòng)詢問用戶“您希望重點(diǎn)覆蓋哪些領(lǐng)域?”,便能生成更貼合需求的內(nèi)容。這種交互方式的改變將是根本性的,它將使AI從一個(gè)被動(dòng)響應(yīng)的工具,轉(zhuǎn)變?yōu)橐粋€(gè)能夠進(jìn)行主動(dòng)、有意義的交互的智能伙伴。

04

大模型安全與魯棒性:一場(chǎng)永無止境的攻防戰(zhàn)

岑峰:在大模型時(shí)代,有哪些新的攻擊或防御策略?傳統(tǒng)方法是否仍有效?

肖超瑋:我將結(jié)合我們團(tuán)隊(duì)的研究探索,分享對(duì)大模型安全領(lǐng)域的最新觀察與趨勢(shì)。

早期的對(duì)抗攻擊研究主要集中在計(jì)算機(jī)視覺領(lǐng)域。那時(shí)的防御方案聚焦于“System 1” 層次,即通過生成對(duì)抗樣本,并進(jìn)行 “對(duì)抗訓(xùn)練” 來微調(diào)模型。然而,這種方法的致命缺陷是 泛化性極差。它只能應(yīng)對(duì)已知的擾動(dòng),面對(duì)更廣泛、更復(fù)雜的未知攻擊時(shí),幾乎束手無策。

早在2022年,我們團(tuán)隊(duì)就提出了一個(gè)不同的思路,從 “System 2” 層面設(shè)計(jì)防御方案。我們的 DiffPure 通過引入“擴(kuò)散模型”,模擬人類的“慢思考”過程,實(shí)現(xiàn)在無需接觸對(duì)抗樣本的情況下,也能對(duì)未知擾動(dòng)進(jìn)行有效防御。

如今,這種“System 2” 的思路在大模型安全研究中得到了延伸。我們最近的工作 ARMOR,僅僅讓模型“背”下安全策略是遠(yuǎn)遠(yuǎn)不夠的,而是必須讓它通過一個(gè)主動(dòng)的 推理過程 來分析問題,明確不安全行為違反了哪些安全準(zhǔn)則。當(dāng)前,無論是 OpenAI 的 “深度思考的對(duì)齊” 還是國內(nèi)清華大學(xué)等團(tuán)隊(duì)的工作 STAIR,都在嘗試通過“推理模型” 來強(qiáng)化安全對(duì)齊。

然而,現(xiàn)有的一些推理防御方案仍存在漏洞。其根本原因在于,模型的推理邏輯和人類對(duì)比可能存在偏差。對(duì)于一個(gè)惡意的共計(jì),人類解決問題的關(guān)鍵,是讓模型像人類一樣“抽絲剝縷”,先理解到底是在問什么問題,再基于安準(zhǔn)則做出判斷,是不是這個(gè)問題是不是違背了安全準(zhǔn)則。

因此,我們提出了“結(jié)構(gòu)化推理” 方法,旨在明確模型的推理邏輯,使其決策過程更貼近人類思維。我們認(rèn)為,如何將這種結(jié)構(gòu)化推理與基于強(qiáng)化學(xué)習(xí)的目標(biāo)驅(qū)動(dòng)方法相結(jié)合,是當(dāng)前一個(gè)重要的研究方向。

另一個(gè)重要趨勢(shì)是智能體安全( Agent Security )。今年 ACL 會(huì)議上,業(yè)界開始關(guān)注 “間接指令注入( indirect problem injection )” 這種新的系統(tǒng)級(jí)威脅。針對(duì)這類問題,我們?cè)?ACL 會(huì)議上面也提出了 Agrail , 通過構(gòu)建一個(gè)智能體安全護(hù)欄提升智能體的安全。

總的來說,安全研究正在從早期的“ System 1 ” 級(jí)對(duì)齊微調(diào),深化到“ System2 ”級(jí)別利用“結(jié)構(gòu)化推理” 提升模型安全性;并從單一模型擴(kuò)展到系統(tǒng)層面,通過構(gòu)建外部防御機(jī)制來系統(tǒng)性地解決安全問題。這些都是當(dāng)前領(lǐng)域的重要進(jìn)展,并且仍在持續(xù)推進(jìn)。

岑峰:與計(jì)算機(jī)視覺相比,NLP 在對(duì)抗攻擊與魯棒性方面面臨哪些獨(dú)特挑戰(zhàn)?

肖超瑋:我之所以從計(jì)算機(jī)視覺( CV )轉(zhuǎn)向自然語言處理( NLP )領(lǐng)域,正是因?yàn)檎Z言具有獨(dú)特的價(jià)值和挑戰(zhàn)。CV 領(lǐng)域的對(duì)抗攻擊通常很直接,比如在停車標(biāo)志上貼一張?zhí)厥庠O(shè)計(jì)的貼紙來誤導(dǎo)模型,而 NLP 則完全不同,語言是人類設(shè)計(jì)的、帶有強(qiáng)烈 社會(huì)性的知識(shí)載體和社交工具。其邏輯與人類現(xiàn)實(shí)社會(huì)中的“說服”或“PUA”非常相似。攻擊者可以通過不同的語言技巧和策略,誘導(dǎo)模型給出有害的回答。這說明 NLP 的攻擊門檻非常低,普通用戶就能實(shí)施,這是語言特性帶來的全新挑戰(zhàn)。

為此,我們的研究方向像 AutoDAN-Turbo,ARMOR 等是從“策略空間”切入,系統(tǒng)地梳理和識(shí)別這些基于策略的攻擊手段,再讓模型學(xué)習(xí)如何防御。早期的攻擊方式相對(duì)簡單,比如替換個(gè)別單詞,但現(xiàn)在的攻擊已升級(jí),不再是簡單的文本改寫,而是通過設(shè)計(jì)特定策略來精準(zhǔn)誘導(dǎo)模型。這種升級(jí)不僅為攻擊行為開辟了巨大空間,也給防御工作帶來了巨大挑戰(zhàn)。我認(rèn)為,這正是語言獨(dú)特的社會(huì)性和動(dòng)態(tài)的語言學(xué)屬性所導(dǎo)致的。

岑峰:AI 安全的未來方向是怎樣的?除了對(duì)抗攻擊和防御,還有哪些更深層次的問題需要解決?

肖超瑋:我認(rèn)為未來的 AI 安全需要重點(diǎn)關(guān)注四個(gè)方向:

  1. 推理模型的應(yīng)用:核心問題是,我們?cè)撊绾卫猛评砟P??是采用我們提出的“結(jié)構(gòu)化推理”,還是更偏向目標(biāo)對(duì)齊的方法,這需要深入研究。

  2. 目標(biāo)過擬合:目前許多模型通過獎(jiǎng)勵(lì)機(jī)制來確保目標(biāo)達(dá)成,但過度關(guān)注結(jié)果可能導(dǎo)致模型在過程中產(chǎn)生欺騙行為。如何解決這種“目標(biāo)過擬合”帶來的新安全挑戰(zhàn),是亟待解決的問題。

  3. 個(gè)性化安全:這是一個(gè)跨學(xué)科的難題。安全本身沒有統(tǒng)一的定義,如何讓模型能適應(yīng)不同國家、不同個(gè)體的安全準(zhǔn)則,并構(gòu)建一個(gè)兼顧個(gè)體需求與公共安全的策略框架,是需要深層探索的方向。

  4. 智能體安全:隨著大模型向多智能體系統(tǒng)演進(jìn),系統(tǒng)級(jí)安全問題日益突出,比如“間接指令注入”。智能體比單一模型更脆弱,因此如何定義和解決智能體安全問題,是未來需要重點(diǎn)思考的方向。

岑峰:張老師,我也想請(qǐng)教您,從多模態(tài)大模型研究的視角,您如何看待 AI 安全問題?

張家?。何曳浅UJ(rèn)同肖老師的觀點(diǎn),語言的主觀性和不確定性確實(shí)為 AI 安全帶來了獨(dú)特的挑戰(zhàn)。而當(dāng)我們將技術(shù)從單一的語言或視覺模態(tài)拓展到多模態(tài)時(shí),AI 安全問題會(huì)進(jìn)一步加劇。

舉個(gè)我們研究中遇到的例子:一個(gè)安全對(duì)齊良好的大語言模型,其抗攻擊能力較強(qiáng)。但如果加入語音交互模態(tài),安全風(fēng)險(xiǎn)便會(huì)立刻凸顯。不同的口音或年齡群體在提問時(shí),很可能繞過為文本模態(tài)設(shè)計(jì)的安全機(jī)制。

為此,我們團(tuán)隊(duì)開展了“行為克隆” 的研究,旨在實(shí)現(xiàn) “跨模態(tài)對(duì)齊”。核心思想是:在語音和文本語義一致的前提下,模型對(duì)兩種模態(tài)輸入的行為響應(yīng)也必須完全一致。我們通過這種方法,在不修改大語言模型核心參數(shù)的情況下,實(shí)現(xiàn)了語音到文本的模態(tài)對(duì)齊,從而讓模型在處理語音輸入時(shí)也能繼承原有的安全能力。

然而,這種方法尚未完全解決所有多模態(tài)安全問題。例如,語音中的情緒、重音差異仍可能導(dǎo)致模型內(nèi)部表征發(fā)生微小變化,進(jìn)而影響其安全防御水平。因此,我認(rèn)為多模態(tài)場(chǎng)景下的 AI 安全研究,既存在巨大的探索空間,也面臨著更為嚴(yán)峻的挑戰(zhàn)。

05

產(chǎn)學(xué)研融合:新企業(yè)入局與人才新需求

岑峰:今年我們看到了量化基金、律師事務(wù)所等新企業(yè)入局 ACL,會(huì)對(duì) NLP 研究和人才需求產(chǎn)生哪些影響?ACL 的學(xué)術(shù)成果又該如何更好地轉(zhuǎn)化為產(chǎn)業(yè)應(yīng)用?

張家俊:今年 ACL 的贊助商確實(shí)呈現(xiàn)顯著多樣化,這背后是大模型發(fā)展推動(dòng) NLP 技術(shù)的應(yīng)用邊界不斷拓展。如今,大模型不僅應(yīng)用于互聯(lián)網(wǎng),更在金融、法律、醫(yī)療等實(shí)體行業(yè)落地,催生了企業(yè)對(duì) NLP 人才的差異化需求。這些新入局的企業(yè)通過贊助頂會(huì),來吸引人才和對(duì)接前沿研究,這是其核心驅(qū)動(dòng)力。

關(guān)于學(xué)術(shù)成果如何對(duì)接產(chǎn)業(yè),這取決于論文的研究屬性:

  • 興趣驅(qū)動(dòng)型研究:這類研究以學(xué)術(shù)探索為核心,通常不考慮實(shí)際應(yīng)用。例如,有最佳論文聚焦“大模型內(nèi)部公平性”這類基礎(chǔ)問題,其直接商業(yè)價(jià)值有限,企業(yè)聯(lián)合研究的動(dòng)力也較低。

  • 應(yīng)用/任務(wù)驅(qū)動(dòng)型研究: 這類研究是連接學(xué)術(shù)與產(chǎn)業(yè)的核心。它又分為兩個(gè)方向:

?基礎(chǔ)模型構(gòu)建:比如專注于預(yù)訓(xùn)練數(shù)據(jù)篩選、對(duì)齊數(shù)據(jù)工程等。ACL 的許多杰出論文都屬于此類,它們由產(chǎn)學(xué)研聯(lián)合開展,能直接轉(zhuǎn)化為業(yè)界模型開發(fā)的核心技術(shù)。

?具體場(chǎng)景落地:比如面向律師事務(wù)所的“法律文本分析”,或面向量化基金的“金融輿情挖掘”。這類研究從行業(yè)實(shí)際問題出發(fā),目標(biāo)就是技術(shù)落地,因此天然具備與產(chǎn)業(yè)對(duì)接的屬性,能直接轉(zhuǎn)化為企業(yè)的產(chǎn)品功能。

因此,“應(yīng)用驅(qū)動(dòng)型研究”是推動(dòng) ACL 學(xué)術(shù)價(jià)值向產(chǎn)業(yè)價(jià)值高效轉(zhuǎn)化的關(guān)鍵。

肖超瑋:我非常認(rèn)同張老師的分析,大模型正在拓展其應(yīng)用邊界。我分享一個(gè)親身經(jīng)歷:我的航班延誤8小時(shí),航空公司只愿意賠償100美元。我用大模型查詢后得知,根據(jù)歐盟法律,我應(yīng)該獲得600歐元的賠償,最終成功拿到了這筆錢。這個(gè)案例讓我感觸很深:大模型憑借其海量知識(shí)儲(chǔ)備,讓普通人也能便捷地獲取專業(yè)知識(shí),這在過去是無法想象的。

這個(gè)例子也恰好說明了模型與產(chǎn)業(yè)結(jié)合的巨大價(jià)值?,F(xiàn)在,越來越多的企業(yè),包括安全領(lǐng)域的公司,都在探索如何構(gòu)建AI安全防護(hù)機(jī)制,比如打造 “ AI 防火墻” 或利用 AI 生成 “安全代碼”。這些都不僅僅是學(xué)術(shù)研究,而是能直接應(yīng)用于產(chǎn)業(yè)的實(shí)際方向。

關(guān)于如何更好地推動(dòng)研究與產(chǎn)業(yè)結(jié)合,我認(rèn)為可以從兩個(gè)方面發(fā)力:

  1. 應(yīng)用驅(qū)動(dòng)型研究:研究者可以結(jié)合自身優(yōu)勢(shì),深耕特定應(yīng)用場(chǎng)景,圍繞產(chǎn)業(yè)實(shí)際需求開展研究。

  2. 基礎(chǔ)理論研究:同樣要重視大模型的訓(xùn)練邏輯、算法設(shè)計(jì)等基礎(chǔ)研究。這些看似不直接落地,但它們是未來技術(shù)突破的核心,終有一天會(huì)迸發(fā)出巨大的產(chǎn)業(yè)價(jià)值。

06

觀眾QA

岑峰:有觀眾提問:若防御者能利用推理( reasoning )提升安全,攻擊者同樣可借助推理實(shí)施攻擊,那么該領(lǐng)域合理的研究假設(shè)應(yīng)如何界定?

肖超瑋:是的,攻防雙方都可利用推理能力。所以對(duì)于防御的關(guān)鍵就是,在合理的威脅模型的假設(shè)下,在攻擊者也可以用各種合理的工具,各種手段還能防御成功就是合理的。比如現(xiàn)在 OpenAI 的防御的威脅模型就是,他不會(huì)全給你模型完整的和真實(shí)的推理過程,而是經(jīng)過篩選后僅暴露部分內(nèi)容,這些內(nèi)容不會(huì)妨礙正常用戶對(duì)推理過程的理解,滿足了可解釋信也不會(huì)影響模型回答問題的準(zhǔn)確性。這種假設(shè)就是合理的。這種假設(shè)下,雖然攻擊者可以用各種手段,也可以用推理共計(jì),但是他不能利用模型真實(shí)的和完整的推理內(nèi)容。

岑峰:第二個(gè)觀眾問題:“大語言模型面臨多種攻擊方式,是否存在通用的魯棒防御方法?”

肖超瑋:我認(rèn)為,這個(gè)問題的答案可以概括為“既無絕對(duì)通用的方法,也存在可探索的通用防御方向”。

從“無” 的角度看,絕對(duì)的通用防御是不存在的。攻擊者具備持續(xù)學(xué)習(xí)的能力,他們總能探索出全新的攻擊形式。因此,我們不能再沿用傳統(tǒng)的防御思路,比如僅僅通過生成海量數(shù)據(jù)來進(jìn)行對(duì)抗訓(xùn)練,這種方式是行不通的。

然而,從“有” 的角度看,我們存在可行的通用防御方向。我們需要轉(zhuǎn)變思路,讓模型學(xué)習(xí)如何進(jìn)行 安全推理。正如我們近期研究的工作 ARMOR 提出的,模型首先需要具備瀏覽一個(gè)動(dòng)態(tài)攻擊策略列表的能力,并能從中識(shí)別出輸入問題可能采用的攻擊策略,進(jìn)而理清用戶的真實(shí)意圖。這個(gè)列表是可維護(hù)、可低成本更新的,我們可以不斷將新的攻擊策略補(bǔ)充進(jìn)去。

我們希望傳遞的理念是,研究應(yīng)從“結(jié)構(gòu)化推理” 和 提成本的“終生學(xué)習(xí)” ,快讀迭代的角度去思考防御。讓模型學(xué)習(xí)理解高層級(jí)的推理邏輯,而不是單純地記憶數(shù)據(jù)實(shí)例。攻擊者可能會(huì)用不同的語言、不同的勸說策略發(fā)起攻擊,但從高層級(jí)來看,這些攻擊手段存在諸多共性。因此,我們需要維護(hù)的是這份高層級(jí)共性策略列表,并持續(xù)更新,防御者可以低成本的讓模型基于該列表進(jìn)行推理,來以終身學(xué)習(xí)的方式去防御。只有讓模型掌握這種識(shí)別推理邏輯能力,才有可能從根本上解決問題,真正推動(dòng) AI 安全領(lǐng)域取得進(jìn)展。

岑峰:時(shí)間過得飛快,我們這次圓桌到這里就結(jié)束了。謝謝三位嘉賓的分享,謝謝觀眾們的觀看,我們下次再見!

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7014文章數(shù) 20715關(guān)注度
往期回顧 全部

專題推薦

洞天福地 花海畢節(jié) 山水饋贈(zèng)里的“詩與遠(yuǎn)方

無障礙瀏覽 進(jìn)入關(guān)懷版