国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

ICLR 2026獲獎(jiǎng)?wù)撐慕視裕捍笊馎lec Radford經(jīng)典工作獲時(shí)間檢驗(yàn)獎(jiǎng)

0
分享至

機(jī)器之心編輯部

ICLR 2026 獲獎(jiǎng)?wù)撐囊呀?jīng)公布。

今年共有 2 篇論文獲得「杰出論文獎(jiǎng)」(Outstanding Paper),另有 1 篇論文獲得「榮譽(yù)提名」(Honorable Mention);此外,還有 2 篇 ICLR 2016 論文獲得「時(shí)間檢驗(yàn)獎(jiǎng)」(Test of Time Award)。

作為機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)會(huì)議, ICLR 2026 于 2026 年 4 月 23 日至 27 日在巴西里約熱內(nèi)盧舉行。官方今年收到了有效投稿約 19000 篇,總錄取率約為 28%,該錄取率涵蓋了所有經(jīng)過同行評(píng)審的完整論文投稿,無論其是否撤稿。

以下是獲獎(jiǎng)?wù)撐脑敿?xì)信息。

杰出論文獎(jiǎng)



論文 1:Transformers are Inherently Succinct

這項(xiàng)理論工作提出了一個(gè)新的視角,用以解釋 Transformer 架構(gòu)的強(qiáng)大能力:即與 RNN 等替代模型相比,它能夠以多么簡(jiǎn)潔的方式編碼某些概念。盡管存在一些批評(píng)意見,但論文傳達(dá)出的鮮明概念性觀點(diǎn)仍引起了評(píng)審委員會(huì)及其他專家的興趣。

該工作可能會(huì)推動(dòng)后續(xù)圍繞 Transformer 及其他架構(gòu)在概念表示簡(jiǎn)潔性方面的更多理論與實(shí)證研究。



  • 論文作者:Pascal Bergstr??er、Ryan Cotterell、Anthony Widjaja Lin
  • 論文鏈接:https://openreview.net/pdf?id=Yxz92UuPLQ

論文摘要:論文提出以簡(jiǎn)潔性作為衡量 Transformer 在描述某一概念時(shí)表達(dá)能力的指標(biāo)。

為此,本文證明 Transformer 具有很強(qiáng)的表達(dá)能力:相比有限自動(dòng)機(jī)和線性時(shí)序邏輯(LTL)公式等形式語言的標(biāo)準(zhǔn)表示方法,Transformer 能夠以顯著更簡(jiǎn)潔的方式表示形式語言。

作為這種表達(dá)能力帶來的一個(gè)副產(chǎn)物,研究進(jìn)一步表明,驗(yàn)證 Transformer 的性質(zhì)在理論上是不可處理的,也就是說,該問題是 EXPSPACE-complete(指數(shù)空間完全) 的。

論文 2:LLMs Get Lost In Multi-Turn Conversation

大多數(shù)用于 LLM 訓(xùn)練的數(shù)據(jù)與其實(shí)際部署方式之間存在明顯的不協(xié)調(diào):訓(xùn)練數(shù)據(jù)主要是文本補(bǔ)全或單輪交互形式,而實(shí)際部署場(chǎng)景本質(zhì)上往往是多輪對(duì)話。如何穩(wěn)健地評(píng)估和訓(xùn)練模型的多輪能力,仍然是一項(xiàng)復(fù)雜挑戰(zhàn)。

這篇論文設(shè)計(jì)了一種可擴(kuò)展的方法來評(píng)估多輪能力,并發(fā)現(xiàn):在非常常見的多輪交互場(chǎng)景中,尤其是當(dāng)指令存在欠明確、信息不充分的問題時(shí),LLM 的能力和可靠性會(huì)顯著下降。

該工作展現(xiàn)了出色的實(shí)驗(yàn)設(shè)計(jì)和方法論,其發(fā)現(xiàn)新穎且有趣,尤其聚焦于一個(gè)更貼近真實(shí)使用場(chǎng)景的重要問題。盡管評(píng)審過程中曾討論過其使用模型相對(duì)較舊的問題,但委員會(huì)認(rèn)為,該論文的結(jié)論和方法對(duì)于當(dāng)前最先進(jìn)的模型仍然具有相關(guān)性。

這項(xiàng)工作突出揭示了一個(gè)前沿模型正在努力解決的問題,并提供了一種可行且可擴(kuò)展的診斷方法。



  • 論文作者:Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville
  • 論文鏈接:https://openreview.net/pdf?id=VKGTGGcwl6

論文摘要:大語言模型本質(zhì)上是一種對(duì)話式接口,因此其能力不應(yīng)只體現(xiàn)在理解和完成用戶已經(jīng)充分說明的任務(wù)上,還應(yīng)體現(xiàn)在能夠通過多輪交流,幫助用戶逐步明確、探索和細(xì)化需求。

然而,當(dāng)前大多數(shù) LLM 評(píng)估仍主要集中在單輪、指令完整明確的任務(wù)場(chǎng)景中,而真實(shí)用戶交互中,指令不充分、需求未完全說明的情況十分常見。針對(duì)這一問題,論文通過大規(guī)模模擬實(shí)驗(yàn),對(duì)比了多個(gè)頂尖開源和閉源 LLM 在單輪與多輪場(chǎng)景下的表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,所有被測(cè)試模型在多輪對(duì)話中的表現(xiàn)都明顯低于單輪場(chǎng)景。在六類生成任務(wù)中,模型性能平均下降 39%。進(jìn)一步基于 20 多萬次模擬對(duì)話的分析表明,這種性能退化主要來自兩個(gè)方面:一是模型能力本身出現(xiàn)小幅下降,二是模型可靠性顯著降低。

論文還發(fā)現(xiàn),LLM 往往會(huì)在對(duì)話早期過早做出假設(shè),并嘗試生成最終答案;一旦這些早期判斷出現(xiàn)偏差,模型在后續(xù)對(duì)話中容易過度依賴錯(cuò)誤方向,難以及時(shí)糾正。換言之,當(dāng) LLM 在多輪對(duì)話中走錯(cuò)一步時(shí),往往會(huì)逐漸迷失,并難以恢復(fù)到正確軌道。

除上述兩篇杰出論文獎(jiǎng)?wù)撐耐?,《The Polar Express: Optimal Matrix Sign Methods and their Application to the Muon Algorithm》 獲得了本屆榮譽(yù)提名(Honorable Mention)。該論文由 Noah Amsel、David Persson、Christopher Musco 和 Robert M. Gower 共同完成。

時(shí)間檢驗(yàn)獎(jiǎng)(Test of Time)

時(shí)間檢驗(yàn)獎(jiǎng)旨在表彰 2016 年 ICLR 上發(fā)表的、對(duì)該領(lǐng)域產(chǎn)生持久影響的論文。2026 年程序委員會(huì)審查了 2016 年 ICLR 上發(fā)表的論文,選出了以下兩篇具有代表性的論文,該論文對(duì)如今的機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響和作用。



論文 1.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

這篇論文,通常被稱為「DCGAN」,是最早成功展示基于學(xué)習(xí)的生成模型能夠合成多樣化、真實(shí)且復(fù)雜圖像的論文之一,為圖像生成子領(lǐng)域的興起奠定了基礎(chǔ)。

當(dāng)前,圖像生成是機(jī)器學(xué)習(xí)研究中最活躍的領(lǐng)域之一,并且在工業(yè)界產(chǎn)生了許多非常成功的應(yīng)用,雖然技術(shù)已經(jīng)發(fā)生了變化(從 GAN 到擴(kuò)散模型),但 DCGAN 依然經(jīng)得起時(shí)間的考驗(yàn),是這一重要領(lǐng)域得以發(fā)展的關(guān)鍵一步。



  • 論文作者:Alec Radford、Luke Metz、Soumith Chintala
  • 論文鏈接:https://arxiv.org/pdf/1511.06434

論文 2.Continuous control with deep reinforcement learning

該論文可以說是那些最具代表性的,從根本上改變其領(lǐng)域發(fā)展軌跡的成果之一。在這篇論文介紹深度確定性策略梯度(DDPG)算法發(fā)表之前,將強(qiáng)化學(xué)習(xí)應(yīng)用于物理系統(tǒng)正面臨著嚴(yán)重瓶頸,工程師們被困于手工制作狀態(tài)特征,或與由離散化復(fù)雜運(yùn)動(dòng)控制引起的維度災(zāi)難作斗爭(zhēng)。

深度確定性策略梯度算法是第一個(gè)成功解決這兩大局限性的算法,通過巧妙地將確定性 Actor-Critic 架構(gòu)與 DQN 的穩(wěn)定化技術(shù)結(jié)合,該算法使神經(jīng)網(wǎng)絡(luò)能夠?qū)⒃紓鞲衅鲾?shù)據(jù)直接轉(zhuǎn)化為精確、連續(xù)的物理動(dòng)作。

最終,DDPG 展示了深度強(qiáng)化學(xué)習(xí)能夠進(jìn)入連續(xù)控制領(lǐng)域,改變了該領(lǐng)域的軌跡,并引發(fā)了一場(chǎng)強(qiáng)化學(xué)習(xí)的革命。



  • 論文作者:Timothy P. Lillicrap、Jonathan J. Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、Daan Wierstra
  • 論文鏈接:https://arxiv.org/pdf/1509.02971

https://x.com/iclr_conf/status/2047780516682694977

https://x.com/iclr_conf/status/2047287536611963295

https://x.com/iclr_conf/status/2047290363740606703

https://x.com/GoogleResearch/status/2047802189096136781

https://blog.iclr.cc/2026/04/23/announcing-the-iclr-2026-outstanding-papers/

https://blog.iclr.cc/2026/04/22/announcing-the-test-of-time-awards-from-iclr-2016/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

以色列前總理貝內(nèi)特:伊朗實(shí)質(zhì)上已經(jīng)向該地區(qū)再次宣戰(zhàn)

一種觀點(diǎn)
2026-05-05 19:24:58
1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

1-2出局 35歲悲情巨星遺憾揮別!闖蕩17年 歐冠0冠 西甲0冠

葉青足球世界
2026-05-06 07:54:58
偉偉道來 | 伊朗的反應(yīng)為何如此激烈

偉偉道來 | 伊朗的反應(yīng)為何如此激烈

經(jīng)濟(jì)觀察報(bào)
2026-05-06 11:40:46
吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

吳宜澤透露拿到獎(jiǎng)金后準(zhǔn)備在英國買房,50萬英鎊獎(jiǎng)金需交稅超23萬鎊,實(shí)際到手約26.5萬鎊

大風(fēng)新聞
2026-05-06 11:53:02
定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

定了!斯諾克巨星邀請(qǐng)賽5月9日開桿,吳宜澤領(lǐng)銜,6世界冠軍出戰(zhàn)

劉姚堯的文字城堡
2026-05-06 08:31:36
女性跑步:暴露這個(gè)隱私,是性感嗎?

女性跑步:暴露這個(gè)隱私,是性感嗎?

馬拉松跑步健身
2026-05-05 19:18:07
吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

吳宜澤社媒回復(fù)趙心童、丁俊暉:一起加油,永遠(yuǎn)的大哥

懂球帝
2026-05-05 19:39:09
在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

在中國人民公安大學(xué),穿了四年警服,畢業(yè)五年后,我們宿舍四個(gè)人,沒一個(gè)在出現(xiàn)場(chǎng)

侃故事的阿慶
2026-05-06 09:21:32
被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

被延長(zhǎng)的搶救時(shí)間,被卡住的工傷認(rèn)定

新京報(bào)
2026-05-06 11:03:07
51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

51歲女子包養(yǎng)24歲男孩,嫌男孩不行被殺,2014年男孩說她索取無度

漢史趣聞
2026-05-05 11:40:36
世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

世錦賽慶功宴!新科冠軍吳宜澤休閑裝亮相 網(wǎng)友:艾倫不來,誰敢動(dòng)筷子

畫夕
2026-05-05 14:38:17
廣州第一爛尾樓 兩千家庭半生遺憾!

廣州第一爛尾樓 兩千家庭半生遺憾!

說故事的阿襲
2026-05-05 20:20:30
8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

8.84億的美國工廠說關(guān)就關(guān)?曹德旺:美國不講理,我就不陪玩了

番外行
2026-05-06 10:29:59
伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

伯納烏大地震!皇馬放話出售姆巴佩,天價(jià)報(bào)價(jià)就接

奶蓋熊本熊
2026-05-06 00:00:36
《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

《陳翔六點(diǎn)半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

汪巗的創(chuàng)業(yè)之路
2026-05-06 12:26:17
47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

47歲高圓圓在公園被抓拍,麒麟臂、涼拖鞋,活脫脫一個(gè)買菜大姐

胖松松與瘦二毛
2026-05-06 12:40:53
張亮兒子17歲當(dāng)?shù)耍。?>
    </a>
        <h3>
      <a href=八卦瘋叔
2026-05-06 11:04:32
連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

連線四川華鎣女游客玩秋千身亡目擊者:其撞到瀑布凸出處大石

南方都市報(bào)
2026-05-06 12:38:05
中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

中美同時(shí)向全球下達(dá)禁令,各國都傻眼了!美媒:中國此舉史無前例

福建睿平
2026-05-06 08:56:38
男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

男子和妻子的弟媳纏綿,怕妻子聽到聲音,2017年弟媳竟被他捂死了

漢史趣聞
2026-05-05 11:36:31
2026-05-06 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12925文章數(shù) 142643關(guān)注度
往期回顧 全部

教育要聞

“臥槽”是感嘆詞,不應(yīng)該是動(dòng)詞

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

頭條要聞

男子購百萬保險(xiǎn)被邀免費(fèi)游老撾 花數(shù)十萬買"熊膽"心虛

體育要聞

活塞1比0騎士:坎寧安不再是一個(gè)人了

娛樂要聞

神仙友誼!楊紫連續(xù)10年為張一山慶生

財(cái)經(jīng)要聞

人形機(jī)器人七小龍:誰真能賣 誰在講故事?

科技要聞

“馬斯克不懂AI”:OpenAI當(dāng)庭戳老底

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

家居
教育
旅游
時(shí)尚
藝術(shù)

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

教育要聞

六條邏輯主線替代四個(gè)大概念,反映了怎樣的理念? | 高中課標(biāo)修訂解讀⑥

旅游要聞

龍江新觀察|“五一”文旅熱力十足 特色體驗(yàn)燃動(dòng)春日消費(fèi)

卷首語|這屆年輕人,全員渡劫奧德賽

藝術(shù)要聞

震撼!康斯坦丁攝影作品里的性感曲線讓人驚艷!

無障礙瀏覽 進(jìn)入關(guān)懷版