被拒≠失??！這些高影響力論文都被頂會拒收過

2025-12-11 10:59:14　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

近日，Waymo 發(fā)布了一篇深度博客，詳細介紹了該公司的 AI 戰(zhàn)略以及以 Waymo 基礎(chǔ)模型為核心的整體 AI 方法。

谷歌首席科學(xué)家 Jeff Dean 也在 X 上分享了這篇博客，并重點介紹了 Waymo 用到的蒸餾方法，他寫到：「就像我們使用蒸餾從更大規(guī)模的專業(yè)模型中創(chuàng)建高質(zhì)量、計算效率極高的 Gemini Flash 模型一樣，Waymo 也類似地使用了蒸餾，來基于更大的模型創(chuàng)建可機載運行的高計算效率模型?！?/p>

而在這條帖子下方，Jeff Dean 又再一次回憶了最初那篇蒸餾論文的悲慘遭遇：被 NeurIPS 2014 拒收了。而他收到的拒收理由是它「不太可能產(chǎn)生重大影響」。

當(dāng)時，評審認為這篇由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 合著的論文只是對早期模型壓縮（Model Compression）工作的增量改進。而事后來看，NeurIPS 2014 評審的這個決定可謂是錯得非常離譜。如今，「知識蒸餾（Knowledge Distillation）」已然成為模型壓縮和大模型落地的標(biāo)配方法。其論文引用量也已經(jīng)超過了 2.8 萬！

這件事也成了 Jeff Dean 的意難平，讓他每有機會就會拿出來曬一曬。

其實 Jeff Dean 的遭遇并非個例。

回顧 AI 的發(fā)展歷程，同行評審制度雖然扮演著質(zhì)量守門人的關(guān)鍵角色，但它并非全能。

事實上，當(dāng)我們回溯歷史，會發(fā)現(xiàn)一個令人深思的現(xiàn)象：許多當(dāng)下支撐起萬億級 AI 產(chǎn)業(yè)的基石技術(shù)（從訓(xùn)練大模型的優(yōu)化器，到計算機視覺的特征提取，再到自然語言處理的底層邏輯）在最初問世時，都曾被頂級會議拒之門外。

Geoffrey Hinton、Yann LeCun、Schmidhuber…… 這些如雷貫耳的名字，都曾站在拒稿信的對面。那些理由在今天看來甚至或許有些荒謬：「缺乏理論依據(jù)」、「只是工程技巧」、「太簡單了不可能有效」。

今天，我們盤點一下那些曾經(jīng)淪為「棄子」、后來卻引發(fā)范式轉(zhuǎn)移（Paradigm Shift）的殿堂級論文。這不僅是對歷史的回顧，更是為了探尋一個問題的答案：當(dāng)一項研究過于超前或離經(jīng)叛道時，我們該如何識別它的價值？

LSTM：跨越 20 年的回響

論文：Long Short-Term Memory
作者：Sepp Hochreiter, Jürgen Schmidhuber
拒稿經(jīng)歷：NIPS 1996 Rejected
如今引用量：139707

作為處理序列數(shù)據(jù)的里程碑，LSTM 在 1996 年被 NIPS 拒之門外。

當(dāng)時正值神經(jīng)網(wǎng)絡(luò)的寒冬（AI Winter），支持向量機（SVM）等統(tǒng)計方法大行其道。LSTM 引入的門控機制被認為參數(shù)過多、過于復(fù)雜且缺乏生物學(xué)合理性。

直到 2010 年代，隨著算力和大數(shù)據(jù)的爆發(fā)，LSTM 才在語音識別和機器翻譯中展現(xiàn)出統(tǒng)治級表現(xiàn)。這不僅是技術(shù)的勝利，更是對堅持者的獎賞。

SIFT：前深度學(xué)習(xí)時代的王者

論文：Object Recognition from Local Scale-Invariant Features
作者：David G. Lowe
拒稿經(jīng)歷：ICCV 1997, CVPR 1998 Rejected
如今引用量：27389

David Lowe 提出的 SIFT（尺度不變特征變換）算法，曾統(tǒng)治 CV 領(lǐng)域長達 15 年。但在 1997 年和 1998 年，它先后被 ICCV 和 CVPR 拒稿。

拒稿理由很有時代特色。當(dāng)時的學(xué)術(shù)界偏好基于幾何理論和嚴密數(shù)學(xué)推導(dǎo)的方法。SIFT 包含了一系列復(fù)雜的工程步驟（高斯差分金字塔、關(guān)鍵點定位等），被評審認為「過于繁瑣」、「不夠優(yōu)雅」。

SIFT 最終以 Poster 形式發(fā)表。它證明了在處理現(xiàn)實世界圖像的旋轉(zhuǎn)、縮放和遮擋問題時，魯棒的工程設(shè)計往往比完美的數(shù)學(xué)理論更有生命力。

Dropout：被誤解的「有性繁殖」

論文：Dropout: A Simple Way to Prevent Neural Networks from Overfitting
作者：Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov
拒稿經(jīng)歷：NIPS 2012 Rejected
如今引用量：60231

如果說有一項技術(shù)定義了深度神經(jīng)網(wǎng)絡(luò)的正則化方法，那非 Dropout 莫屬。然而，這項后來獲得 NeurIPS 時間檢驗獎（Test of Time Award）的技術(shù)，在 2012 年投稿 NIPS 時卻遭遇了滑鐵盧。

在這篇論文中，Geoffrey Hinton 團隊提出的核心思想是在訓(xùn)練中隨機「刪掉」一半神經(jīng)元，而這在當(dāng)時的評審看來過于激進且缺乏數(shù)理邏輯。Hinton 使用了生物學(xué)中「有性繁殖」的隱喻來解釋其有效性（基因不能依賴于特定的伙伴存在），這被一些嚴謹?shù)脑u審人認為「不夠科學(xué)」，更像是一個工程 Hack。

盡管被拒，Dropout 迅速成為了 AlexNet 奪冠 ImageNet 的秘密武器。它證明了在過參數(shù)化的深度網(wǎng)絡(luò)中，通過引入隨機性來打破特征間的共適應(yīng)（Co-adaptation），比復(fù)雜的貝葉斯正則化更為有效。

Word2Vec：被質(zhì)疑的「工程奇跡」

論文：Efficient Estimation of Word Representations in Vector Space
作者：Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean
拒稿經(jīng)歷：ICLR 2013 Strong Reject
如今引用量：50855

是的，這里又出現(xiàn)了 Jeff Dean 的名字。

Word2Vec 讓 King - Man + Woman = Queen 成為了 AI 領(lǐng)域最著名的算式，但在首屆 ICLR 會議上，它收到了「Strong Reject」。

其收到的評審意見極其尖銳，認為作者 Tomas Mikolov 等人「比較不科學(xué)」、「定義模糊」，且過度關(guān)注工程優(yōu)化（如分層 Softmax、負采樣），缺乏對「為何簡單的線性映射能捕捉復(fù)雜語義」的理論解釋。

而作者直接開源了代碼。憑借極高的訓(xùn)練效率，Word2Vec 迅速橫掃 NLP 社區(qū)，成為深度學(xué)習(xí)時代文本表示的基石。2023 年，NeurIPS 授予這篇曾被拒稿的論文「時間檢驗獎」，完成了歷史性的「平反」。

知識蒸餾：被低估的「暗知識」

論文：Distilling the Knowledge in a Neural Network
作者：Geoffrey Hinton, Oriol Vinyals, Jeff Dean
拒稿經(jīng)歷：NIPS 2014 Rejected
如今引用量：28600

這正是前文提到的論文。

在當(dāng)時，評審未能洞察到 Hinton 提出的「暗知識」（Dark Knowledge）這一概念的深遠意義：神經(jīng)網(wǎng)絡(luò)學(xué)到的知識不僅存在于正確的預(yù)測中，更隱含在對錯誤類別的概率分布里（比如寶馬像垃圾車的概率遠高于像胡蘿卜的概率）。

https://www.ttic.edu/dl/dark14.pdf

這篇論文最終僅在 Workshop 發(fā)表。它開啟了模型壓縮作為獨立研究領(lǐng)域的序幕，更成為了如今大模型向小模型遷移能力的理論源頭。

YOLO：速度與精度的偏見

論文：You Only Look Once: Unified, Real-Time Object Detection
作者：Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
拒稿經(jīng)歷：ICCV 2015 Rejected
如今引用量：69782

YOLO（You Only Look Once）徹底改變了物體檢測的游戲規(guī)則，將檢測問題從分類問題轉(zhuǎn)化為回歸問題。

其被拒理由也很簡單。在 R-CNN 系列（雙階段檢測器）統(tǒng)治的時代，評審們習(xí)慣了用 mAP（平均精度均值）的微小提升來衡量價值。YOLO 雖然實現(xiàn)了驚人的 45 FPS 實時檢測，但其定位精度確實不如 R-CNN。評審因其「定位不準(zhǔn)」而拒絕了它，卻忽視了數(shù)量級的速度提升所開啟的全新應(yīng)用場景（如自動駕駛、實時監(jiān)控）。

YOLO 系列如今已迭代至 v13，成為工業(yè)界最受歡迎的檢測框架。它提醒我們：在工程應(yīng)用中，速度本身就是一種精度。

RoBERTa：被嘲諷為「炒冷飯」的調(diào)參藝術(shù)

RoBERTa: A Robustly Optimized BERT Pretraining Approach
作者：Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov
拒稿經(jīng)歷：ICLR 2020 Rejected
如今引用量：23479

如果說前面的論文是因為「太超前」被拒，那么 RoBERTa 的被拒則是因為「看起來太平庸」。

2019 年，BERT 橫空出世，風(fēng)頭無兩。Facebook AI（現(xiàn) Meta AI）的研究人員并沒有急于提出一種全新的架構(gòu)，而是耐心地對 BERT 的預(yù)訓(xùn)練過程進行了極其詳盡的復(fù)現(xiàn)和優(yōu)化。他們發(fā)現(xiàn)，BERT 實際上被「訓(xùn)練不足」了。通過調(diào)整超參數(shù)、增加數(shù)據(jù)量、去除 Next Sentence Prediction (NSP) 任務(wù)，RoBERTa 在所有基準(zhǔn)測試上都超越了原始 BERT。

然而，這篇扎實的工作在投稿 ICLR 2020 時，卻遭到了評審的冷遇。評審意見非常直白且刺耳：「這篇論文的新穎性和技術(shù)貢獻相當(dāng)有限」。在評審看來，只是發(fā)現(xiàn)「仔細調(diào)參很有用」和「更多數(shù)據(jù)很有用」，并不足以登上頂會的舞臺。

最終，RoBERTa 只能再次以被拒稿的身份流傳于世。但歷史證明了它的價值：RoBERTa 不僅成為了后續(xù) NLP 研究的標(biāo)準(zhǔn)基線，更向業(yè)界揭示了一個樸素的真理 —— 在深度學(xué)習(xí)時代，清洗數(shù)據(jù)和優(yōu)化訓(xùn)練細節(jié)，往往比設(shè)計花哨的新架構(gòu)更具實戰(zhàn)價值。

Mamba：挑戰(zhàn) Transformer 霸權(quán)的「落選者」

論文：Mamba: Linear-Time Sequence Modeling with Selective State Spaces
作者：Albert Gu, Tri Dao
拒稿經(jīng)歷：ICLR 2024 Rejected
如今引用量：6799

這可能是最近發(fā)生的最具戲劇性的「拒稿」事件。

在 Transformer 一統(tǒng)天下的今天，Mamba 的出現(xiàn)原本被視為一種顛覆。作者 Albert Gu 和 Tri Dao 提出了一種基于選擇性狀態(tài)空間模型（SSM）的架構(gòu)，它在實現(xiàn)線性時間復(fù)雜度的同時，居然在語言建模任務(wù)上達到了媲美 Transformer 的性能。這意味著，我們終于有望打破 Attention 機制帶來的計算瓶頸，讓大模型在長序列推理上實現(xiàn)飛躍。

然而，這篇在 arXiv 上一經(jīng)發(fā)布就引爆社區(qū)、被無數(shù)開發(fā)者復(fù)現(xiàn)和膜拜的神作，卻在 ICLR 2024 的評審中折戟沉沙。評審給出的分數(shù)并不高，理由集中在「與其前作 S4 相比增量不足」、「在某些特定任務(wù)上未能全面超越 Transformer」以及對實驗細節(jié)的質(zhì)疑。參閱報道《8/8/6/3 的 Mamba 論文，最終還是被 ICLR 2024 拒了，網(wǎng)友：懸著的心終于死了》

結(jié)果十分諷刺：當(dāng) ICLR 2024 公布接收結(jié)果時，AI 社區(qū)討論最熱烈的話題之一卻是「Mamba 竟然被拒了？」。就在被拒稿的短短幾個月后，基于 Mamba 的變體（如 Jamba、Vision Mamba）如雨后春筍般涌現(xiàn)，它實際上已經(jīng)成為了 2024 年最具影響力的架構(gòu)創(chuàng)新之一。Mamba 的遭遇再次提醒我們：當(dāng)一種反共識的新范式出現(xiàn)時，舊范式的評價標(biāo)準(zhǔn)往往會失效。

科研評價體系的局限與反思

綜合上述案例，我們可以看到頂會評審系統(tǒng)在面對顛覆性創(chuàng)新時，往往存在某種系統(tǒng)性的認知滯后：

簡單性陷阱：評審傾向于將「數(shù)學(xué)復(fù)雜性」等同于「研究貢獻」。當(dāng) Dropout 或 Word2Vec 這樣簡單有效的方法出現(xiàn)時，評審的第一反應(yīng)往往是質(zhì)疑其理論深度。
范式慣性：評審?fù)桥f范式的維護者。當(dāng) YOLO 提出放棄 Region Proposal，或 Deep Image Prior 提出無需學(xué)習(xí)的先驗時，舊范式的標(biāo)準(zhǔn)（如精度、數(shù)據(jù)依賴）成為了阻礙新思想的壁壘。
嚴謹性的暴政：在深度學(xué)習(xí)這個實驗科學(xué)屬性極強的領(lǐng)域，過度要求理論證明（如 Adam 優(yōu)化器初期面臨的收斂性質(zhì)疑）可能會扼殺具有巨大實用價值的工程突破。

這些「被拒稿的杰作」向我們揭示了科學(xué)發(fā)展的非線性。它們證明了，同行評審雖然是科學(xué)共同體的基石，但它很難擺脫人類認知的局限性 —— 它善于識別錯誤，卻往往拙于鑒別天才。

事實上，這種遭遇并非 AI 領(lǐng)域的特產(chǎn)，甚至連物理學(xué)神壇上的名字也無法幸免。

1936 年，阿爾伯特?愛因斯坦（Albert Einstein）將一篇關(guān)于引力波的論文投給了權(quán)威期刊《Physical Review》。在此之前，愛因斯坦習(xí)慣了編輯直接錄用他的文章，但這一次，主編 John Tate 決定將其送審。

隨后，愛因斯坦收到了一份寫滿修改意見的匿名評審報告。這位驕傲的物理學(xué)家被徹底激怒了，他在給主編的回信中寫下了一段著名的話：「我把文章寄給你是為了發(fā)表，并沒有授權(quán)你在它付印前拿給專家看。我沒有通過以此來回答你們那匿名專家的錯誤評論的必要。」隨后，他撤回了論文。

雖然歷史極其幽默地反轉(zhuǎn)了 —— 那位匿名評審人其實指出了愛因斯坦論文中一個致命的數(shù)學(xué)錯誤（愛因斯坦后來在另一本期刊發(fā)表時悄悄修正了它），但這個故事依然不僅是一個關(guān)于「糾錯」的軼事，更是一個關(guān)于「摩擦」的隱喻。

阿爾伯特·愛因斯坦和內(nèi)森·羅森關(guān)于引力波的解的修訂版論文最后發(fā)表在 Journal of the Franklin Institute 上

對于正在經(jīng)歷 Peer Review 陣痛的研究者而言，Jeff Dean 的憤怒、YOLO 的委屈、甚至愛因斯坦的傲慢，都指向了同一個事實：真正決定一項研究生命力的，從來不是幾位評審在幾周內(nèi)做出的決定，而是它是否真正解決了問題，以及它在時間長河中留下的回響。

如果你的 Paper 最近也被拒了，別灰心。你只是加入了一個包括圖靈獎得主和諾貝爾獎得主在內(nèi)的「被拒稿俱樂部」而已。

保持韌性，真理有時只是遲到了一點。

你還知道哪些雖被拒稿但影響深遠的論文？

https://x.com/JeffDean/status/1998454348125536736

https://x.com/Yuchenj_UW/status/1998485506699702403

https://www.reddit.com/r/MachineLearning/comments/vywfx3/d_are_there_any_rejected_papers_that_ended_up/

https://physicstoday.aip.org/features/einstein-versus-the-physical-review

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.