国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

何愷明NeurIPS 2025演講盤點(diǎn):視覺(jué)目標(biāo)檢測(cè)三十年

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

不久前,NeurIPS 2025 順利舉辦,作為人工智能學(xué)術(shù)界的頂級(jí)會(huì)議之一,其中不乏學(xué)術(shù)界大佬的工作和演講。

有一項(xiàng)榮譽(yù)的頒發(fā)顯得格外厚重且眾望所歸 —— 由任少卿、何愷明、Ross Girshick 和孫劍合著的經(jīng)典論文《Faster R-CNN》,摘得了「時(shí)間檢驗(yàn)獎(jiǎng)」 (Test of Time Award)

凡是接觸過(guò)計(jì)算機(jī)視覺(jué)的人,對(duì)這個(gè)名字絕不陌生。自 2015 年發(fā)表以來(lái),《Faster R-CNN》無(wú)疑成為了該領(lǐng)域最具里程碑意義的工作之一。它不僅一舉奠定了現(xiàn)代目標(biāo)檢測(cè)框架的核心范式,更像是一座燈塔,深刻影響并指引了隨后整整十年的視覺(jué)模型發(fā)展方向。



  • 論文地址:https://arxiv.org/pdf/1506.01497



作為這一歷史性時(shí)刻的見(jiàn)證與總結(jié),何愷明在大會(huì)上發(fā)表了題為《視覺(jué)目標(biāo)檢測(cè)簡(jiǎn)史》 (A Brief History of Visual Object Detection)的演講。



何愷明演講 PPT 已經(jīng)公開,可以參閱以下鏈接:

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

從何愷明的演講內(nèi)容來(lái)看,這不單是一個(gè)技術(shù)匯報(bào),更像是一部計(jì)算機(jī)如何學(xué)會(huì)「看世界」的英雄史詩(shī),總結(jié)了 30 年來(lái)視覺(jué)目標(biāo)檢測(cè)的發(fā)展歷程。演講中介紹的每一個(gè)工作,都獲得了不同頂會(huì)的時(shí)間檢驗(yàn)獎(jiǎng),對(duì)視覺(jué)智能的發(fā)展起到了決定性的作用。

你是否好奇:為什么現(xiàn)在的 AI 能在一瞬間識(shí)別出照片里的貓、狗、汽車甚至它們的位置,而在十幾年前這卻被認(rèn)為是幾乎不可能的任務(wù)?



讓我們跟隨大神的視角,穿越回那個(gè)「原始」的時(shí)代,看看這一路是如何走來(lái)的。

原始:手工打磨的「放大鏡」

在深度學(xué)習(xí)爆發(fā)之前,計(jì)算機(jī)視覺(jué)科學(xué)家們更像是「工匠」。

人臉檢測(cè)的早期嘗試: 早在 90 年代,科學(xué)家們就開始嘗試用神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)方法找人臉:

  • 1996 年: Rowley 等人發(fā)表了《基于神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)》(Neural Network-Based Face Detection) ,這是何愷明閱讀的第一篇 CV 論文,利用早期的神經(jīng)網(wǎng)絡(luò)在圖像金字塔上尋找面孔 。
  • 1997 年: Osuna 等人引入了支持向量機(jī),發(fā)表了《用于人臉檢測(cè)的 SVM》(SVM for Face Detection) ,試圖在數(shù)據(jù)中畫出一條完美的分類線。
  • 2001 年: 著名的Viola-Jones 框架(The Viola-Jones Framework) 橫空出世。它通過(guò)簡(jiǎn)單的特征組合實(shí)現(xiàn)了極快的人臉檢測(cè),直到今天,很多老式相機(jī)的對(duì)焦功能還得感謝它。

特征工程的黃金時(shí)代: 既然「整張臉」難找,那就找「關(guān)鍵點(diǎn)」和「紋理」。隨后的幾年,特征描述符成為了主角:

  • 1999 年: Lowe 提出了SIFT,這種「尺度不變特征變換」能在旋轉(zhuǎn)、縮放的情況下依然認(rèn)出物體,是當(dāng)年的絕對(duì)王者。
  • 2003 年: Sivic 和 Zisserman 借鑒文本搜索,提出了「視覺(jué)詞袋模型」(Bag of Visual Words) ,把圖片看作一堆「視覺(jué)單詞」的集合。
  • 2005 年: Dalal 和 Triggs 發(fā)明了HOG(方向梯度直方圖) ,專門用來(lái)描述行人的輪廓。同一年,Grauman 和 Darrell 提出了 「金字塔匹配核」 (Pyramid Match Kernel) ,用來(lái)比較兩組特征的相似度。
  • 2006 年: Lazebnik 等人進(jìn)一步提出了「空間金字塔匹配」(Spatial Pyramid Matching) ,解決了詞袋模型丟失空間位置信息的問(wèn)題。
  • 2008 年: 特征工程的集大成者DPM(Deformable Part Model) 登場(chǎng)。它把物體看作一個(gè)個(gè)可變形的部件(比如人的頭、手、腳),像彈簧一樣連接在一起。這是傳統(tǒng)方法的巔峰。

痛點(diǎn)在哪里?特征是人設(shè)計(jì)的(Hand-crafted),分類器(比如 SVM)只能在這些有限的信息上工作 。這種方法不僅慢,而且很難適應(yīng)復(fù)雜的場(chǎng)景。

破曉:AlexNet 與 R-CNN 的「暴力美學(xué)」

2012 年,AlexNet 橫空出世,深度學(xué)習(xí)證明了它提取特征的能力遠(yuǎn)超人類手工設(shè)計(jì) 。但是,怎么用它來(lái)做目標(biāo)檢測(cè)呢?

深度學(xué)習(xí)的驚雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 競(jìng)賽中以壓倒性優(yōu)勢(shì)奪冠。它證明了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征的能力遠(yuǎn)超人類手工設(shè)計(jì)。



R-CNN:從分類到檢測(cè) 但是,怎么用 CNN 做目標(biāo)檢測(cè)(框出物體位置)? 2014 年,Girshick 等人提出了劃時(shí)代的 R-CNN (Region-based CNN) 。它的思路很直接:

  • 先用傳統(tǒng)算法(Selective Search)在圖上剪出約 2000 個(gè)「候選區(qū)域」 (Region Proposals)。
  • 把每個(gè)區(qū)域都扔進(jìn) CNN 提特征,再用 SVM 分類。

巔峰:Faster R-CNN 的「速度進(jìn)化」

R-CNN 讓每個(gè)候選框都過(guò)一遍 CNN,計(jì)算量巨大??茖W(xué)家們開始思考如何復(fù)用計(jì)算。

  • 2014 年: 何愷明團(tuán)隊(duì)提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空間金字塔池化層,允許神經(jīng)網(wǎng)絡(luò)處理任意大小的圖片,并且只算一次全圖特征,大大加速了檢測(cè)。
  • 2015 年: Girshick 借鑒 SPP-Net,推出了Fast R-CNN。它引入了 RoI Pooling,把特征提取和分類回歸整合到了一個(gè)網(wǎng)絡(luò)里,不僅快,還能端到端訓(xùn)練。



最終的瓶頸: 即便如此,候選框(Region Proposals)依然依賴那個(gè)笨重的傳統(tǒng)算法(Selective Search),這成為了系統(tǒng)的速度瓶頸。



2015 年,F(xiàn)aster R-CNN 的誕生:何愷明團(tuán)隊(duì)提出了 RPN (Region Proposal Network) 。他們從 1991 年 LeCun 等人的 「空間位移神經(jīng)網(wǎng)絡(luò)」 (Space Displacement Net) 中獲得靈感,讓神經(jīng)網(wǎng)絡(luò)自己在特征圖上「滑動(dòng)」,通過(guò)預(yù)設(shè)的 Anchor (錨點(diǎn)) 來(lái)預(yù)測(cè)物體可能存在的位置。

至此,目標(biāo)檢測(cè)的所有環(huán)節(jié) —— 提議、特征提取、分類、回歸 —— 全部被神經(jīng)網(wǎng)絡(luò)接管,實(shí)現(xiàn)了真正的「端到端」實(shí)時(shí)檢測(cè)。速度和精度雙重飛躍,計(jì)算機(jī)視覺(jué)終于邁入了實(shí)時(shí)檢測(cè)的時(shí)代。

迷霧后的新世界:Transformer 與萬(wàn)物

Faster R-CNN 開啟了一個(gè)時(shí)代,但探索從未停止。演講的后半部分,何愷明展示了技術(shù)的洪流如何繼續(xù)奔涌:

既然要快,能不能連「候選框」這個(gè)步驟都不要了?

  • 2016 年:YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 問(wèn)世。它們像人類一眼看全圖一樣,直接輸出所有物體的位置和類別,速度極快。
  • 2017 年: 為了解決單階段檢測(cè)精度低的問(wèn)題(正負(fù)樣本不平衡),何愷明團(tuán)隊(duì)提出了Focal Loss(RetinaNet) 。
  • 2017 年:Mask R-CNN驚艷亮相。它在 Faster R-CNN 的基礎(chǔ)上加了一個(gè)分支,不僅能畫框,還能像素級(jí)地把物體「摳」出來(lái)(實(shí)例分割),引入了 RoI Align 解決了像素對(duì)齊問(wèn)題。
  • 2020 年:DETR(Detection Transformer) 將 Transformer 架構(gòu)引入視覺(jué)。它完全拋棄了 Anchor 和復(fù)雜的后處理(NMS),用全局注意力機(jī)制重新定義了檢測(cè)。
  • 2023 年:SAM(Segment Anything Model) 橫空出世。它在大數(shù)據(jù)的喂養(yǎng)下,學(xué)會(huì)了「分割萬(wàn)物」,不再受限于特定的訓(xùn)練類別,展示了視覺(jué)大模型的雛形。



在這個(gè)「大航海時(shí)代」我們學(xué)到了什么?

我們?cè)谶^(guò)去的幾十年里學(xué)到了什么?

何愷明說(shuō):「Write object detection papers and win Test of Time Awards :)」(寫目標(biāo)檢測(cè)論文然后拿到時(shí)間檢驗(yàn)獎(jiǎng) :) )

演講最后,他用一張 Nano-Banana 生成的非常有寓意的圖作為結(jié)尾:一艘船駛向迷霧中的大海。



他說(shuō),科學(xué)探索就像是駛?cè)朊造F

  • 這里沒(méi)有預(yù)先畫好的的地圖。
  • 我們甚至不知道終點(diǎn)是否存在 。

從手工特征到 CNN,再到 Transformer,每一次飛躍都是探險(xiǎn)者在迷霧中發(fā)現(xiàn)的新大陸。Faster R-CNN 不僅僅是一個(gè)算法,它教會(huì)了我們:當(dāng)舊的組件成為瓶頸時(shí),用更強(qiáng)大的可學(xué)習(xí)模型去取代它。

在下一個(gè)十年,計(jì)算機(jī)視覺(jué)的「圣杯」會(huì)是什么?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
《沉默的榮耀》導(dǎo)演楊亞洲說(shuō):吳石將軍就義前,提了兩個(gè)要求

《沉默的榮耀》導(dǎo)演楊亞洲說(shuō):吳石將軍就義前,提了兩個(gè)要求

阿廢冷眼觀察所
2025-12-20 16:31:11
北京鏈家密集注銷多家分公司,房產(chǎn)中介的“過(guò)冬”姿勢(shì)變了

北京鏈家密集注銷多家分公司,房產(chǎn)中介的“過(guò)冬”姿勢(shì)變了

商業(yè)不許冷
2025-12-20 13:55:47
公然挑戰(zhàn)國(guó)家?許家印前妻突然出手,這一家子都不是省油的燈

公然挑戰(zhàn)國(guó)家?許家印前妻突然出手,這一家子都不是省油的燈

雙色球的方向舵
2025-12-20 14:05:44
CCTV5直播曼城vs西漢姆聯(lián):曼城主場(chǎng)無(wú)懼鐵錘幫 全取3分暫時(shí)登頂

CCTV5直播曼城vs西漢姆聯(lián):曼城主場(chǎng)無(wú)懼鐵錘幫 全取3分暫時(shí)登頂

智道足球
2025-12-20 13:19:54
媽媽現(xiàn)場(chǎng)觀賽!常冰玉從9歲首敗到23歲首勝偶像,生涯首個(gè)四強(qiáng)

媽媽現(xiàn)場(chǎng)觀賽!常冰玉從9歲首敗到23歲首勝偶像,生涯首個(gè)四強(qiáng)

排球黃金眼
2025-12-20 00:23:21
中亞五國(guó)齊聚東京,高市早苗送中方一句話,全球已收到中國(guó)的通告

中亞五國(guó)齊聚東京,高市早苗送中方一句話,全球已收到中國(guó)的通告

芳芳?xì)v史燴
2025-12-19 17:06:27
排超聯(lián)賽:上海女排3-1河南范賴克啞火,傳配欠佳,對(duì)手貢獻(xiàn)18攔

排超聯(lián)賽:上海女排3-1河南范賴克啞火,傳配欠佳,對(duì)手貢獻(xiàn)18攔

騎馬寺的少年
2025-12-20 19:40:16
魯迅去世48年后,上海專家對(duì)著一張發(fā)黃的X光片,手都在抖:這根本就不是肺病,是一根針就能救活的命??!

源溯歷史
2025-12-18 19:27:33

中國(guó)男人,正在美國(guó)化

中國(guó)男人,正在美國(guó)化

茶狐看世界本尊
2025-12-19 23:45:04
國(guó)家出手封殺東北雨姐才一周,令人惡心一幕發(fā)生,網(wǎng)友:吃相難看

國(guó)家出手封殺東北雨姐才一周,令人惡心一幕發(fā)生,網(wǎng)友:吃相難看

哄動(dòng)一時(shí)啊
2025-12-20 19:59:39
偵辦中!34歲男子在廣州越秀鬧市行兇終被抓!2名傷者均無(wú)生命危險(xiǎn)

偵辦中!34歲男子在廣州越秀鬧市行兇終被抓!2名傷者均無(wú)生命危險(xiǎn)

聲情專遞
2025-12-20 11:55:39
全網(wǎng)驚嘆 C羅肌肉照16小時(shí)獲贊1400萬(wàn)+評(píng)論30萬(wàn) 馬斯克:我也要練

全網(wǎng)驚嘆 C羅肌肉照16小時(shí)獲贊1400萬(wàn)+評(píng)論30萬(wàn) 馬斯克:我也要練

風(fēng)過(guò)鄉(xiāng)
2025-12-20 10:50:05
石破茂預(yù)言果然應(yīng)驗(yàn)了!中方還沒(méi)正式出手,日企就已經(jīng)扛不住了

石破茂預(yù)言果然應(yīng)驗(yàn)了!中方還沒(méi)正式出手,日企就已經(jīng)扛不住了

君君文談
2025-12-20 19:21:44
鬼螃蟹辦事 7:李光歸來(lái),復(fù)仇的刀已出鞘

鬼螃蟹辦事 7:李光歸來(lái),復(fù)仇的刀已出鞘

金昔說(shuō)故事
2025-12-20 18:02:03
小米集團(tuán)CEO雷軍官宣:小米17 Ultra下周正式發(fā)布!小米與徠卡方面的合作或?qū)⒂瓉?lái)進(jìn)一步的深入

小米集團(tuán)CEO雷軍官宣:小米17 Ultra下周正式發(fā)布!小米與徠卡方面的合作或?qū)⒂瓉?lái)進(jìn)一步的深入

和訊網(wǎng)
2025-12-18 10:23:19
驚喜!哈里梅根全家福曝光:阿奇王子長(zhǎng)相帥氣不輸喬治路易

驚喜!哈里梅根全家福曝光:阿奇王子長(zhǎng)相帥氣不輸喬治路易

風(fēng)月得自難尋
2025-12-20 02:08:35
終于破案,中方追回96噸稀金,要跟美國(guó)算總賬,13萬(wàn)噸訂單被消除

終于破案,中方追回96噸稀金,要跟美國(guó)算總賬,13萬(wàn)噸訂單被消除

墨蘭史書
2025-12-20 02:15:04
剛剛,洛陽(yáng)下雪了!

剛剛,洛陽(yáng)下雪了!

大象新聞
2025-12-20 19:57:06
iPhone 18 Pro 外觀曝光,首次采用新設(shè)計(jì)

iPhone 18 Pro 外觀曝光,首次采用新設(shè)計(jì)

全是技能
2025-12-18 11:02:57
有需要可帶走過(guò)夜”,多地私人影院強(qiáng)推異性陪侍套餐

有需要可帶走過(guò)夜”,多地私人影院強(qiáng)推異性陪侍套餐

聽(tīng)心堂
2025-12-20 20:42:09
2025-12-20 21:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

司機(jī)稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

頭條要聞

司機(jī)稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

健康
親子
房產(chǎn)
數(shù)碼
公開課

這些新療法,讓化療不再那么痛苦

親子要聞

帶媽媽和三寶來(lái)吃中餐自助,艾莉拿起包子就是造,香到心坎里了!

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

數(shù)碼要聞

盧偉冰今晚直播:小米17 Ultra超前劇透 不怕“泄密”

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版