国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

加州伯克利大學(xué)突破:AI實(shí)現(xiàn)視覺(jué)推理能力

0
分享至


這項(xiàng)由加州伯克利大學(xué)的李開(kāi)文(Kelvin Li)、尚楚怡(Chuyi Shang)等研究者,以及來(lái)自Xero公司和MIT-IBM Watson AI Lab的團(tuán)隊(duì)成員共同完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.21218v1)。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。

想象一下,你正在和朋友玩一個(gè)拼圖游戲。當(dāng)你看到一塊缺失的拼圖時(shí),你的大腦會(huì)自動(dòng)掃描桌上的所有碎片,尋找形狀、顏色和圖案都匹配的那一塊。這個(gè)過(guò)程完全是視覺(jué)的——你不需要在心里描述每個(gè)拼圖片的形狀,而是直接通過(guò)視覺(jué)來(lái)進(jìn)行推理和匹配。

然而,現(xiàn)在的大型多模態(tài)模型(就是那些既能看圖又能理解文字的AI系統(tǒng))在面對(duì)類似任務(wù)時(shí),卻有一個(gè)根本性的限制:它們必須將所有的視覺(jué)信息轉(zhuǎn)換成文字描述,然后基于這些文字描述進(jìn)行推理。這就好比你在玩拼圖時(shí),必須先用文字詳細(xì)描述每個(gè)拼圖片的特征,然后基于這些文字描述來(lái)尋找匹配的片段——這顯然比直接用眼睛看要困難和低效得多。

這種局限性在現(xiàn)實(shí)應(yīng)用中造成了很多問(wèn)題。比如,當(dāng)AI需要判斷兩幅畫(huà)的藝術(shù)風(fēng)格是否相似時(shí),它必須先用文字描述第一幅畫(huà)的色彩、筆觸、構(gòu)圖等特征,再用文字描述第二幅畫(huà)的特征,最后基于這些文字描述來(lái)判斷相似性。但是,很多視覺(jué)特征是很難用文字準(zhǔn)確描述的——就像你很難用文字完全描述蒙娜麗莎微笑的細(xì)微之處一樣。

為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種名為"潛在隱式視覺(jué)推理"(LIVR)的全新方法。這種方法的核心思想是讓AI學(xué)會(huì)直接用"視覺(jué)思維"來(lái)處理圖像信息,而不是強(qiáng)迫它將一切都轉(zhuǎn)換成文字。

一、AI視覺(jué)推理的困境:被語(yǔ)言束縛的"眼睛"

在深入了解這項(xiàng)突破性研究之前,我們需要先理解當(dāng)前AI視覺(jué)系統(tǒng)面臨的根本性問(wèn)題?,F(xiàn)在的大型多模態(tài)模型,比如廣為人知的GPT-4V或者LLaVA系列模型,雖然能夠"看懂"圖片并回答相關(guān)問(wèn)題,但它們的工作方式其實(shí)有著嚴(yán)重的局限性。

這些模型的架構(gòu)通常采用一種叫做"LLaVA風(fēng)格"的設(shè)計(jì):首先用一個(gè)視覺(jué)編碼器將圖像轉(zhuǎn)換成數(shù)字向量,然后通過(guò)一個(gè)投影層將這些向量映射到語(yǔ)言模型的空間中,最后完全依靠語(yǔ)言模型來(lái)進(jìn)行推理和生成回答。這個(gè)過(guò)程就像是給一個(gè)天生的畫(huà)家戴上了眼罩,只允許他通過(guò)別人的文字描述來(lái)了解畫(huà)面內(nèi)容,然后基于這些描述來(lái)創(chuàng)作新的作品。

這種設(shè)計(jì)帶來(lái)了一個(gè)被稱為"語(yǔ)言偏見(jiàn)"的嚴(yán)重問(wèn)題。由于整個(gè)推理過(guò)程都必須在語(yǔ)言空間中進(jìn)行,模型被迫將所有的視覺(jué)信息壓縮成文本表示。然而,正如我們?cè)谌粘I钪兴w驗(yàn)的,很多視覺(jué)概念是無(wú)法完全用文字表達(dá)的。你能用文字完全描述一個(gè)人走路的姿態(tài)嗎?你能用文字精確地表達(dá)兩種綠色之間的微妙差別嗎?這些在視覺(jué)上一目了然的信息,一旦被強(qiáng)制轉(zhuǎn)換成文字,就會(huì)丟失大量的細(xì)節(jié)和精度。

更糟糕的是,這種語(yǔ)言偏見(jiàn)使得模型在處理需要復(fù)雜視覺(jué)推理的任務(wù)時(shí)表現(xiàn)不佳。比如,當(dāng)模型需要解決一個(gè)幾何拼圖問(wèn)題時(shí),人類可以通過(guò)心理旋轉(zhuǎn)和視覺(jué)想象來(lái)快速找到答案,但AI模型卻必須將所有的形狀、位置關(guān)系都轉(zhuǎn)換成文字描述,然后在這些抽象的文字描述上進(jìn)行推理——這就像要求一個(gè)建筑師僅僅通過(guò)文字描述而不看圖紙來(lái)設(shè)計(jì)復(fù)雜的建筑一樣困難。

研究團(tuán)隊(duì)通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)有模型在九種不同的視覺(jué)密集型任務(wù)上都表現(xiàn)不佳,包括拼圖組裝、物體定位、視覺(jué)對(duì)應(yīng)關(guān)系識(shí)別等。這些任務(wù)的共同特點(diǎn)是它們都需要模型具備強(qiáng)大的視覺(jué)抽象和推理能力,而不是僅僅依靠語(yǔ)言理解。

二、傳統(tǒng)解決方案的局限:治標(biāo)不治本的嘗試

面對(duì)這些問(wèn)題,研究界并非沒(méi)有意識(shí)到。事實(shí)上,已經(jīng)有很多團(tuán)隊(duì)嘗試通過(guò)各種方法來(lái)增強(qiáng)模型的視覺(jué)推理能力,但這些嘗試大多存在根本性的缺陷。

最常見(jiàn)的一種方法是"顯式監(jiān)督",就像給學(xué)生提供標(biāo)準(zhǔn)答案一樣,研究人員會(huì)為模型提供大量的中間視覺(jué)步驟作為學(xué)習(xí)目標(biāo)。比如,在訓(xùn)練模型識(shí)別物體位置時(shí),會(huì)給它提供精確的邊界框坐標(biāo);在訓(xùn)練模型理解圖像內(nèi)容時(shí),會(huì)提供詳細(xì)的圖像區(qū)域裁剪。這種方法的邏輯很直觀:既然模型不知道如何進(jìn)行視覺(jué)推理,那就直接告訴它應(yīng)該關(guān)注什么、應(yīng)該如何分解問(wèn)題。

然而,這種方法面臨著三個(gè)嚴(yán)重的問(wèn)題。首先是成本問(wèn)題——為每種任務(wù)創(chuàng)建大量的標(biāo)注數(shù)據(jù)需要巨大的人力和時(shí)間投入,就像要為每道菜都寫(xiě)出詳細(xì)的烹飪步驟一樣繁瑣。其次是泛化問(wèn)題——為特定任務(wù)設(shè)計(jì)的監(jiān)督信號(hào)往往無(wú)法很好地遷移到其他任務(wù)上,就像專門(mén)為做蛋糕設(shè)計(jì)的食譜很難直接用來(lái)做面包一樣。最重要的是偏見(jiàn)問(wèn)題——人類設(shè)計(jì)的中間步驟可能并不是模型學(xué)習(xí)的最優(yōu)路徑,就像成人學(xué)習(xí)語(yǔ)言的方式可能并不適合兒童一樣。

另一類方法是"視覺(jué)標(biāo)記回收",這種方法試圖讓模型重復(fù)利用輸入圖像中的現(xiàn)有信息。比如,模型可能會(huì)預(yù)測(cè)邊界框,然后裁剪相應(yīng)的圖像區(qū)域,再將這些裁剪后的圖像重新輸入給自己進(jìn)行進(jìn)一步處理。這就像是讓一個(gè)人先用放大鏡仔細(xì)觀察畫(huà)面的某個(gè)部分,然后基于這個(gè)局部觀察來(lái)理解整幅畫(huà)。

這種方法雖然避免了需要大量外部監(jiān)督數(shù)據(jù)的問(wèn)題,但它仍然受到原始視覺(jué)編碼的限制。模型只能重新排列和組合已有的視覺(jué)信息,而無(wú)法創(chuàng)造出新的、更適合當(dāng)前任務(wù)的視覺(jué)表示。這就像是只能用現(xiàn)有的樂(lè)器演奏音樂(lè),而無(wú)法發(fā)明新的樂(lè)器來(lái)表達(dá)特定的音樂(lè)理念一樣。

還有一些方法嘗試生成中間的視覺(jué)表示,比如深度圖、分割掩碼或者輔助圖像。這些方法的想法是為模型提供不同類型的視覺(jué)信息,幫助它更好地理解場(chǎng)景。然而,這些方法仍然需要明確定義什么樣的中間表示是"有用的",這本身就是一個(gè)主觀且困難的問(wèn)題。更重要的是,對(duì)于很多抽象的視覺(jué)推理任務(wù),我們甚至無(wú)法清楚地定義什么樣的中間步驟是合適的。

三、突破性創(chuàng)新:讓AI學(xué)會(huì)"視覺(jué)思考"

面對(duì)這些困境,研究團(tuán)隊(duì)提出了一個(gè)根本性的解決方案:與其試圖明確定義模型應(yīng)該學(xué)習(xí)什么樣的視覺(jué)表示,不如讓模型自己學(xué)會(huì)創(chuàng)造和使用這些表示。這就是"潛在隱式視覺(jué)推理"(LIVR)方法的核心思想。

LIVR的工作原理可以用一個(gè)巧妙的比喻來(lái)理解。想象你正在學(xué)習(xí)一門(mén)全新的技能,比如畫(huà)畫(huà)。傳統(tǒng)的方法就像是老師給你一套嚴(yán)格的步驟:先畫(huà)輪廓,再填充顏色,最后添加陰影。而LIVR的方法則更像是給你一張白紙和一套畫(huà)筆,然后創(chuàng)造一個(gè)環(huán)境,讓你在這個(gè)環(huán)境中自然地發(fā)現(xiàn)最適合自己的繪畫(huà)方式。

具體來(lái)說(shuō),LIVR引入了一種叫做"潛在標(biāo)記"的特殊元素。這些潛在標(biāo)記就像是模型的"私人筆記本",模型可以在這些標(biāo)記中記錄和處理對(duì)當(dāng)前任務(wù)重要的視覺(jué)信息。關(guān)鍵的是,這些標(biāo)記完全由模型自主學(xué)習(xí)和使用,不需要人類預(yù)先定義它們應(yīng)該包含什么樣的信息。

為了訓(xùn)練模型正確使用這些潛在標(biāo)記,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)叫做"視覺(jué)瓶頸"的巧妙機(jī)制。這個(gè)機(jī)制的工作原理是這樣的:在訓(xùn)練過(guò)程中,模型被禁止直接從原始圖像獲取信息來(lái)生成答案,所有的視覺(jué)信息都必須通過(guò)這些潛在標(biāo)記來(lái)傳遞。這就像是在兩個(gè)房間之間只留一個(gè)小窗口,所有的信息傳遞都必須通過(guò)這個(gè)窗口進(jìn)行。

這種設(shè)計(jì)強(qiáng)迫模型必須學(xué)會(huì)將重要的視覺(jué)信息壓縮和編碼到潛在標(biāo)記中。由于模型需要在各種不同的任務(wù)上都能正確回答問(wèn)題,它必須學(xué)會(huì)在這些潛在標(biāo)記中編碼真正通用和有用的視覺(jué)特征。這個(gè)過(guò)程完全是隱式的——模型不知道應(yīng)該編碼什么,它只知道必須通過(guò)這些標(biāo)記來(lái)解決問(wèn)題,因此會(huì)自動(dòng)學(xué)會(huì)最有效的編碼方式。

LIVR的訓(xùn)練分為兩個(gè)階段,這種設(shè)計(jì)類似于學(xué)習(xí)一門(mén)新語(yǔ)言的過(guò)程。第一階段是"視覺(jué)瓶頸階段",就像是強(qiáng)制沉浸在外語(yǔ)環(huán)境中,迫使模型完全依賴潛在標(biāo)記來(lái)處理視覺(jué)信息。在這個(gè)階段,模型學(xué)會(huì)了將復(fù)雜的視覺(jué)場(chǎng)景抽象成有用的潛在表示。第二階段是"聯(lián)合優(yōu)化階段",就像是在掌握基本語(yǔ)法后開(kāi)始練習(xí)實(shí)際對(duì)話,模型學(xué)會(huì)如何同時(shí)利用原始圖像信息和已經(jīng)學(xué)會(huì)的潛在表示來(lái)解決問(wèn)題。

這種兩階段的設(shè)計(jì)確保了模型既能學(xué)會(huì)強(qiáng)大的視覺(jué)抽象能力,又不會(huì)完全依賴這些抽象而忽視原始的視覺(jué)細(xì)節(jié)。這就像是培養(yǎng)一個(gè)畫(huà)家,既要讓他掌握抽象的構(gòu)圖原理,又要保持對(duì)具體色彩和線條的敏感性。

四、實(shí)驗(yàn)驗(yàn)證:九大視覺(jué)任務(wù)的全面勝利

為了驗(yàn)證LIVR方法的有效性,研究團(tuán)隊(duì)設(shè)計(jì)了一套全面的實(shí)驗(yàn),涵蓋了九種不同類型的視覺(jué)密集型任務(wù)。這些任務(wù)的選擇很有代表性,它們覆蓋了從低級(jí)視覺(jué)處理到高級(jí)視覺(jué)推理的各個(gè)層面,就像是為AI的視覺(jué)能力進(jìn)行一次全面的"體檢"。

第一類任務(wù)是計(jì)數(shù)任務(wù)。這聽(tīng)起來(lái)很簡(jiǎn)單,但實(shí)際上需要模型準(zhǔn)確識(shí)別和跟蹤圖像中的所有目標(biāo)對(duì)象。研究團(tuán)隊(duì)使用PixMo-Count數(shù)據(jù)集進(jìn)行測(cè)試,要求模型計(jì)算圖像中特定物體的數(shù)量。在這個(gè)任務(wù)上,LIVR方法相比傳統(tǒng)的直接微調(diào)方法,在不同的基礎(chǔ)模型上都取得了顯著提升。特別是在Qwen2.5-VL-3B模型上,準(zhǔn)確率從60.04%提升到了63.64%。

第二類任務(wù)是拼圖任務(wù),這是一個(gè)需要強(qiáng)大空間推理能力的挑戰(zhàn)。模型需要觀察一幅缺失了一塊的圖像,然后從多個(gè)候選塊中選擇正確的那一塊來(lái)填補(bǔ)空缺。這個(gè)任務(wù)特別有趣,因?yàn)樗枰P屠斫鈭D像的局部和全局結(jié)構(gòu)關(guān)系。LIVR在這個(gè)任務(wù)上的表現(xiàn)尤其出色,在Qwen2.5-VL-3B模型上實(shí)現(xiàn)了從53.33%到65.33%的巨大跳躍,提升幅度達(dá)到了12個(gè)百分點(diǎn)。

第三類任務(wù)是物體定位,模型需要在給定的多個(gè)邊界框中選擇最準(zhǔn)確定位目標(biāo)物體的那一個(gè)。這個(gè)任務(wù)考驗(yàn)的是模型對(duì)物體形狀、大小和位置的精確理解。LIVR方法在所有測(cè)試的基礎(chǔ)模型上都取得了穩(wěn)定的提升,這表明潛在標(biāo)記確實(shí)學(xué)會(huì)了編碼有用的空間信息。

視覺(jué)對(duì)應(yīng)關(guān)系任務(wù)更加復(fù)雜,它要求模型在兩幅不同的圖像之間建立對(duì)應(yīng)關(guān)系。比如,給定第一幅圖像中的一個(gè)點(diǎn),模型需要在第二幅圖像中找到對(duì)應(yīng)的點(diǎn)。這種任務(wù)在計(jì)算機(jī)視覺(jué)中有重要應(yīng)用,比如圖像拼接和三維重建。LIVR在這個(gè)任務(wù)上展現(xiàn)了強(qiáng)大的能力,在Qwen2.5-VL-3B模型上從88.00%提升到90.43%。

藝術(shù)風(fēng)格分類任務(wù)要求模型判斷兩幅畫(huà)是否屬于同一藝術(shù)風(fēng)格。這是一個(gè)高度抽象的任務(wù),因?yàn)樗囆g(shù)風(fēng)格往往涉及色彩搭配、筆觸特征、構(gòu)圖方式等多個(gè)微妙的視覺(jué)因素。傳統(tǒng)方法很難明確定義什么樣的中間表示對(duì)這個(gè)任務(wù)有用,但LIVR讓模型自主學(xué)會(huì)了相關(guān)的視覺(jué)特征。

語(yǔ)義對(duì)應(yīng)關(guān)系任務(wù)進(jìn)一步提高了難度,它要求模型理解不同物體之間的語(yǔ)義關(guān)系。比如,給定一張貓的圖片和一張狗的圖片,模型需要將貓的耳朵和狗的耳朵建立對(duì)應(yīng)關(guān)系。這需要模型不僅理解物體的形狀,還要理解物體的功能和語(yǔ)義含義。

功能對(duì)應(yīng)關(guān)系任務(wù)則更加抽象,它關(guān)注的是物體的功能性對(duì)應(yīng)關(guān)系。比如,茶壺的把手和咖啡杯的把手在功能上是對(duì)應(yīng)的,盡管它們的形狀可能完全不同。LIVR在這個(gè)任務(wù)上取得了特別顯著的改進(jìn),在某些模型上提升幅度超過(guò)了27個(gè)百分點(diǎn),這說(shuō)明潛在標(biāo)記成功學(xué)會(huì)了編碼抽象的功能性特征。

相對(duì)反射率任務(wù)要求模型比較圖像中不同區(qū)域的表面亮度,這需要模型能夠區(qū)分光照效果和物體本身的反射特性。這是一個(gè)需要深度視覺(jué)理解的任務(wù),因?yàn)槟P捅仨毻评沓龉庹諚l件對(duì)觀察到的亮度的影響。

最后,視覺(jué)相似性任務(wù)要求模型判斷多幅圖像之間的整體相似程度。這個(gè)任務(wù)特別有挑戰(zhàn)性,因?yàn)?相似性"是一個(gè)高度主觀的概念,很難用明確的規(guī)則來(lái)定義。LIVR在這個(gè)任務(wù)上也取得了顯著提升,說(shuō)明潛在標(biāo)記學(xué)會(huì)了編碼對(duì)相似性判斷有用的高級(jí)視覺(jué)特征。

更重要的是,研究團(tuán)隊(duì)還測(cè)試了LIVR在多任務(wù)學(xué)習(xí)場(chǎng)景下的表現(xiàn)。他們選擇了六個(gè)最具挑戰(zhàn)性的任務(wù),使用相同的模型同時(shí)學(xué)習(xí)所有任務(wù)。結(jié)果顯示,LIVR不僅在單任務(wù)設(shè)置下表現(xiàn)優(yōu)異,在多任務(wù)設(shè)置下同樣保持了顯著的優(yōu)勢(shì)。這表明LIVR學(xué)到的視覺(jué)表示具有很好的泛化性,能夠跨任務(wù)傳遞有用的視覺(jué)知識(shí)。

五、深度機(jī)制解析:潛在標(biāo)記的奧秘

為了深入理解LIVR為什么如此有效,研究團(tuán)隊(duì)進(jìn)行了大量的分析實(shí)驗(yàn),這些實(shí)驗(yàn)就像是給LIVR進(jìn)行"解剖",揭示其內(nèi)部工作機(jī)制的奧秘。

首先,研究團(tuán)隊(duì)驗(yàn)證了潛在標(biāo)記確實(shí)被模型積極使用,而不是被忽略。他們?cè)O(shè)計(jì)了一個(gè)對(duì)照實(shí)驗(yàn):創(chuàng)建一個(gè)只添加潛在標(biāo)記但不進(jìn)行視覺(jué)瓶頸訓(xùn)練的模型。結(jié)果發(fā)現(xiàn),這個(gè)對(duì)照模型的性能與基線模型基本相同,說(shuō)明僅僅添加額外的參數(shù)并不能帶來(lái)性能提升。但是,當(dāng)研究人員在測(cè)試時(shí)移除潛在標(biāo)記時(shí),LIVR模型的性能顯著下降,這證明了模型確實(shí)學(xué)會(huì)了依賴這些潛在標(biāo)記。

更有趣的是,研究團(tuán)隊(duì)通過(guò)注意力分析發(fā)現(xiàn),LIVR模型的答案生成過(guò)程確實(shí)會(huì)大量關(guān)注潛在標(biāo)記。具體來(lái)說(shuō),答案標(biāo)記對(duì)潛在標(biāo)記的平均注意力權(quán)重為0.076,而對(duì)照模型只有0.028。這個(gè)數(shù)據(jù)清楚地表明,經(jīng)過(guò)LIVR訓(xùn)練的模型學(xué)會(huì)了將潛在標(biāo)記作為重要的信息源。

為了驗(yàn)證潛在標(biāo)記確實(shí)編碼了有用的視覺(jué)信息,研究團(tuán)隊(duì)進(jìn)行了一個(gè)巧妙的實(shí)驗(yàn)。他們?cè)跍y(cè)試時(shí)使用視覺(jué)瓶頸掩碼,強(qiáng)制模型只能通過(guò)潛在標(biāo)記來(lái)"看到"圖像。結(jié)果發(fā)現(xiàn),經(jīng)過(guò)LIVR訓(xùn)練的模型在這種嚴(yán)格限制下仍然能夠保持70.49%的準(zhǔn)確率,而對(duì)照模型的準(zhǔn)確率卻降到了43.44%(接近隨機(jī)猜測(cè)的水平)。這個(gè)實(shí)驗(yàn)有力地證明了LIVR的潛在標(biāo)記確實(shí)學(xué)會(huì)了編碼豐富的視覺(jué)信息。

研究團(tuán)隊(duì)還仔細(xì)分析了LIVR的兩個(gè)核心組件——潛在標(biāo)記和視覺(jué)瓶頸——的各自作用。當(dāng)他們移除潛在標(biāo)記但保留視覺(jué)瓶頸時(shí),發(fā)現(xiàn)性能提升有限。這說(shuō)明僅僅限制模型的信息流動(dòng)是不夠的,還需要為模型提供專門(mén)的空間來(lái)編碼視覺(jué)信息。相反,如果只添加潛在標(biāo)記但不進(jìn)行視覺(jué)瓶頸訓(xùn)練,模型往往會(huì)忽略這些新增的標(biāo)記,繼續(xù)依賴原有的視覺(jué)編碼。只有兩個(gè)組件結(jié)合使用,才能發(fā)揮最大的效果。

在設(shè)計(jì)選擇的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了幾個(gè)重要的細(xì)節(jié)。首先,潛在標(biāo)記的位置很重要:將它們放在提示詞之后比放在提示詞之前效果更好。這可能是因?yàn)闈撛跇?biāo)記需要"看到"問(wèn)題內(nèi)容才能知道應(yīng)該編碼什么樣的視覺(jué)信息。其次,視覺(jué)瓶頸的嚴(yán)格程度也需要仔細(xì)平衡:太松的限制無(wú)法迫使模型使用潛在標(biāo)記,太嚴(yán)的限制又會(huì)阻止?jié)撛跇?biāo)記獲取必要的上下文信息。

研究團(tuán)隊(duì)還發(fā)現(xiàn),給每個(gè)潛在標(biāo)記分配獨(dú)立的嵌入向量比使用共享嵌入向量效果更好。這表明不同的潛在標(biāo)記學(xué)會(huì)了編碼不同類型的視覺(jué)信息,增加了表示的多樣性和豐富性。

關(guān)于潛在標(biāo)記數(shù)量的選擇,實(shí)驗(yàn)顯示16個(gè)標(biāo)記是一個(gè)較好的平衡點(diǎn)。使用太少的標(biāo)記(如4個(gè)或8個(gè))會(huì)限制模型的表達(dá)能力,而使用太多的標(biāo)記(如32個(gè))可能會(huì)使注意力過(guò)于分散,反而降低效果。

訓(xùn)練階段的時(shí)間分配也很關(guān)鍵。研究團(tuán)隊(duì)嘗試了不同的第一階段和第二階段時(shí)長(zhǎng)比例,發(fā)現(xiàn)4:6的比例效果最好。這個(gè)比例確保了潛在標(biāo)記有足夠時(shí)間學(xué)會(huì)編碼視覺(jué)信息,同時(shí)也有足夠時(shí)間學(xué)會(huì)與原始圖像信息的整合。

六、注意力可視化:揭開(kāi)AI"思維"的面紗

研究團(tuán)隊(duì)最令人興奮的發(fā)現(xiàn)之一來(lái)自對(duì)潛在標(biāo)記注意力模式的可視化分析。通過(guò)觀察潛在標(biāo)記在處理不同任務(wù)時(shí)關(guān)注圖像的哪些區(qū)域,我們可以直觀地了解AI是如何"思考"這些視覺(jué)問(wèn)題的。

在語(yǔ)義對(duì)應(yīng)關(guān)系任務(wù)中,當(dāng)模型需要在兩幅圖像之間建立對(duì)應(yīng)關(guān)系時(shí),潛在標(biāo)記的注意力會(huì)精確地聚焦在相關(guān)的物體部分上。比如,當(dāng)任務(wù)要求找到兩張不同摩托車(chē)圖片中對(duì)應(yīng)的部分時(shí),潛在標(biāo)記會(huì)同時(shí)關(guān)注兩張圖片中摩托車(chē)的相同部位,如車(chē)把、車(chē)輪或車(chē)身。這種注意力模式表明,潛在標(biāo)記學(xué)會(huì)了識(shí)別和匹配不同圖像中的對(duì)應(yīng)特征。

在定位任務(wù)中,潛在標(biāo)記展現(xiàn)了對(duì)邊界和輪廓的敏感性。當(dāng)模型需要選擇最準(zhǔn)確的邊界框時(shí),潛在標(biāo)記會(huì)集中關(guān)注物體的邊緣和關(guān)鍵特征點(diǎn)。特別有趣的是,在一個(gè)需要同時(shí)定位摩托車(chē)和狗的例子中,不同的潛在標(biāo)記分別專注于不同的目標(biāo)對(duì)象,表明模型學(xué)會(huì)了并行處理多個(gè)視覺(jué)目標(biāo)。

計(jì)數(shù)任務(wù)的注意力模式更加令人印象深刻。在一個(gè)需要計(jì)算圖像中奶牛數(shù)量的例子中,潛在標(biāo)記的注意力會(huì)依次掃描圖像中的每一頭奶牛,就像人類在數(shù)數(shù)時(shí)的視覺(jué)行為一樣。在另一個(gè)計(jì)算氣球數(shù)量的例子中,潛在標(biāo)記同樣展現(xiàn)了對(duì)所有目標(biāo)物體的全面覆蓋。

拼圖任務(wù)的可視化結(jié)果特別引人注目。在一個(gè)桌子拼圖的例子中,當(dāng)圖像的一部分被遮擋時(shí),潛在標(biāo)記會(huì)關(guān)注被遮擋區(qū)域邊緣的紋理和結(jié)構(gòu)特征,然后在候選選項(xiàng)中尋找具有相似特征的片段。這種行為完全符合人類解決拼圖問(wèn)題時(shí)的思維模式。

更有趣的是,在一些更抽象的任務(wù)中,潛在標(biāo)記學(xué)會(huì)了關(guān)注人類可能不會(huì)注意到的細(xì)微特征。在藝術(shù)風(fēng)格分類任務(wù)中,潛在標(biāo)記的注意力模式顯示,模型學(xué)會(huì)了關(guān)注筆觸的方向、色彩的分布模式,以及構(gòu)圖的整體布局等特征。這些特征的組合形成了對(duì)藝術(shù)風(fēng)格的獨(dú)特"理解"。

通過(guò)t-SNE降維可視化,研究團(tuán)隊(duì)還發(fā)現(xiàn)了潛在標(biāo)記在表示空間中的有趣分布模式。經(jīng)過(guò)訓(xùn)練的潛在標(biāo)記在表示空間中形成了與圖像標(biāo)記部分重疊但又獨(dú)特的區(qū)域。這表明潛在標(biāo)記既學(xué)會(huì)了利用預(yù)訓(xùn)練的視覺(jué)特征,又發(fā)展出了針對(duì)特定任務(wù)的專門(mén)表示。

這些可視化結(jié)果不僅證明了LIVR方法的有效性,更重要的是揭示了AI在沒(méi)有顯式監(jiān)督的情況下也能學(xué)會(huì)合理的視覺(jué)推理策略。這些策略雖然是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式自動(dòng)發(fā)現(xiàn)的,但卻與人類的視覺(jué)認(rèn)知過(guò)程有著驚人的相似性。

七、與現(xiàn)有方法的較量:LIVR的優(yōu)勢(shì)何在

為了全面評(píng)估LIVR的優(yōu)勢(shì),研究團(tuán)隊(duì)將其與現(xiàn)有的最先進(jìn)方法進(jìn)行了直接比較,特別是與Mirage方法的對(duì)比尤其值得關(guān)注。

Mirage是另一種嘗試增強(qiáng)視覺(jué)推理能力的方法,它的核心思想是為模型提供輔助圖像來(lái)幫助推理過(guò)程。比如,在處理拼圖任務(wù)時(shí),Mirage會(huì)生成一些輔助圖像來(lái)突出重要的視覺(jué)特征。這種方法的邏輯是通過(guò)提供更多的視覺(jué)信息來(lái)幫助模型更好地理解問(wèn)題。

然而,在直接對(duì)比中,LIVR展現(xiàn)了明顯的優(yōu)勢(shì)。在拼圖任務(wù)上,使用相同的基礎(chǔ)模型(Qwen2.5-VL-3B),LIVR取得了68.00%的準(zhǔn)確率,而Mirage只有48.60%,LIVR的優(yōu)勢(shì)高達(dá)19.40個(gè)百分點(diǎn)。在視覺(jué)空間規(guī)劃任務(wù)上,LIVR達(dá)到了66.00%的準(zhǔn)確率,比Mirage的46.00%高出20個(gè)百分點(diǎn)。

這種巨大的性能差距反映了兩種方法在根本理念上的不同。Mirage試圖通過(guò)提供更多的視覺(jué)信息來(lái)解決問(wèn)題,但這種方法仍然受到顯式監(jiān)督的限制——研究人員需要預(yù)先定義什么樣的輔助圖像是"有用的"。相比之下,LIVR讓模型自主發(fā)現(xiàn)和學(xué)習(xí)有用的視覺(jué)表示,避免了人類設(shè)計(jì)偏見(jiàn)的影響。

更重要的是,LIVR的優(yōu)勢(shì)不僅體現(xiàn)在單一任務(wù)的性能上,還體現(xiàn)在其強(qiáng)大的泛化能力上。在多任務(wù)學(xué)習(xí)實(shí)驗(yàn)中,LIVR在六個(gè)不同任務(wù)上都取得了一致的改進(jìn),平均提升幅度為2.77個(gè)百分點(diǎn)。這種一致性表明,LIVR學(xué)到的視覺(jué)表示具有很好的通用性,能夠跨任務(wù)傳遞知識(shí)。

與傳統(tǒng)的直接微調(diào)方法相比,LIVR的優(yōu)勢(shì)更加明顯。在九個(gè)單任務(wù)實(shí)驗(yàn)中,LIVR在所有任務(wù)上都取得了顯著提升,沒(méi)有任何一個(gè)任務(wù)出現(xiàn)性能下降。這種穩(wěn)定性和可靠性對(duì)于實(shí)際應(yīng)用來(lái)說(shuō)非常重要。

特別值得注意的是,LIVR在那些很難定義中間步驟的抽象任務(wù)上表現(xiàn)尤其出色。比如在功能對(duì)應(yīng)關(guān)系任務(wù)上,LIVR在LLaVA-OneVision模型上實(shí)現(xiàn)了27.40個(gè)百分點(diǎn)的巨大提升,從23.29%躍升至50.69%。這個(gè)任務(wù)要求模型理解物體的功能性對(duì)應(yīng)關(guān)系,這種抽象概念很難通過(guò)顯式的監(jiān)督信號(hào)來(lái)定義,但LIVR讓模型自主學(xué)會(huì)了相關(guān)的表示。

在計(jì)算效率方面,LIVR也展現(xiàn)了優(yōu)勢(shì)。與需要生成和處理大量輔助圖像的方法不同,LIVR只是在模型中添加了少量的潛在標(biāo)記,這些標(biāo)記的計(jì)算開(kāi)銷很小。同時(shí),由于不需要額外的數(shù)據(jù)標(biāo)注,LIVR大大降低了數(shù)據(jù)準(zhǔn)備的成本和復(fù)雜度。

八、技術(shù)細(xì)節(jié)與設(shè)計(jì)哲學(xué)

LIVR方法的成功不僅在于其創(chuàng)新的核心思想,更在于其精心設(shè)計(jì)的技術(shù)細(xì)節(jié)。這些看似微小的設(shè)計(jì)選擇,實(shí)際上體現(xiàn)了研究團(tuán)隊(duì)對(duì)視覺(jué)學(xué)習(xí)本質(zhì)的深刻理解。

在模型架構(gòu)方面,LIVR采用了一種極簡(jiǎn)主義的設(shè)計(jì)理念。研究團(tuán)隊(duì)沒(méi)有對(duì)現(xiàn)有的模型結(jié)構(gòu)進(jìn)行大幅修改,而是只在詞匯表中添加了少量的潛在標(biāo)記,并在訓(xùn)練過(guò)程中引入了特殊的注意力掩碼機(jī)制。這種設(shè)計(jì)使得LIVR可以很容易地應(yīng)用到各種現(xiàn)有的多模態(tài)模型上,而不需要重新設(shè)計(jì)整個(gè)架構(gòu)。

潛在標(biāo)記的初始化策略也經(jīng)過(guò)了仔細(xì)考慮。研究團(tuán)隊(duì)選擇隨機(jī)初始化這些標(biāo)記,而不是使用預(yù)訓(xùn)練的嵌入。這個(gè)看似簡(jiǎn)單的選擇實(shí)際上很有深意:隨機(jī)初始化確保了潛在標(biāo)記是一張"白紙",可以完全根據(jù)任務(wù)需求來(lái)學(xué)習(xí)最適合的表示,而不受任何預(yù)定義知識(shí)的束縛。

訓(xùn)練策略的設(shè)計(jì)同樣體現(xiàn)了深思熟慮。兩階段訓(xùn)練不是簡(jiǎn)單的技術(shù)選擇,而是基于對(duì)學(xué)習(xí)過(guò)程的深入理解。第一階段的視覺(jué)瓶頸訓(xùn)練迫使模型在極限條件下學(xué)習(xí)視覺(jué)抽象,就像運(yùn)動(dòng)員在高原訓(xùn)練一樣,在困難條件下鍛煉能力。第二階段的聯(lián)合訓(xùn)練則讓模型學(xué)會(huì)在正常條件下發(fā)揮這些能力,實(shí)現(xiàn)理論與實(shí)踐的結(jié)合。

在優(yōu)化細(xì)節(jié)上,研究團(tuán)隊(duì)采用了LoRA(低秩適應(yīng))技術(shù)來(lái)微調(diào)模型參數(shù)。這種選擇既保證了訓(xùn)練效率,又避免了過(guò)擬合的風(fēng)險(xiǎn)。同時(shí),研究團(tuán)隊(duì)只解凍潛在標(biāo)記對(duì)應(yīng)的嵌入?yún)?shù),而保持其他預(yù)訓(xùn)練參數(shù)凍結(jié),這確保了新學(xué)到的視覺(jué)表示能夠與已有的知識(shí)和諧共存。

注意力掩碼的設(shè)計(jì)是LIVR的技術(shù)核心之一。研究團(tuán)隊(duì)發(fā)現(xiàn),簡(jiǎn)單地阻止答案標(biāo)記訪問(wèn)圖像標(biāo)記是不夠的,還需要阻止提示標(biāo)記訪問(wèn)圖像標(biāo)記。這種看似嚴(yán)格的限制實(shí)際上是必要的,因?yàn)槿魏?信息泄露"都可能讓模型繞過(guò)潛在標(biāo)記,從而無(wú)法學(xué)會(huì)真正有用的視覺(jué)抽象。

在實(shí)驗(yàn)設(shè)計(jì)方面,研究團(tuán)隊(duì)展現(xiàn)了科學(xué)研究的嚴(yán)謹(jǐn)態(tài)度。他們不僅測(cè)試了不同的基礎(chǔ)模型,還在單任務(wù)和多任務(wù)兩種設(shè)置下驗(yàn)證了方法的有效性。更重要的是,他們進(jìn)行了大量的消融實(shí)驗(yàn)來(lái)驗(yàn)證每個(gè)組件的必要性,這種做法確保了研究結(jié)論的可靠性和可重現(xiàn)性。

數(shù)據(jù)處理方面的考慮也很周到。為了避免訓(xùn)練集和測(cè)試集之間的數(shù)據(jù)泄露,研究團(tuán)隊(duì)使用了多種技術(shù)手段來(lái)檢測(cè)和去除重復(fù)樣本,包括CLIP嵌入相似性檢測(cè)、感知哈希和SSIM相似度檢測(cè)等。這種多層次的去重策略確保了實(shí)驗(yàn)結(jié)果的公正性。

九、深遠(yuǎn)影響與未來(lái)展望

LIVR方法的成功不僅僅是一個(gè)技術(shù)突破,更重要的是它為整個(gè)人工智能領(lǐng)域提供了新的思路和可能性。這種影響是多方面的,既有直接的技術(shù)應(yīng)用,也有深層的理論啟發(fā)。

從技術(shù)應(yīng)用的角度來(lái)看,LIVR為現(xiàn)有的多模態(tài)AI系統(tǒng)提供了一個(gè)簡(jiǎn)單而有效的升級(jí)方案。由于其設(shè)計(jì)的通用性,LIVR可以很容易地集成到各種現(xiàn)有的模型架構(gòu)中,而不需要重新設(shè)計(jì)整個(gè)系統(tǒng)。這意味著當(dāng)前已經(jīng)部署的AI系統(tǒng)可以通過(guò)相對(duì)簡(jiǎn)單的改進(jìn)來(lái)獲得顯著的性能提升。

在實(shí)際應(yīng)用場(chǎng)景中,LIVR的潛力是巨大的。在自動(dòng)駕駛領(lǐng)域,LIVR可以幫助AI更好地理解復(fù)雜的交通場(chǎng)景,識(shí)別潛在的危險(xiǎn)情況。在醫(yī)療影像分析中,LIVR可以讓AI學(xué)會(huì)關(guān)注人類醫(yī)生可能忽略的細(xì)微特征,提高診斷的準(zhǔn)確性。在工業(yè)質(zhì)檢中,LIVR可以幫助AI發(fā)現(xiàn)產(chǎn)品缺陷的視覺(jué)模式,提高檢測(cè)效率和準(zhǔn)確性。

從教育的角度來(lái)看,LIVR為AI教學(xué)提供了新的可能性。傳統(tǒng)的機(jī)器學(xué)習(xí)教學(xué)往往強(qiáng)調(diào)特征工程的重要性,即人工設(shè)計(jì)和選擇合適的特征。LIVR的成功表明,在某些情況下,讓模型自主學(xué)習(xí)表示可能比人工設(shè)計(jì)更加有效。這種觀念的轉(zhuǎn)變可能會(huì)影響AI教育的課程設(shè)置和教學(xué)方法。

更深層次地,LIVR的成功挑戰(zhàn)了我們對(duì)AI學(xué)習(xí)能力的一些既定認(rèn)知。長(zhǎng)期以來(lái),人們普遍認(rèn)為AI需要大量的標(biāo)注數(shù)據(jù)和明確的監(jiān)督信號(hào)才能學(xué)會(huì)復(fù)雜的技能。LIVR的實(shí)驗(yàn)結(jié)果表明,在適當(dāng)?shù)脑O(shè)計(jì)框架下,AI可以自主發(fā)現(xiàn)和學(xué)習(xí)復(fù)雜的視覺(jué)表示,這種能力甚至可能超越人類設(shè)計(jì)的監(jiān)督信號(hào)。

這一發(fā)現(xiàn)對(duì)認(rèn)知科學(xué)也有重要啟發(fā)。人類視覺(jué)系統(tǒng)的一個(gè)重要特征就是能夠在沒(méi)有明確指導(dǎo)的情況下學(xué)會(huì)識(shí)別和理解復(fù)雜的視覺(jué)模式。LIVR在某種程度上復(fù)現(xiàn)了這種能力,這為我們理解人類視覺(jué)認(rèn)知提供了新的計(jì)算模型。

當(dāng)然,LIVR方法目前也存在一些局限性。首先,潛在標(biāo)記學(xué)到的表示相對(duì)于文本解釋來(lái)說(shuō)可解釋性較差,這在某些需要高度透明度的應(yīng)用場(chǎng)景中可能是一個(gè)問(wèn)題。其次,當(dāng)前的實(shí)驗(yàn)主要集中在相對(duì)較小的模型和數(shù)據(jù)集上,如何將LIVR擴(kuò)展到更大規(guī)模的模型和數(shù)據(jù)集仍需要進(jìn)一步研究。

未來(lái)的研究方向是多樣而有趣的。一個(gè)重要的方向是探索如何增加潛在標(biāo)記的可解釋性,比如通過(guò)可視化或其他技術(shù)手段來(lái)理解這些標(biāo)記編碼了什么樣的視覺(jué)信息。另一個(gè)方向是研究如何將LIVR的思想應(yīng)用到其他模態(tài),比如音頻或文本,探索跨模態(tài)的隱式表示學(xué)習(xí)。

還有一個(gè)有趣的方向是研究潛在標(biāo)記之間的交互和協(xié)作機(jī)制。當(dāng)前的LIVR方法中,不同的潛在標(biāo)記相對(duì)獨(dú)立地編碼視覺(jué)信息。未來(lái)可能可以設(shè)計(jì)更復(fù)雜的交互機(jī)制,讓潛在標(biāo)記之間形成某種"分工合作"的關(guān)系,進(jìn)一步提高表示的效率和效果。

在實(shí)際部署方面,如何降低LIVR的計(jì)算成本也是一個(gè)重要的研究方向。雖然潛在標(biāo)記的計(jì)算開(kāi)銷相對(duì)較小,但在大規(guī)模應(yīng)用中,這些開(kāi)銷仍然可能累積成顯著的成本。研究更高效的潛在標(biāo)記設(shè)計(jì)和訓(xùn)練方法,對(duì)于LIVR的實(shí)際應(yīng)用具有重要意義。

最后,LIVR的成功也啟發(fā)我們思考AI發(fā)展的更大趨勢(shì)。隨著模型規(guī)模的不斷增大和計(jì)算能力的不斷提升,AI系統(tǒng)可能會(huì)展現(xiàn)出越來(lái)越多的自主學(xué)習(xí)和發(fā)現(xiàn)能力。如何引導(dǎo)和利用這些能力,確保AI的發(fā)展方向符合人類的價(jià)值觀和需求,是整個(gè)AI社區(qū)需要認(rèn)真思考的重要問(wèn)題。

說(shuō)到底,LIVR代表的不僅僅是一個(gè)技術(shù)改進(jìn),更是一種新的AI設(shè)計(jì)理念的體現(xiàn)。它告訴我們,有時(shí)候最好的教學(xué)方法不是告訴AI應(yīng)該學(xué)什么,而是創(chuàng)造合適的環(huán)境讓AI自己去發(fā)現(xiàn)和學(xué)習(xí)。這種理念可能會(huì)在未來(lái)的AI發(fā)展中發(fā)揮越來(lái)越重要的作用,推動(dòng)AI向更加智能、更加自主的方向發(fā)展。

這項(xiàng)來(lái)自加州伯克利大學(xué)等機(jī)構(gòu)的研究,通過(guò)LIVR方法的成功驗(yàn)證,為我們打開(kāi)了一扇通向更智能AI的大門(mén)。雖然我們還無(wú)法預(yù)測(cè)這扇門(mén)后面的世界會(huì)是什么樣子,但可以確定的是,這將是一個(gè)充滿可能性和驚喜的世界。對(duì)于想要深入了解這項(xiàng)研究技術(shù)細(xì)節(jié)的讀者,可以通過(guò)arXiv:2512.21218v1這個(gè)編號(hào)查詢和下載完整的原始論文。

Q&A

Q1:潛在隱式視覺(jué)推理LIVR和傳統(tǒng)的AI視覺(jué)方法有什么根本區(qū)別?

A:傳統(tǒng)方法要求AI將所有視覺(jué)信息轉(zhuǎn)換成文字描述再進(jìn)行推理,就像蒙著眼睛通過(guò)別人的描述理解畫(huà)面。LIVR則讓AI學(xué)會(huì)直接用"視覺(jué)思維"處理圖像,通過(guò)潛在標(biāo)記自主學(xué)習(xí)有用的視覺(jué)表示,不需要人工預(yù)定義什么是重要的視覺(jué)特征。

Q2:LIVR方法為什么能在九種不同的視覺(jué)任務(wù)上都取得顯著提升?

A:LIVR的核心優(yōu)勢(shì)在于它的任務(wù)無(wú)關(guān)性。通過(guò)視覺(jué)瓶頸機(jī)制,模型被迫學(xué)會(huì)將真正重要的視覺(jué)信息編碼到潛在標(biāo)記中,這些標(biāo)記學(xué)到的表示具有很強(qiáng)的通用性,可以跨任務(wù)傳遞有用的視覺(jué)知識(shí),而不是針對(duì)特定任務(wù)的固化特征。

Q3:普通用戶什么時(shí)候能用上基于LIVR技術(shù)的AI產(chǎn)品?

A:目前LIVR還處于研究階段,但由于其設(shè)計(jì)的通用性,可以很容易地集成到現(xiàn)有的多模態(tài)AI系統(tǒng)中。預(yù)計(jì)在不久的將來(lái),我們就能在智能助手、自動(dòng)駕駛、醫(yī)療診斷等領(lǐng)域看到基于LIVR技術(shù)的AI產(chǎn)品,這些產(chǎn)品將具備更強(qiáng)的視覺(jué)理解和推理能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國(guó)攔截售臺(tái)武器,會(huì)發(fā)生什么?

“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國(guó)攔截售臺(tái)武器,會(huì)發(fā)生什么?

扶蘇聊歷史
2025-12-27 10:30:21
俄羅斯運(yùn)輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

俄羅斯運(yùn)輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

史政先鋒
2025-12-31 21:38:56
下月起,看病開(kāi)藥新規(guī)!6類藥超7天全自費(fèi),慢病一次開(kāi)3個(gè)月

下月起,看病開(kāi)藥新規(guī)!6類藥超7天全自費(fèi),慢病一次開(kāi)3個(gè)月

蜉蝣說(shuō)
2025-12-30 11:59:54
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報(bào)的真相太炸裂

滄海一書(shū)客
2025-12-25 19:27:44
剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

天津人
2025-12-31 22:59:53
攤牌了!徐帆回應(yīng)婚變傳聞才4個(gè)月左右 ,馮小剛就連演都懶得演了

攤牌了!徐帆回應(yīng)婚變傳聞才4個(gè)月左右 ,馮小剛就連演都懶得演了

阿廢冷眼觀察所
2025-12-10 06:53:04
孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國(guó)乒教練組競(jìng)聘已結(jié)束

孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國(guó)乒教練組競(jìng)聘已結(jié)束

三十年萊斯特城球迷
2025-12-31 22:34:39
浙江足協(xié)官方:寧波職業(yè)足球俱樂(lè)部成立,新賽季亮相中甲

浙江足協(xié)官方:寧波職業(yè)足球俱樂(lè)部成立,新賽季亮相中甲

懂球帝
2025-12-31 14:41:11
李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個(gè)人

李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個(gè)人

璀璨幻行者
2026-01-01 01:51:57
隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

止境
2026-01-01 00:43:43
李在明動(dòng)身訪華前,先給了中國(guó)一記下馬威,高市早苗卻笑不出來(lái)?

李在明動(dòng)身訪華前,先給了中國(guó)一記下馬威,高市早苗卻笑不出來(lái)?

策前論
2025-12-31 18:05:08
美媒評(píng)各隊(duì)2025年最后悔決策:開(kāi)拓者選瀚森在列 失誤比助攻還多

美媒評(píng)各隊(duì)2025年最后悔決策:開(kāi)拓者選瀚森在列 失誤比助攻還多

羅說(shuō)NBA
2025-12-31 21:38:12
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
洛克希德·馬丁生產(chǎn)線停了,是中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)。

洛克希德·馬丁生產(chǎn)線停了,是中國(guó)凍結(jié)了他們?cè)谌A的全部資產(chǎn)。

百態(tài)人間
2025-12-31 16:18:36
36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

瓜汁橘長(zhǎng)Dr
2025-12-29 17:52:06
在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個(gè)股受影響

在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個(gè)股受影響

股市皆大事
2025-12-31 20:52:15
回國(guó)后我才敢說(shuō):越南是我去過(guò)的所有國(guó)家中,最被低估的

回國(guó)后我才敢說(shuō):越南是我去過(guò)的所有國(guó)家中,最被低估的

阿纂看事
2025-12-29 09:43:52
被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號(hào):我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
洗浴中心成跨年熱門(mén)目的地,KTV一房難求,長(zhǎng)沙進(jìn)入全國(guó)休閑玩樂(lè)交易規(guī)模前十城市

洗浴中心成跨年熱門(mén)目的地,KTV一房難求,長(zhǎng)沙進(jìn)入全國(guó)休閑玩樂(lè)交易規(guī)模前十城市

瀟湘晨報(bào)
2025-12-31 20:38:14
這4個(gè)器官“用得勤”的人,更長(zhǎng)壽

這4個(gè)器官“用得勤”的人,更長(zhǎng)壽

大象新聞
2025-05-20 19:23:04
2026-01-01 03:03:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

體育要聞

布基納法索2-0蘇丹,拉西納-特拉奧雷破門(mén),阿爾塞納-夸西鎖定勝局

娛樂(lè)要聞

官宣才兩天就翻車(chē)?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車(chē)要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬(wàn)/33寸曲面屏

態(tài)度原創(chuàng)

健康
房產(chǎn)
數(shù)碼
旅游
公開(kāi)課

元旦舉家出行,注意防流感

房產(chǎn)要聞

終于等來(lái)了!2026年首個(gè)買(mǎi)房大利好

數(shù)碼要聞

三星將在CES 2026發(fā)布廚房家電陣容,首次將谷歌Gemini塞進(jìn)冰箱

旅游要聞

香港舉行“新希望、新開(kāi)始”跨年倒數(shù)活動(dòng)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版