国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

雷軍最新發(fā)文:小米7篇論文入選AAAI

0
分享至


12月1日晚,雷軍 發(fā)文稱,“人工智能領(lǐng)域的國際頂級會(huì)議AAAI,致力于推動(dòng)人工智能領(lǐng)域的學(xué)術(shù)研究與創(chuàng)新發(fā)展。AAAI 2026,小米共有7篇最新研究成果成功入選,涵蓋了音效編輯、具身智能3D Agent、檢索、推斷解碼、語 音問答、VLN導(dǎo)航、自動(dòng)駕駛等。這是小米大模型和具身智能部分研究成果的階段性展示,也踐行小米科技戰(zhàn)略‘深耕底層技術(shù)、長期持續(xù)投入’?!?/p>


AAAI 是人工智能領(lǐng)域的國際頂級會(huì)議之一,由人工智能促進(jìn)協(xié)會(huì)(Association for the Advancement of Artificial Intelligence)主辦,在中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦會(huì)議列表中被列為 A 類會(huì)議。AAAI 致力于推動(dòng)人工智能領(lǐng)域的學(xué)術(shù)研究與創(chuàng)新發(fā)展,每年舉辦一次,AAAI 2026 是該會(huì)議的第40屆,共收到創(chuàng)紀(jì)錄的23680篇有效投稿,總共4167篇論文被錄取,錄取率17.6%。該會(huì)議于2026年1月20日至27日在新加坡博覽中心舉辦。

論文簡介

AV-Edit: Multimodal Generative Sound Effect Editing via Audio-Visual Semantic Joint Control

論文作者:郭新月,楊曉冉,張李攀,楊劍軒,王昭,欒劍

錄用類型:主會(huì)

論文鏈接:https://arxiv.org/abs/2511.21146

音效編輯——即通過添加、移除或替換元素來修改音頻——目前仍受限于僅依賴低級信號處理或粗粒度文本提示的傳統(tǒng)方法,這往往導(dǎo)致編輯靈活性有限且音質(zhì)欠佳。為此,我們提出 AV-Edit 這一生成式音效編輯框架,通過聯(lián)合利用視覺、音頻與文本語義,實(shí)現(xiàn)對視頻中現(xiàn)有音軌的細(xì)粒度編輯。

具體而言,該方法采用專門設(shè)計(jì)的對比式視聽掩碼自編碼器(CAV-MAE-Edit)進(jìn)行多模態(tài)預(yù)訓(xùn)練,學(xué)習(xí)對齊的跨模態(tài)表征。這些表征隨后用于訓(xùn)練編輯型多模態(tài)擴(kuò)散 Transformer(MM-DiT),通過基于關(guān)聯(lián)的訓(xùn)練策略,能夠消除視覺無關(guān)的音效并生成與視頻內(nèi)容一致的缺失音頻元素。此外,我們構(gòu)建了專門的視頻音效編輯數(shù)據(jù)集作為評估基準(zhǔn)。

實(shí)驗(yàn)表明,所提出的 AV-Edit 能基于視覺內(nèi)容生成具有精確修改的高質(zhì)量音頻,在音效編輯與音頻生成領(lǐng)域?qū)崿F(xiàn)了最先進(jìn)的性能表現(xiàn)。

作為小米在視頻音效領(lǐng)域的首篇頂會(huì)論文,生成式音效編輯填補(bǔ)了傳統(tǒng)方法在細(xì)粒度編輯、多模態(tài)語義對齊上的空白,突破了僅靠低級信號處理或粗粒度提示的局限;落地手機(jī)等產(chǎn)品后,能讓普通用戶便捷實(shí)現(xiàn)專業(yè)級音效修改(如短視頻精準(zhǔn)加/消音),大幅降低創(chuàng)作門檻,重塑移動(dòng)端音視頻編輯體驗(yàn)。



《Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution

*表示共同第一作者

論文作者:梁定康*,張誠*,許小鵬,鞠建忠,羅振波,白翔

錄用類型:主會(huì),口頭報(bào)告(Oral)

論文鏈接:https://arxiv.org/abs/2511.19430

在具身智能(Embodied AI)時(shí)代,讓智能體在 3D 物理世界中高效執(zhí)行復(fù)雜任務(wù)至關(guān)重要。然而,現(xiàn)有的任務(wù)規(guī)劃研究大多被過度簡化,模型只能逐一執(zhí)行指令,缺乏利用“運(yùn)籌學(xué)知識(Operations Research Knowledge)” 進(jìn)行效率優(yōu)化的能力。

例如,具身智能體在執(zhí)行“使用微波爐” 這樣的并行任務(wù)時(shí),無法利用等待時(shí)間去執(zhí)行“洗水槽” 或“擦柜臺” 等其他工作,導(dǎo)致總時(shí)長遠(yuǎn)非最優(yōu)。同時(shí),這些規(guī)劃往往缺乏在 3D 空間中的視覺定位能力(3D grounding),難以在真實(shí)世界中執(zhí)行。

為解決“任務(wù)效率”與“ 3D 視覺定位”難題,本文首次定義了基于運(yùn)籌學(xué)知識的 3D Grounding 調(diào)度這一任務(wù)。為推動(dòng)該任務(wù)研究,本文構(gòu)建了大規(guī)模數(shù)據(jù)集 ORS3D-60K(包含 4K 真實(shí)場景中的 60K 個(gè)任務(wù))。

此外,本文提出了一個(gè)名為 GRANT 的具身多模態(tài)大語言模型。GRANT 的核心是一個(gè)簡潔高效的 “調(diào)度令牌機(jī)制” (Scheduling Token Mechanism, STM)。模型不再自己盲目規(guī)劃,而是首先識別任務(wù)屬性(如“并行”或“非并行”),然后通過一個(gè)特殊的 令牌調(diào)用外部優(yōu)化求解器,生成“最優(yōu)執(zhí)行序列”。該序列隨后被注入模型,引導(dǎo)其生成高效且在 3D 空間中精確定位的步驟化行動(dòng)。

實(shí)驗(yàn)證明,GRANT 在任務(wù)調(diào)度效率上相比基線方法取得了高達(dá) 30.53% 的顯著提升,同時(shí)在 3D grounding 準(zhǔn)確率上也獲得增益,驗(yàn)證了其在空間理解、3D grounding 和調(diào)度效率方面的全面有效性。


《AutoLink: Autonomous Schema Exploration and Expansion for Scalable Schema Linking in Text-to-SQL at Scale

本文受小米揭榜掛帥科研專項(xiàng)支持

*表示共同第一作者

論文作者:王資洋*,鄭元雷*,曹振彪,張曉今,魏忠鈺,付培,羅振波,陳偉,白翔

錄用類型:主會(huì)

論文鏈接:https://arxiv.org/abs/2511.17190

在工業(yè)級 Text-to-SQL 場景中,數(shù)據(jù)庫規(guī)模往往極為龐大(動(dòng)輒數(shù)百至數(shù)千列),將完整模式直接輸入大語言模型不僅會(huì)引入大量無關(guān)噪聲,而且容易觸發(fā)上下文長度限制,從而影響 SQL 生成的準(zhǔn)確性。因此,如何在不暴露完整數(shù)據(jù)庫結(jié)構(gòu)的前提下,高召回地篩選出與用戶問題相關(guān)的模式子集(Schema Linking)成為核心難點(diǎn)。

為解決這一問題,本文提出 AutoLink,一種由大模型驅(qū)動(dòng)的自適應(yīng)、逐步式模式連接框架。AutoLink 不再一次性提供全量模式,而是模擬數(shù)據(jù)庫工程師的探索式工作方式,在數(shù)據(jù)庫環(huán)境與向量檢索環(huán)境之間進(jìn)行多輪交互,通過“檢索→探索→驗(yàn)證→擴(kuò)展”的迭代過程,動(dòng)態(tài)構(gòu)建與問題相關(guān)的模式子集,實(shí)現(xiàn)高召回與低噪聲的平衡。

該框架不需要遍歷全模式,也無需將數(shù)據(jù)庫完整結(jié)構(gòu)輸入語言模型,具備高度可擴(kuò)展性。實(shí)驗(yàn)結(jié)果表明,AutoLink 在多個(gè)主流基準(zhǔn)上取得了顯著優(yōu)勢:在 Bird-Dev 上實(shí)現(xiàn) 97.4% 的嚴(yán)格模式召回率(SRR),在大規(guī)模 Spider 2.0-Lite 上達(dá)到 91.2% 的 SRR,均為當(dāng)前最優(yōu)表現(xiàn)。

同時(shí),AutoLink 在保持高執(zhí)行準(zhǔn)確率的前提下顯著降低 Token 消耗,即便在擁有 3000+ 列的超大數(shù)據(jù)庫中依舊保持穩(wěn)定性能,展示了工業(yè)級可落地的魯棒性與可擴(kuò)展性。


《Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios》

本文受小米揭榜掛帥科研專項(xiàng)支持

論文作者:史洛合,李祖超,張樂飛,齊保元,劉國明

錄用類型:主會(huì),口頭報(bào)告(Oral)

論文鏈接:https://arxiv.org/abs/2511.20340

大語言模型(Large Language Models, LLMs)自回歸解碼由于其低運(yùn)算強(qiáng)度常出現(xiàn)訪存帶寬瓶頸并浪費(fèi)算力。投機(jī)解碼(Speculative Decoding)通過草稿模型猜測后續(xù) token 以增強(qiáng)主模型的并行性。目前的主要研究方法通過擴(kuò)充草稿 token 數(shù)量來增強(qiáng)準(zhǔn)確率,在單樣本下行取得了很好的效果。

誠然,在一定的批大小下,這類方法性能迅速退化,由于在可供使用的冗余算力減小的同時(shí),每個(gè)樣本能夠分配到的草稿 token 數(shù)量也快速降低,同時(shí)串行生成草稿 token 也會(huì)占據(jù)過多時(shí)間。

通過分析這些問題,我們提出了一種新的并行草稿 token 生成算 SpecFormer。通過將單向和雙向的兩個(gè) Transformer 層堆疊,并在輸入 token 和草稿 token 兩個(gè)維度上進(jìn)行注意力運(yùn)算,我們可以基于完整的輸入序列進(jìn)行預(yù)測,并且并行化的生成全部的草稿 token。

SpecFormer 是一個(gè)具有更強(qiáng)語言建模能力并且并行化的草稿模型,可以高質(zhì)高效的完成草稿 token 預(yù)測任務(wù),并且在較為有限的條件下,也就是中大批大小下,得到更佳的預(yù)測質(zhì)量,同時(shí)減少草稿 token 運(yùn)行時(shí)間,總體上得到更好的加速效果。


《End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering》

本文受小米揭榜掛帥科研專項(xiàng)支持

論文作者:胡繼亮,李祖超,齊保元,劉國明,王平

錄用類型:主會(huì)

論文鏈接:https://arxiv.org/abs/2511.09282

近年來,語音問答(SQA)領(lǐng)域取得了顯著進(jìn)展。然而,包括大型音頻語言模型(LALM)在內(nèi)的許多現(xiàn)有方法在處理長音頻時(shí)仍面臨困難。隨著檢索增強(qiáng)生成技術(shù)的成功,語音相關(guān)檢索器在預(yù)處理長語音方面展現(xiàn)出潛力,但現(xiàn)有語音檢索器的性能仍有不足。

為應(yīng)對這一挑戰(zhàn),我們提出了 CLSR——一種端到端的對比式語音-語言檢索器,能夠高效地從長音頻錄音中提取與問題相關(guān)的片段,以支持下游語音問答任務(wù)。

與傳統(tǒng)語音-文本對比模型不同,CLSR在模態(tài)對齊前引入了將聲學(xué)特征轉(zhuǎn)換為類文本表征的中間步驟,從而更有效地彌合模態(tài)差異。

在四個(gè)跨模態(tài)檢索數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,CLSR 既優(yōu)于端到端的語音相關(guān)檢索器,也超越了結(jié)合語音識別與文本檢索的流水線方法,為推進(jìn)實(shí)用型長語音問答應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。



《What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions

*表示共同第一作者 ?表示共同通訊作者

論文作者:張凌峰*,傅昊翔*,郝孝帥?,張書逸,張強(qiáng),劉瑞,陳龍,丁文伯?

錄用類型:主會(huì)

論文鏈接:https://openreview.net/pdf?id=ow65qpDY3Q

本文提出了空間導(dǎo)航(Spatial Navigation)任務(wù),使智能體能夠理解“在沙發(fā)左側(cè)空地等我”等高級人類指令并完成相應(yīng)的導(dǎo)航。

與傳統(tǒng)方法僅限于識別預(yù)定義物體類別或執(zhí)行詳細(xì)路徑指令不同,該任務(wù)要求智能體結(jié)合空間關(guān)系推理,完成空間物體導(dǎo)航(SpON)和空間區(qū)域?qū)Ш剑⊿pAN)兩類任務(wù)。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含10,000條軌跡的數(shù)據(jù)集,并提出了 SpNav 分層框架。該框架通過視覺-語言模型解析指令,利用專門訓(xùn)練的 NaviPoint 模型進(jìn)行目標(biāo)定位,最后基于地圖的 Map-to-Action 模塊實(shí)現(xiàn)精確導(dǎo)航。

實(shí)驗(yàn)結(jié)果表明,SpNav 在導(dǎo)航性能上達(dá)到了當(dāng)前最先進(jìn)水平(SOTA),超越了之前的最佳基線,并且在真實(shí)環(huán)境中實(shí)現(xiàn)了零樣本遷移。

這項(xiàng)工作首次系統(tǒng)地解決了具身導(dǎo)航中復(fù)雜空間關(guān)系理解與高級指令解析的結(jié)合問題,為家庭服務(wù)機(jī)器人等實(shí)際應(yīng)用中的自然人機(jī)互動(dòng)奠定了基礎(chǔ)。


《VILTA:A VLA-in-the-Loop Adversary for Enhancing Driving Policy Robustness》

論文作者:陳其茂,李方,徐少清,賴志懿,謝子勛,羅悅晨,蔣盛銀,李漢冰,陳龍,王兵,張毅,楊志新

錄用類型:主會(huì)

當(dāng)前,自動(dòng)駕駛領(lǐng)域的開源數(shù)據(jù)集在豐富性方面仍顯不足。盡管策略網(wǎng)絡(luò)在常規(guī)場景中的學(xué)習(xí)性能已趨于收斂,但在長尾困難場景下的表現(xiàn)依然有限。

為此,本文提出 VILTA(VLA-in-the-Loop Trajectory Adversary),旨在解決長尾場景數(shù)據(jù)稀缺以及現(xiàn)有生成方法多樣性不足的問題。VILTA 創(chuàng)新性地將視覺語言模型(VLM)直接嵌入訓(xùn)練閉環(huán),構(gòu)建了一種“視覺–語言–編輯”(Vision-Language-Editing)的新范式。

該方法充分利用 VLM 強(qiáng)大的場景理解能力,對周圍車輛的未來軌跡進(jìn)行精細(xì)化的對抗性編輯,摒棄了傳統(tǒng)兩階段生成流程。同時(shí),通過引入后處理機(jī)制確保生成軌跡的運(yùn)動(dòng)學(xué)可行性,從而能夠高效生成既符合物理規(guī)律又極具挑戰(zhàn)性的多樣化駕駛場景。

在 CARLA 仿真環(huán)境中的實(shí)驗(yàn)表明,經(jīng)強(qiáng)化學(xué)習(xí)優(yōu)化后的策略顯著降低了碰撞率,大幅提升了自動(dòng)駕駛系統(tǒng)在極端場景下的魯棒性,為端到端策略在長尾場景中的優(yōu)化提供了有效驗(yàn)證與可行路徑。


編輯、審核:艾克旦

版權(quán)聲明:本文由“TOP大學(xué)來了”綜合自“小米技術(shù)、微博@雷軍、募格學(xué)術(shù)”,文章轉(zhuǎn)載只為學(xué)術(shù)傳播,如涉及侵權(quán)問題,請聯(lián)系我們,我們將及時(shí)修改或刪除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
美國經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日報(bào)》

美國經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日報(bào)》

那些看得見的老照片
2025-12-17 17:13:44
太難了!東莞一工廠發(fā)新員工工資核算標(biāo)準(zhǔn),入職滿一月僅92元一天

太難了!東莞一工廠發(fā)新員工工資核算標(biāo)準(zhǔn),入職滿一月僅92元一天

火山詩話
2025-12-15 03:50:34
剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰給的自信?

剛復(fù)出就開演唱會(huì),票價(jià)賣到1280,到底誰給的自信?

易同學(xué)愛談娛樂
2025-07-02 08:32:15
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報(bào)
2025-12-14 22:36:54
孫穎莎再次被點(diǎn)名!人民日報(bào)親自下場,商業(yè)賽事憑什么拿人不當(dāng)人

孫穎莎再次被點(diǎn)名!人民日報(bào)親自下場,商業(yè)賽事憑什么拿人不當(dāng)人

君笙的拂兮
2025-12-19 03:15:22
俄國家杜馬通過新法:俄羅斯官員不用再公開財(cái)產(chǎn)

俄國家杜馬通過新法:俄羅斯官員不用再公開財(cái)產(chǎn)

桂系007
2025-12-19 01:52:39
萬萬沒想到!南博8800萬藏品未平,川博又現(xiàn)“姚元之扇面”迷蹤…

萬萬沒想到!南博8800萬藏品未平,川博又現(xiàn)“姚元之扇面”迷蹤…

火山詩話
2025-12-19 17:35:08
12架日機(jī)攜48彈直撲遼寧艦,美媒直接報(bào)喪:被解放軍全面碾壓

12架日機(jī)攜48彈直撲遼寧艦,美媒直接報(bào)喪:被解放軍全面碾壓

星落山間
2025-12-15 05:10:17
商業(yè)航天進(jìn)入井噴期!火箭、衛(wèi)星、運(yùn)營產(chǎn)業(yè)鏈最強(qiáng)6巨頭名單在此

商業(yè)航天進(jìn)入井噴期!火箭、衛(wèi)星、運(yùn)營產(chǎn)業(yè)鏈最強(qiáng)6巨頭名單在此

小白鴿財(cái)經(jīng)
2025-12-19 07:05:03
1056萬票!樊振東超孫穎莎升第一 甩開王楚欽740萬票 國乒包攬前3

1056萬票!樊振東超孫穎莎升第一 甩開王楚欽740萬票 國乒包攬前3

侃球熊弟
2025-12-20 00:05:03
日本右翼喊話政府,要求沒收中國人房子,日本人在華也不能買房

日本右翼喊話政府,要求沒收中國人房子,日本人在華也不能買房

我心縱橫天地間
2025-12-19 23:27:24
21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

21號就是冬至了!為什么說今年的冬至可不一般,60年一遇?

阿天愛旅行
2025-12-17 00:16:32
《江南春》被賣6800元,馬未都說購買者叫顧客沒問題,否則有嫌疑

《江南春》被賣6800元,馬未都說購買者叫顧客沒問題,否則有嫌疑

漢史趣聞
2025-12-19 17:43:36
官宣!國乒接下來2站賽事的名單出爐,王楚欽輪休,陳俊菘在列!

官宣!國乒接下來2站賽事的名單出爐,王楚欽輪休,陳俊菘在列!

齊帥
2025-12-18 22:53:17
萬豐海岸城檀府開盤55天去化率5%,陳波面臨考驗(yàn)

萬豐海岸城檀府開盤55天去化率5%,陳波面臨考驗(yàn)

地產(chǎn)K線官方
2025-12-19 16:21:07
張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學(xué)良三個(gè)兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
2026收入上漲!中央定調(diào),這6類人補(bǔ)貼細(xì)則全公開,你符合條件嗎

2026收入上漲!中央定調(diào),這6類人補(bǔ)貼細(xì)則全公開,你符合條件嗎

三農(nóng)雷哥
2025-12-18 19:29:54
“澳門王”何賢簡介

“澳門王”何賢簡介

方圓文史
2025-12-19 09:04:18
特朗普再度轉(zhuǎn)向,不要求烏克蘭割土,反而要求俄割讓庫爾斯克

特朗普再度轉(zhuǎn)向,不要求烏克蘭割土,反而要求俄割讓庫爾斯克

高博新視野
2025-12-18 15:56:08
2025-12-20 04:19:00
TOP大學(xué)來了 incentive-icons
TOP大學(xué)來了
高等教育|學(xué)術(shù)|高校與學(xué)科|
10239文章數(shù) 12719關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

頭條要聞

普京:俄方愿在烏克蘭選舉期間暫時(shí)停止打擊

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

日元加息,恐慌來了?貨幣三國殺

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

教育
健康
手機(jī)
公開課
軍事航空

教育要聞

揚(yáng)州大學(xué)廣陵學(xué)院權(quán)威電話!一鍵解決咨詢難題

這些新療法,讓化療不再那么痛苦

手機(jī)要聞

19999起,三星Galaxy Z TriFold迎來首銷

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

無障礙瀏覽 進(jìn)入關(guān)懷版