国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OPPO AI團(tuán)隊(duì)突破:減少70%推理步驟提升AI智能體準(zhǔn)確率

0
分享至


這項(xiàng)由OPPO AI Agent團(tuán)隊(duì)完成的研究發(fā)表于2026年2月,論文編號(hào)為arXiv:2602.22675v1,感興趣的讀者可以通過(guò)該編號(hào)查詢完整論文。研究團(tuán)隊(duì)針對(duì)當(dāng)前深度研究智能體面臨的效率與泛化難題,提出了一個(gè)顛覆性的解決方案。

當(dāng)我們談?wù)揂I智能體時(shí),不妨把它們想象成研究圖書(shū)館里的助手。傳統(tǒng)的AI助手就像一個(gè)按部就班的學(xué)者,遇到問(wèn)題時(shí)會(huì)坐在桌前長(zhǎng)時(shí)間沉思,一步接一步地推理,雖然最終能得出答案,但過(guò)程緩慢且耗費(fèi)大量時(shí)間。而OPPO團(tuán)隊(duì)提出的新方法則像是一個(gè)經(jīng)驗(yàn)豐富的圖書(shū)管理員,面對(duì)復(fù)雜問(wèn)題時(shí)不是埋頭苦思,而是同時(shí)派遣多個(gè)助手到不同的書(shū)架搜集信息,然后快速整合這些信息得出答案。這種"搜索多,思考少"的策略不僅更加高效,而且準(zhǔn)確率還更高。

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:目前的深度研究智能體主要通過(guò)增加推理深度來(lái)提升性能,這就像讓一個(gè)人在解數(shù)學(xué)題時(shí)不斷地在草稿紙上演算更多步驟。雖然這種方法確實(shí)能提高準(zhǔn)確率,但代價(jià)是推理成本和延遲時(shí)間大幅增加。更關(guān)鍵的是,這些智能體在面對(duì)不同類型任務(wù)時(shí)往往表現(xiàn)不佳,就像一個(gè)只會(huì)解代數(shù)題的學(xué)生突然遇到幾何題時(shí)會(huì)手足無(wú)措。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了名為SMTL(Search More, Think Less)的框架。這個(gè)框架的核心理念是用并行的證據(jù)獲取替代順序推理,就像用多線程處理替代單線程處理一樣。在實(shí)際應(yīng)用中,SMTL能夠在最多100次交互步驟內(nèi),將BrowseComp基準(zhǔn)測(cè)試中的平均推理步數(shù)減少70.7%,同時(shí)準(zhǔn)確率從41.2%提升到48.6%。

這項(xiàng)研究的創(chuàng)新之處在于重新定義了智能體解決問(wèn)題的方式。與其讓AI花費(fèi)大量時(shí)間進(jìn)行深度思考,不如讓它高效地搜集更多相關(guān)信息,然后基于這些信息快速做出決策。這種方法不僅適用于確定性的問(wèn)答任務(wù),也能很好地處理開(kāi)放式的研究問(wèn)題,展現(xiàn)出了優(yōu)秀的泛化能力。

一、傳統(tǒng)智能體的困境:深度推理的代價(jià)

當(dāng)前的深度研究智能體面臨著一個(gè)根本性的矛盾。為了提升性能,它們普遍采用增加推理深度和工具調(diào)用次數(shù)的策略,這就像讓一個(gè)廚師為了做出更好的菜而不斷增加烹飪步驟。雖然最終的菜品可能確實(shí)更加精致,但烹飪時(shí)間也會(huì)成倍增長(zhǎng),成本和等待時(shí)間都讓人難以接受。

這種問(wèn)題在搜索密集型場(chǎng)景中表現(xiàn)得尤為突出。傳統(tǒng)智能體在處理復(fù)雜查詢時(shí),往往會(huì)陷入線性、順序化的推理模式。它們像一個(gè)按照嚴(yán)格程序工作的調(diào)查員,必須完成第一步調(diào)查后才能開(kāi)始第二步,每一步都要仔細(xì)分析和思考,整個(gè)過(guò)程雖然嚴(yán)謹(jǐn)?shù)实拖隆?/p>

更令人頭疼的是泛化問(wèn)題。現(xiàn)有的智能搜索任務(wù)可以大致分為兩類:一類是有明確答案的確定性問(wèn)答任務(wù),比如"誰(shuí)是某公司的創(chuàng)始人"這樣的問(wèn)題;另一類是沒(méi)有標(biāo)準(zhǔn)答案的開(kāi)放式研究任務(wù),比如"分析某個(gè)行業(yè)的發(fā)展趨勢(shì)"。這兩類任務(wù)的評(píng)估標(biāo)準(zhǔn)完全不同,前者看重準(zhǔn)確性,后者更注重信息覆蓋面、連貫性和綜合質(zhì)量。

問(wèn)題在于,針對(duì)其中一種任務(wù)訓(xùn)練的智能體往往難以很好地處理另一種任務(wù)。這就像培養(yǎng)了一個(gè)專門回答選擇題的學(xué)生,當(dāng)他面對(duì)開(kāi)放式論述題時(shí)就會(huì)感到無(wú)所適從。這種泛化能力的缺失意味著我們需要為不同任務(wù)類型開(kāi)發(fā)不同的智能體,這顯然不是一個(gè)理想的解決方案。

研究團(tuán)隊(duì)認(rèn)為,現(xiàn)有智能體的主要瓶頸在于過(guò)度依賴線性的順序推理。在搜索任務(wù)中,大量計(jì)算資源被用于模型內(nèi)部的推理過(guò)程,而不是用于獲取外部的有效證據(jù)。這種分配方式就像讓一個(gè)研究員把大部分時(shí)間花在辦公室里冥思苦想,而不是去實(shí)地調(diào)查搜集資料,顯然不是最優(yōu)的策略。

二、并行智能體工作流:同時(shí)處理多個(gè)子任務(wù)

SMTL框架的核心創(chuàng)新在于引入了并行智能體工作流,這種方法完全改變了智能體處理復(fù)雜任務(wù)的方式。傳統(tǒng)方法就像一個(gè)人獨(dú)自完成拼圖,必須一片一片地慢慢拼接,而SMTL則像是召集了一個(gè)團(tuán)隊(duì),每個(gè)成員同時(shí)負(fù)責(zé)拼圖的不同區(qū)域,最后再將各部分整合起來(lái)。

整個(gè)工作流程可以分為三個(gè)核心階段。首先是初始計(jì)劃構(gòu)建階段,智能體會(huì)將復(fù)雜的搜索任務(wù)分解為一系列相互關(guān)聯(lián)但可以并行處理的子任務(wù)。每個(gè)子任務(wù)都對(duì)應(yīng)一個(gè)具體的信息搜尋或驗(yàn)證目標(biāo),比如檢索事實(shí)、驗(yàn)證關(guān)系或搜集證據(jù)。這個(gè)階段的關(guān)鍵是要早期識(shí)別出可以并行執(zhí)行的路徑,為后續(xù)的并發(fā)證據(jù)獲取和更高的信息密度打下基礎(chǔ)。

接下來(lái)是并行執(zhí)行和工具協(xié)調(diào)階段。在每個(gè)時(shí)間步驟中,系統(tǒng)會(huì)從待處理任務(wù)集合中選擇可以執(zhí)行的子任務(wù),同時(shí)利用可用的工具或智能體行動(dòng)來(lái)搜集信息并執(zhí)行推理任務(wù)。通過(guò)并行執(zhí)行多個(gè)待處理子任務(wù),系統(tǒng)能夠加速任務(wù)完成并減少順序瓶頸。系統(tǒng)會(huì)將每次并行執(zhí)行的觀察結(jié)果聚合到一個(gè)統(tǒng)一的推理狀態(tài)中,這個(gè)過(guò)程可以用數(shù)學(xué)公式表示為:下一時(shí)刻的狀態(tài)等于當(dāng)前狀態(tài)與所有并行執(zhí)行動(dòng)作及其觀察結(jié)果的函數(shù)。

在實(shí)踐中,并行執(zhí)行通過(guò)一套有限但可復(fù)用的外部工具來(lái)實(shí)現(xiàn),主要包括網(wǎng)絡(luò)搜索和頁(yè)面抓取功能。這些工具會(huì)在不同的待處理子任務(wù)中重復(fù)調(diào)用,以促進(jìn)并發(fā)的信息獲取和驗(yàn)證過(guò)程。

最后是動(dòng)態(tài)計(jì)劃完善階段。為了確保計(jì)劃能夠適應(yīng)持續(xù)的執(zhí)行過(guò)程,任務(wù)計(jì)劃會(huì)定期更新。已完成的子任務(wù)會(huì)被移除,未解決的依賴關(guān)系會(huì)被重新檢查,可能還會(huì)引入新的子任務(wù)。任務(wù)計(jì)劃會(huì)根據(jù)當(dāng)前執(zhí)行狀態(tài)進(jìn)行完善,其中包括已完成的子任務(wù)信息。這種動(dòng)態(tài)完善確保任務(wù)能夠適應(yīng)進(jìn)展并保持效率。

這種并行工作流的優(yōu)勢(shì)在于它能夠同時(shí)推進(jìn)多個(gè)信息搜集線程,就像一個(gè)新聞編輯部同時(shí)派遣多個(gè)記者去采訪不同的消息源,然后將所有信息匯總形成完整的報(bào)道。相比于傳統(tǒng)的順序方法,這種并行策略能夠顯著提高信息獲取的效率,同時(shí)減少因等待單一任務(wù)完成而造成的時(shí)間浪費(fèi)。

三、數(shù)據(jù)構(gòu)建:統(tǒng)一的多類型搜索任務(wù)生成

為了訓(xùn)練能夠處理多種類型任務(wù)的智能體,研究團(tuán)隊(duì)開(kāi)發(fā)了一套創(chuàng)新的數(shù)據(jù)構(gòu)建管道。這個(gè)管道就像一個(gè)能夠制作各種口味菜肴的萬(wàn)能廚房,不僅能夠處理簡(jiǎn)單的家常菜(確定性問(wèn)答),也能制作復(fù)雜的宴會(huì)大餐(開(kāi)放式研究任務(wù))。

數(shù)據(jù)構(gòu)建過(guò)程從原始語(yǔ)料收集開(kāi)始。研究團(tuán)隊(duì)利用TaskCraft語(yǔ)料庫(kù)中的軌跡數(shù)據(jù),這些軌跡包含了豐富的真實(shí)世界URL集合,涵蓋藝術(shù)、體育、歷史、政府、經(jīng)濟(jì)、政治、音樂(lè)、地理、電影、計(jì)算機(jī)科學(xué)、物理和化學(xué)等多個(gè)領(lǐng)域。關(guān)鍵的是,每個(gè)軌跡中的URL并不是獨(dú)立的,它們通過(guò)明確的信息搜尋路徑相互連接,后續(xù)查詢和資源都建立在從早期資源收集的證據(jù)基礎(chǔ)上。這種結(jié)構(gòu)自然地在文檔間形成了多跳關(guān)系,使得收集的語(yǔ)料庫(kù)非常適合基于圖的任務(wù)構(gòu)建。

接下來(lái)是圖網(wǎng)絡(luò)構(gòu)建階段?;诔跏颊Z(yǔ)料庫(kù),團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)高效的管道來(lái)生成復(fù)雜的圖網(wǎng)絡(luò)。這個(gè)過(guò)程涉及將策劃的文本作物分割成多個(gè)塊,從中讓大語(yǔ)言模型提取實(shí)體及其各自的屬性。通過(guò)集成嵌入加重排檢索機(jī)制,系統(tǒng)能夠回憶相關(guān)塊,使大語(yǔ)言模型能夠綜合詳細(xì)的節(jié)點(diǎn)描述并描繪復(fù)雜的節(jié)點(diǎn)間關(guān)系,最終形成高度復(fù)雜的圖網(wǎng)絡(luò)。

子圖提取是整個(gè)過(guò)程的核心環(huán)節(jié)。給定構(gòu)建的知識(shí)圖,系統(tǒng)使用受控的隨機(jī)游走策略提取任務(wù)特定的子圖。對(duì)于每個(gè)任務(wù),系統(tǒng)會(huì)采樣一個(gè)目標(biāo)實(shí)體作為真實(shí)答案,并執(zhí)行廣度優(yōu)先搜索直到N跳來(lái)收集其周圍鄰域。生成的子圖定義了推斷答案所需的支撐證據(jù)結(jié)構(gòu),其中多跳節(jié)點(diǎn)充當(dāng)具有不同間接程度的問(wèn)題條件。通過(guò)調(diào)整跳數(shù)深度和分支因子,系統(tǒng)可以靈活控制任務(wù)難度,同時(shí)保持語(yǔ)義連貫性和事實(shí)正確性。

為了確保高質(zhì)量的任務(wù)結(jié)構(gòu),團(tuán)隊(duì)采用了嚴(yán)格的設(shè)計(jì)原則。他們優(yōu)先選擇拓?fù)浣Y(jié)構(gòu)豐富的子圖,特別是那些兩個(gè)N+1跳節(jié)點(diǎn)相互關(guān)聯(lián)同時(shí)共享一個(gè)共同N跳父節(jié)點(diǎn)的情況,這樣的結(jié)構(gòu)能夠形成循環(huán)依賴,需要對(duì)多個(gè)關(guān)系進(jìn)行交叉驗(yàn)證。同時(shí),他們明確限制深度和分支因子,以保持任務(wù)難度的可擴(kuò)展性,避免出現(xiàn)瑣碎的快捷方式或過(guò)長(zhǎng)的推理鏈。

在問(wèn)題構(gòu)建方面,團(tuán)隊(duì)采用了分層綜合過(guò)程。給定一個(gè)具有固定目標(biāo)答案的任務(wù)特定子圖,系統(tǒng)從最外層的N跳邊界開(kāi)始,迭代地將i+1跳節(jié)點(diǎn)的信息聚合成關(guān)于i跳實(shí)體的子問(wèn)題。每個(gè)聚合步驟都會(huì)產(chǎn)生一個(gè)有效的中間問(wèn)題,逐步合并所有層次最終產(chǎn)生關(guān)于目標(biāo)實(shí)體的最終問(wèn)題,這個(gè)問(wèn)題需要最大跳數(shù)深度和推理難度。

當(dāng)多個(gè)i+1跳節(jié)點(diǎn)表現(xiàn)出語(yǔ)義關(guān)系時(shí),系統(tǒng)會(huì)明確將這些相互依賴關(guān)系編碼為可驗(yàn)證條件,要求智能體對(duì)并行證據(jù)路徑進(jìn)行交叉驗(yàn)證,而不是依賴線性推理。為了防止信息泄漏,系統(tǒng)在每次綜合迭代后應(yīng)用基于大語(yǔ)言模型的驗(yàn)證步驟;如果答案可以過(guò)早推斷,問(wèn)題會(huì)被重新構(gòu)建或相關(guān)信息會(huì)被混淆。這個(gè)過(guò)程會(huì)重復(fù)直到達(dá)到期望的難度或達(dá)到最多五次迭代。

對(duì)于開(kāi)放式研究任務(wù),數(shù)據(jù)構(gòu)建過(guò)程略有不同。研究問(wèn)題完全在統(tǒng)一的數(shù)據(jù)構(gòu)建管道內(nèi)綜合,不依賴外部策劃的查詢。給定一個(gè)具有固定目標(biāo)實(shí)體及其多跳支撐結(jié)構(gòu)的任務(wù)特定子圖,系統(tǒng)會(huì)制定需要整合整個(gè)子圖中證據(jù)的開(kāi)放式研究問(wèn)題。這些問(wèn)題被設(shè)計(jì)為引發(fā)報(bào)告式答案,涉及解釋、比較和跨多個(gè)來(lái)源的綜合,而不是單一事實(shí)輸出。

四、訓(xùn)練策略:監(jiān)督微調(diào)與強(qiáng)化學(xué)習(xí)的結(jié)合

SMTL的訓(xùn)練過(guò)程就像培養(yǎng)一個(gè)全能的研究助手,需要先讓它掌握基本的搜索技能,然后通過(guò)實(shí)踐反饋來(lái)不斷完善其表現(xiàn)。整個(gè)訓(xùn)練分為兩個(gè)階段:監(jiān)督微調(diào)階段和強(qiáng)化學(xué)習(xí)階段。

監(jiān)督微調(diào)階段的目標(biāo)是讓智能體學(xué)會(huì)穩(wěn)定高效的搜索行為。訓(xùn)練數(shù)據(jù)集包含兩種任務(wù)類別:深度搜索和深度研究,它們?cè)诒O(jiān)督形式上有所不同,但共享相同的基于子圖的構(gòu)建基礎(chǔ)。深度搜索任務(wù)從跳數(shù)深度為2到5的任務(wù)特定子圖中實(shí)例化,對(duì)于每個(gè)子圖,在迭代聚合過(guò)程中構(gòu)建的所有分層問(wèn)題變體都會(huì)被保留,產(chǎn)生多個(gè)共享同一目標(biāo)實(shí)體作為真實(shí)答案的問(wèn)題。為了防止頻繁答案的過(guò)度表示,系統(tǒng)應(yīng)用答案頻率閾值并丟棄目標(biāo)實(shí)體出現(xiàn)過(guò)于頻繁的任務(wù)。

深度研究任務(wù)則更加復(fù)雜。對(duì)于每個(gè)子圖,系統(tǒng)構(gòu)建一個(gè)以目標(biāo)實(shí)體為中心及其多跳支撐結(jié)構(gòu)的開(kāi)放式研究問(wèn)題。問(wèn)題被制定為鼓勵(lì)對(duì)整個(gè)子圖的廣泛探索和綜合,而不是單答案檢索,確保充分的主題豐富性和變化性。

在軌跡構(gòu)建和策劃方面,訓(xùn)練軌跡使用前面描述的智能體工作流生成。對(duì)于深度搜索任務(wù),監(jiān)督通過(guò)蒸餾DeepSeek-V3.2生成的軌跡獲得,而深度研究軌跡則從GPT-5蒸餾而來(lái),反映其更強(qiáng)的長(zhǎng)形式綜合能力。

為了確保高質(zhì)量的監(jiān)督,團(tuán)隊(duì)?wèi)?yīng)用了嚴(yán)格的策劃標(biāo)準(zhǔn)。軌跡總長(zhǎng)度被限制在64K標(biāo)記以減少冗余交互和嘈雜監(jiān)督。平均每步工具調(diào)用數(shù)必須不少于3次,鼓勵(lì)積極的信息獲取。對(duì)于有多個(gè)成功軌跡的任務(wù),系統(tǒng)只保留那些正確且在交互長(zhǎng)度上最短的軌跡,這樣能夠優(yōu)化軌跡效率。

強(qiáng)化學(xué)習(xí)階段采用了稍微修改的REINFORCE Leave-One-Out算法。與GRPO相比,RLOO提供了無(wú)偏的優(yōu)勢(shì)估計(jì)器。團(tuán)隊(duì)的修改包括幾個(gè)關(guān)鍵方面:首先,遵循DAPO的實(shí)現(xiàn),他們采用了標(biāo)記級(jí)損失函數(shù)。其次,為了減輕推理引擎和訓(xùn)練框架在對(duì)數(shù)概率計(jì)算方面差異引起的訓(xùn)練-推理不匹配,他們對(duì)rollout校正應(yīng)用序列級(jí)重要性采樣。第三,為了確保軌跡質(zhì)量,他們過(guò)濾掉某些負(fù)面軌跡,使其不參與優(yōu)勢(shì)估計(jì)或梯度更新。

這些負(fù)面軌跡包括由環(huán)境問(wèn)題(如連接超時(shí)或服務(wù)器錯(cuò)誤)引起的失敗,以及過(guò)長(zhǎng)或達(dá)到最大回合數(shù)的響應(yīng)。這種過(guò)濾策略防止模型學(xué)習(xí)由環(huán)境不穩(wěn)定引起的虛假行為,有效穩(wěn)定訓(xùn)練過(guò)程。

在強(qiáng)化學(xué)習(xí)階段,系統(tǒng)使用基于結(jié)果的獎(jiǎng)勵(lì)優(yōu)化軌跡。大語(yǔ)言模型作為裁判評(píng)估最終答案是否正確,為正確答案分配獎(jiǎng)勵(lì)1,否則為0。值得注意的是,如果工具調(diào)用違反了要求的格式,生成會(huì)立即終止并分配獎(jiǎng)勵(lì)0,從而明確鼓勵(lì)正確的工具使用。

五、實(shí)驗(yàn)結(jié)果:全面超越現(xiàn)有方法

SMTL在多個(gè)基準(zhǔn)測(cè)試中展現(xiàn)出了令人印象深刻的性能表現(xiàn),就像一個(gè)經(jīng)過(guò)精心訓(xùn)練的運(yùn)動(dòng)員在多項(xiàng)比賽中都取得了優(yōu)異成績(jī)。這些結(jié)果不僅證明了并行搜索策略的有效性,也驗(yàn)證了該方法在不同任務(wù)類型間的優(yōu)秀泛化能力。

在深度搜索任務(wù)方面,SMTL表現(xiàn)出了一致的帕累托優(yōu)勢(shì)。以BrowseComp基準(zhǔn)為例,在中等預(yù)算設(shè)置下(SMTL-100),模型已經(jīng)在30B規(guī)模的開(kāi)源智能體模型中達(dá)到了最先進(jìn)的性能,準(zhǔn)確率為43.6%,略超過(guò)Tongyi-DeepResearch-30B的43.4%,明顯優(yōu)于MiroThinker-v1.0-30B的41.2%。在XBench-DeepSearch上達(dá)到了78.0%,在WebWalker-QA上達(dá)到了74.9%。

當(dāng)預(yù)算增加到300步時(shí),性能進(jìn)一步提升,在BrowseComp上的準(zhǔn)確率從43.6%提升到48.6%,增長(zhǎng)了5.0個(gè)百分點(diǎn),大幅拉大了與Tongyi和MiroThinker的差距。相比之下,在較短視野任務(wù)如GAIA(74.8%→75.7%)和WebWalker(74.9%→76.5%)上的提升相對(duì)溫和,這表明額外的交互預(yù)算主要有利于更深層的多步證據(jù)聚合。

從效率角度來(lái)看,SMTL的優(yōu)勢(shì)更加明顯。在BrowseComp上,SMTL-100以平均60.4個(gè)助手步數(shù)達(dá)到了44.6%的準(zhǔn)確率,略優(yōu)于需要75.2步的Tongyi-DeepResearch-30B(43.4%)。與MiroThinker-v1.0-30B的對(duì)比更加鮮明:MiroThinker需要206.0步才能達(dá)到41.2%的準(zhǔn)確率,而SMTL-100用不到三分之一的交互成本就實(shí)現(xiàn)了顯著更高的準(zhǔn)確率。

這種效率提升與SMTL的并行執(zhí)行機(jī)制密切相關(guān)。與每輪只調(diào)用單一工具的順序系統(tǒng)不同,SMTL平均每步執(zhí)行3.5次工具調(diào)用,實(shí)現(xiàn)了跨子任務(wù)的并發(fā)證據(jù)獲取。通過(guò)在每個(gè)交互輪次中聚合更多信息,SMTL提高了每步的信息密度,減少了冗余查詢重新表述,從而產(chǎn)生更短但更有效的軌跡。

在開(kāi)放式深度研究評(píng)估方面,SMTL同樣表現(xiàn)出色。在DeepResearch Bench RACE上,SMTL-100達(dá)到了45.9%的總體得分,在綜合性(42.1%)、洞察力/深度(45.6%)、指令遵循(49.6%)和可讀性(45.5%)方面都表現(xiàn)均衡。這一表現(xiàn)超過(guò)了包括WebSailor-32B(32.4%)、WebDancer-QwQ(35.9%)、WebShaper-32B(34.9%)和AFM-32B-RL(35.8%)在內(nèi)的代表性開(kāi)源智能體基線,也略優(yōu)于Tongyi-DeepResearch-30B(45.7%)和Kimi-Researcher(44.6%),在30B規(guī)模系統(tǒng)中建立了強(qiáng)有力的競(jìng)爭(zhēng)力。

研究團(tuán)隊(duì)還通過(guò)案例研究深入分析了SMTL的效率優(yōu)勢(shì)。在一個(gè)BrowseComp任務(wù)中,SMTL在8個(gè)助手輪次內(nèi)就定位到了關(guān)鍵實(shí)體,而MiroThinker-v1.0需要16個(gè)輪次才能達(dá)到相同的證據(jù)水平。這種差異源于根本不同的搜索組織策略。SMTL將任務(wù)分解為多個(gè)假設(shè)子任務(wù)并并行探索,使智能體能夠快速浮現(xiàn)高信號(hào)證據(jù),并根據(jù)中間觀察定期重新規(guī)劃子任務(wù)。因此,SMTL能夠快速收斂到正確的搜索方向,并將后續(xù)交互分配給證據(jù)驗(yàn)證。相比之下,MiroThinker-v1.0遵循嚴(yán)格的順序交互模式,每輪只允許單一工具調(diào)用,信息收集因此以增量方式進(jìn)行,需要反復(fù)查詢重新表述并延遲關(guān)鍵證據(jù)的發(fā)現(xiàn)。

六、深入分析:為什么"搜索多,思考少"更有效

通過(guò)一系列消融實(shí)驗(yàn),研究團(tuán)隊(duì)深入探索了SMTL成功的根本原因,揭示了在長(zhǎng)視野智能體搜索中一些令人意外的規(guī)律。

首先是關(guān)于最大交互步數(shù)的影響分析。團(tuán)隊(duì)在BrowseComp上變化最大交互步數(shù)從50到300,報(bào)告了四個(gè)統(tǒng)計(jì)量:總體平均步數(shù)、總體中位數(shù)步數(shù)、成功案例的中位數(shù)步數(shù)以及失敗案例的中位數(shù)步數(shù)。結(jié)果顯示了幾個(gè)清晰的模式:成功案例的中位數(shù)步數(shù)隨著交互步數(shù)增長(zhǎng)并沒(méi)有表現(xiàn)出明顯的增長(zhǎng)趨勢(shì),大多數(shù)成功軌跡在達(dá)到交互限制之前就收斂了,這表明一旦識(shí)別出正確的推理路徑,額外的預(yù)算對(duì)這些案例提供的益處有限。

相比之下,失敗案例的中位數(shù)步數(shù)密切遵循y=x趨勢(shì),表明大多數(shù)失敗軌跡恰好在允許的最大步數(shù)處終止。這意味著許多失敗是由于耗盡交互預(yù)算而不是過(guò)早輸出錯(cuò)誤答案。因此,總體平均步數(shù)的增長(zhǎng)主要由失敗案例的上移驅(qū)動(dòng),因?yàn)楦嘬壽E延伸到新的預(yù)算上限后才終止。

這個(gè)觀察表明模型在面臨困難時(shí)積極嘗試探索替代推理路徑,而不是誤解任務(wù)或通過(guò)過(guò)早答案生成表現(xiàn)出過(guò)度自信。在較小預(yù)算下,大量困難案例僅僅因?yàn)镾MTL無(wú)法在有限的工具交互次數(shù)內(nèi)識(shí)別出有效推理路徑而失敗。當(dāng)交互預(yù)算擴(kuò)大時(shí),SMTL獲得了探索不同證據(jù)鏈的額外機(jī)會(huì)。結(jié)合定期計(jì)劃完善,這種擴(kuò)展預(yù)算使模型能夠糾正次優(yōu)搜索方向并逐步重新定向到有希望的子任務(wù)。

接下來(lái)是關(guān)于檢索top-k參數(shù)的影響分析。團(tuán)隊(duì)通過(guò)變化網(wǎng)絡(luò)搜索工具的top-k參數(shù)來(lái)研究檢索寬度對(duì)性能的影響。這個(gè)參數(shù)控制每個(gè)查詢返回的URL數(shù)量。結(jié)果顯示,增加top-k持續(xù)改善任務(wù)性能。當(dāng)top-k從4增加到8時(shí),SMTL-100和SMTL-300都表現(xiàn)出顯著提升(例如,SMTL-300從43.8提升到47.0,而SMTL-100從36.6增加到41.8以上)。這個(gè)跳躍表明窄檢索窗口顯著限制了證據(jù)覆蓋,限制了SMTL在固定交互預(yù)算內(nèi)識(shí)別相關(guān)信息的能力。

當(dāng)top-k進(jìn)一步從8增加到20時(shí),性能繼續(xù)提升,盡管速度較慢并逐漸收斂。這表明收益遞減:一旦包含了最具信息性的候選,額外結(jié)果貢獻(xiàn)邊際收益,但仍通過(guò)減少錯(cuò)過(guò)關(guān)鍵證據(jù)的風(fēng)險(xiǎn)來(lái)增強(qiáng)魯棒性。

這些結(jié)果與團(tuán)隊(duì)的設(shè)計(jì)直覺(jué)一致,即提高搜索廣度可以成為長(zhǎng)視野智能體搜索的強(qiáng)大擴(kuò)展維度。在固定的交互步數(shù)下,增加top-k有效地將更多候選證據(jù)打包到每個(gè)搜索動(dòng)作中,提高每步的信息密度。SMTL從每次交互內(nèi)更廣泛的證據(jù)獲取中獲益,而不是擴(kuò)展推理深度,這表明擴(kuò)展檢索廣度是比僅僅增加推理長(zhǎng)度更有效的長(zhǎng)視野搜索擴(kuò)展軸。

研究還發(fā)現(xiàn)了一個(gè)關(guān)鍵的設(shè)計(jì)洞察:傳統(tǒng)智能體的效率瓶頸主要在于過(guò)度依賴順序推理。在搜索任務(wù)中,大量計(jì)算被投入到長(zhǎng)時(shí)間的模型側(cè)推理,而不是有效的外部證據(jù)獲取。SMTL的成功證明了通過(guò)重新組織搜索執(zhí)行而不是擴(kuò)展推理深度來(lái)實(shí)現(xiàn)效率提升的可能性。

通過(guò)對(duì)比分析,團(tuán)隊(duì)發(fā)現(xiàn)SMTL的效率提升不是源于更深的單步推理,而是來(lái)自并行子任務(wù)探索和分階段重新規(guī)劃。通過(guò)重新組織搜索執(zhí)行而不是擴(kuò)展推理深度,SMTL大幅減少了定位關(guān)鍵信息和完成任務(wù)所需的交互輪次數(shù)。這種方法驗(yàn)證了在長(zhǎng)視野智能體搜索中,并行證據(jù)獲取比順序深度推理更加有效的假設(shè)。

七、技術(shù)細(xì)節(jié):實(shí)現(xiàn)高效并行搜索的關(guān)鍵組件

SMTL框架的成功實(shí)現(xiàn)依賴于幾個(gè)精心設(shè)計(jì)的技術(shù)組件,這些組件就像一部精密機(jī)器中的各個(gè)齒輪,必須完美協(xié)調(diào)才能發(fā)揮整體效果。

在工具設(shè)置方面,SMTL使用了一套精簡(jiǎn)而富有表達(dá)力的工具集。核心工具包括web_search和crawl_page兩個(gè)功能。web_search通過(guò)Serper API提供網(wǎng)絡(luò)搜索功能,該API與Google搜索引擎接口。給定模型生成的查詢字符串,該工具檢索排名搜索結(jié)果列表,默認(rèn)設(shè)置返回前五個(gè)條目。每個(gè)結(jié)果包含頁(yè)面標(biāo)題、簡(jiǎn)短片段和對(duì)應(yīng)URL。搜索結(jié)果作為識(shí)別潛在相關(guān)來(lái)源和指導(dǎo)后續(xù)爬取決策的高級(jí)信號(hào)。

crawl_page工具負(fù)責(zé)細(xì)粒度內(nèi)容獲取和結(jié)構(gòu)化摘要。它接受目標(biāo)URL和描述需要解決的信息需求的明確目標(biāo)作為輸入。URL使用Jina Reader API進(jìn)行爬取,之后檢索的頁(yè)面內(nèi)容由DeepSeek-V3.2模型進(jìn)行摘要。關(guān)鍵的是,目標(biāo)規(guī)范為摘要過(guò)程提供語(yǔ)義指導(dǎo),引導(dǎo)模型提取和壓縮與當(dāng)前子任務(wù)直接相關(guān)的信息,而不是產(chǎn)生通用頁(yè)面摘要。這種目標(biāo)條件摘要實(shí)現(xiàn)了更有針對(duì)性的證據(jù)收集,減少了不相關(guān)的上下文傳播。

在推理階段的上下文管理方面,SMTL采用了創(chuàng)新的溢出觸發(fā)壓縮方案。長(zhǎng)視野任務(wù)經(jīng)常超過(guò)128K窗口下普通智能體的有效上下文容量,在SMTL中這個(gè)問(wèn)題被放大,因?yàn)槊總€(gè)交互步驟產(chǎn)生更多工具觀察,減少了達(dá)到上下文限制前可以容納的步數(shù)。為了提高上下文效率,SMTL將定期計(jì)劃完善與溢出觸發(fā)壓縮方案結(jié)合:智能體默認(rèn)每N=5步完善任務(wù)計(jì)劃,當(dāng)累積歷史達(dá)到128K上下文預(yù)算而沒(méi)有確認(rèn)答案時(shí),它執(zhí)行額外的強(qiáng)制計(jì)劃完善使用當(dāng)前歷史,然后丟棄所有計(jì)劃前上下文并從刷新的計(jì)劃繼續(xù)執(zhí)行。

這種以計(jì)劃為中心的重置保留了最新的執(zhí)行狀態(tài)和子任務(wù)結(jié)構(gòu),保持推理行為與訓(xùn)練時(shí)計(jì)劃完善一致。因此,SMTL在固定上下文預(yù)算下支持更長(zhǎng)的有效軌跡,而不犧牲結(jié)構(gòu)化任務(wù)上下文。

在訓(xùn)練實(shí)現(xiàn)細(xì)節(jié)方面,研究團(tuán)隊(duì)使用Qwen3-30B-A3B-Instruct-2507作為骨干模型。在監(jiān)督微調(diào)期間,模型訓(xùn)練3.5個(gè)周期,批大小為128,使用AdamW優(yōu)化器和初始學(xué)習(xí)率為1.4×10^-5的余弦衰減學(xué)習(xí)率調(diào)度。最大序列長(zhǎng)度設(shè)置為65,536個(gè)標(biāo)記以支持長(zhǎng)視野軌跡。

在強(qiáng)化學(xué)習(xí)階段,學(xué)習(xí)率設(shè)置為1×10^-6,批大小為32。對(duì)每個(gè)問(wèn)題生成8個(gè)在策略rollout,最大序列長(zhǎng)度為128k標(biāo)記,最多120個(gè)交互輪次,訓(xùn)練執(zhí)行60步。推理期間使用vLLM,上下文窗口為128K標(biāo)記。除非另有說(shuō)明,所有實(shí)驗(yàn)都以最多100個(gè)交互步驟進(jìn)行,計(jì)劃完善間隔為N=5個(gè)交互步驟。

系統(tǒng)prompt的設(shè)計(jì)也是關(guān)鍵因素。SMTL采用兩個(gè)系統(tǒng)prompt分別支持深度搜索和深度研究任務(wù)。雖然兩個(gè)prompt在輸出結(jié)構(gòu)和交互協(xié)議上有所不同,但它們?cè)诠蚕淼牟⑿兄悄荏w搜索框架下操作。兩個(gè)系統(tǒng)prompt都遵循統(tǒng)一的設(shè)計(jì)理念:任務(wù)在圖結(jié)構(gòu)證據(jù)上表示,分解為多個(gè)目標(biāo)或子任務(wù),通過(guò)并行執(zhí)行和協(xié)調(diào)工具使用來(lái)解決。在兩種設(shè)置中,智能體都執(zhí)行顯式規(guī)劃、基于工具觀察的迭代計(jì)劃完善和結(jié)構(gòu)化進(jìn)度跟蹤,實(shí)現(xiàn)在受限交互預(yù)算下的高效長(zhǎng)視野搜索。

八、未來(lái)展望:智能搜索的新范式

SMTL框架的成功不僅僅是一個(gè)技術(shù)突破,更是為未來(lái)的智能搜索系統(tǒng)指明了新的發(fā)展方向。這項(xiàng)研究證明了在長(zhǎng)視野智能體搜索中,優(yōu)先考慮高效、以搜索為中心的擴(kuò)展比單純追求更深層的推理提供了更加實(shí)用和可泛化的基礎(chǔ)。

當(dāng)前的研究結(jié)果表明,傳統(tǒng)的"深度思考"模式可能并不是解決復(fù)雜搜索問(wèn)題的最優(yōu)路徑。SMTL提出的"搜索多,思考少"策略展現(xiàn)了一種全新的可能性:通過(guò)更好地組織信息獲取過(guò)程,而不是增加推理復(fù)雜度,來(lái)提升智能體的整體性能。這種范式轉(zhuǎn)變對(duì)于整個(gè)人工智能領(lǐng)域都具有重要意義。

在實(shí)際應(yīng)用方面,SMTL的并行搜索框架可以很容易地?cái)U(kuò)展到其他需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù)中。無(wú)論是科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析,還是技術(shù)方案評(píng)估,都可以從這種并行證據(jù)獲取策略中受益。相比傳統(tǒng)的順序處理方式,這種方法能夠顯著縮短任務(wù)完成時(shí)間,同時(shí)提高結(jié)果質(zhì)量。

從技術(shù)發(fā)展的角度看,SMTL框架為構(gòu)建更加高效的AI系統(tǒng)提供了新的思路。未來(lái)的研究可以進(jìn)一步優(yōu)化并行任務(wù)分解策略,開(kāi)發(fā)更加智能的動(dòng)態(tài)計(jì)劃調(diào)整機(jī)制,或者探索不同類型工具的組合使用方式。這些改進(jìn)都有可能進(jìn)一步提升系統(tǒng)的性能和適用范圍。

值得注意的是,SMTL在不同評(píng)估維度上的一致優(yōu)異表現(xiàn)證明了其良好的泛化能力。這種泛化能力對(duì)于實(shí)際部署具有重要價(jià)值,因?yàn)楝F(xiàn)實(shí)世界的問(wèn)題往往不會(huì)嚴(yán)格按照某一種特定類型出現(xiàn),而是需要智能體具備處理各種不同問(wèn)題類型的能力。

研究團(tuán)隊(duì)的開(kāi)源承諾也為整個(gè)研究社區(qū)提供了寶貴的資源。通過(guò)開(kāi)放代碼、模型和數(shù)據(jù)集,其他研究者可以在SMTL的基礎(chǔ)上進(jìn)行進(jìn)一步的探索和改進(jìn),這將有助于推動(dòng)整個(gè)領(lǐng)域的快速發(fā)展。

說(shuō)到底,SMTL的成功揭示了一個(gè)重要的設(shè)計(jì)原理:在設(shè)計(jì)智能系統(tǒng)時(shí),我們不應(yīng)該盲目追求單一維度的復(fù)雜度提升,而應(yīng)該從系統(tǒng)整體效率的角度來(lái)思考優(yōu)化策略。有時(shí)候,改變工作方式比增加工作強(qiáng)度更加重要。就像SMTL用并行搜索替代深度推理一樣,未來(lái)的AI系統(tǒng)設(shè)計(jì)也應(yīng)該更多地考慮如何通過(guò)更好的組織和協(xié)調(diào)來(lái)提升整體性能。

這項(xiàng)研究為我們展示了一個(gè)充滿希望的未來(lái):AI系統(tǒng)不僅能夠更快地完成復(fù)雜任務(wù),還能夠在不同類型的任務(wù)間展現(xiàn)出優(yōu)秀的適應(yīng)能力。隨著這種新范式的進(jìn)一步發(fā)展和完善,我們有理由期待更加智能、高效的AI助手能夠在更多領(lǐng)域發(fā)揮重要作用,真正成為人類知識(shí)探索和決策制定過(guò)程中的得力伙伴。

Q&A

Q1:SMTL框架是什么,它與傳統(tǒng)AI搜索方法有什么不同?

A:SMTL(Search More, Think Less)是由OPPO AI團(tuán)隊(duì)開(kāi)發(fā)的智能搜索框架,核心理念是"搜索多,思考少"。與傳統(tǒng)方法不同,SMTL用并行的證據(jù)獲取替代順序推理,就像同時(shí)派遣多個(gè)助手去不同地方搜集信息,而不是讓一個(gè)人坐著慢慢思考。這種方法能將平均推理步數(shù)減少70.7%,同時(shí)提升準(zhǔn)確率。

Q2:為什么SMTL能同時(shí)提高效率和準(zhǔn)確率?

A:SMTL的優(yōu)勢(shì)在于重新組織了搜索執(zhí)行方式。傳統(tǒng)方法每次只能執(zhí)行一個(gè)工具調(diào)用,而SMTL平均每步執(zhí)行3.5次工具調(diào)用,實(shí)現(xiàn)并發(fā)信息獲取。通過(guò)將復(fù)雜任務(wù)分解為可并行處理的子任務(wù),并定期調(diào)整計(jì)劃,SMTL能快速定位關(guān)鍵信息,避免了順序推理中的時(shí)間浪費(fèi)。

Q3:SMTL框架可以應(yīng)用在哪些實(shí)際場(chǎng)景中?

A:SMTL適用于各種需要長(zhǎng)視野規(guī)劃和多源信息整合的任務(wù),包括科學(xué)文獻(xiàn)綜述、市場(chǎng)調(diào)研分析、技術(shù)方案評(píng)估等。由于其優(yōu)秀的泛化能力,既能處理有明確答案的問(wèn)答任務(wù),也能處理開(kāi)放式的研究問(wèn)題,在多個(gè)基準(zhǔn)測(cè)試中都達(dá)到了領(lǐng)先水平。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

第九波打擊!伊朗襲擊美航母,以軍司令部遭襲擊,特朗普惱羞成怒

烈史
2026-03-02 23:26:13
福特艦抵達(dá)以色列,我國(guó)放出高清衛(wèi)星照,無(wú)F-35C

福特艦抵達(dá)以色列,我國(guó)放出高清衛(wèi)星照,無(wú)F-35C

世家寶
2026-02-27 20:52:56
豆瓣致歉:無(wú)法承受巨額損失

豆瓣致歉:無(wú)法承受巨額損失

觀察者網(wǎng)
2026-03-02 14:02:06
法國(guó)和浙江同為6000萬(wàn)人口,2025年法國(guó)創(chuàng)3萬(wàn)億美元GDP,浙江呢?

法國(guó)和浙江同為6000萬(wàn)人口,2025年法國(guó)創(chuàng)3萬(wàn)億美元GDP,浙江呢?

八斗小先生
2026-02-28 18:56:17
李莉評(píng)論區(qū)被沖,過(guò)往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

李莉評(píng)論區(qū)被沖,過(guò)往言論被反復(fù)吐槽,伊朗半小時(shí)滅以,回旋鏢!

眼光很亮
2026-03-01 15:39:43
春節(jié)剛過(guò)完,茅臺(tái)價(jià)格又跌下來(lái)了

春節(jié)剛過(guò)完,茅臺(tái)價(jià)格又跌下來(lái)了

深水財(cái)經(jīng)社
2026-03-02 20:35:04
馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

馬斯克變性女兒亮相米蘭時(shí)裝周,姿勢(shì)怪異男相明顯,堪稱辣眼睛

電影偵探社
2026-03-01 16:36:05
6年前凌晨搶房,如今卻斷供離場(chǎng):深圳業(yè)主一套房血虧60%+

6年前凌晨搶房,如今卻斷供離場(chǎng):深圳業(yè)主一套房血虧60%+

深圳買房計(jì)劃
2026-03-02 23:09:42
老兩口結(jié)婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來(lái)孩子出生該怎么喊呢”

老兩口結(jié)婚后將兒女撮合在一起,親母女嫁給了親父子,網(wǎng)友熱議:“將來(lái)孩子出生該怎么喊呢”

觀威海
2026-03-02 09:20:14
西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

西部排名又變了:掘金2連敗,湖人2連勝,4隊(duì)排名互換

籃球大視野
2026-03-02 15:45:08
研究警告:越來(lái)越多家庭因吃它中毒!冰箱里這類肉別超3個(gè)月!

研究警告:越來(lái)越多家庭因吃它中毒!冰箱里這類肉別超3個(gè)月!

全球軍事記
2026-02-28 10:12:38
怎么也想不通,她長(zhǎng)這么漂亮,演技那么好,為啥一直火不起來(lái)呢

怎么也想不通,她長(zhǎng)這么漂亮,演技那么好,為啥一直火不起來(lái)呢

草莓解說(shuō)體育
2026-03-01 00:47:24
受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

受氣的攜程客服崗擠滿了海歸留學(xué)生?“比普華永道工資高、低門檻拿大廠編制”

Vista氫商業(yè)
2026-03-02 14:01:11
韓國(guó)網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬(wàn)韓幣!

韓國(guó)網(wǎng)紅博主上海旅游被宰客?一頓火鍋花了177萬(wàn)韓幣!

奮斗在韓國(guó)
2026-03-02 11:00:03
果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見(jiàn)識(shí)了北京的“陽(yáng)謀”

果然不簡(jiǎn)單:中國(guó)摁住日本后,又讓美國(guó)見(jiàn)識(shí)了北京的“陽(yáng)謀”

通文知史
2026-03-01 23:25:03
河南洛陽(yáng)一女子過(guò)年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

河南洛陽(yáng)一女子過(guò)年離家,智能馬桶17天耗水超200噸,當(dāng)事人:馬桶晝夜不停自動(dòng)工作

黃河新聞網(wǎng)呂梁
2026-02-28 14:27:42
女足亞洲杯太瘋狂:韓國(guó)3-0制造首個(gè)慘案!中國(guó)隊(duì)衛(wèi)冕首秀5-0起步

女足亞洲杯太瘋狂:韓國(guó)3-0制造首個(gè)慘案!中國(guó)隊(duì)衛(wèi)冕首秀5-0起步

侃球熊弟
2026-03-02 19:10:46
伊朗強(qiáng)援已到!以色列集結(jié)十萬(wàn)大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

伊朗強(qiáng)援已到!以色列集結(jié)十萬(wàn)大軍,關(guān)鍵時(shí)刻,普京對(duì)中國(guó)做承諾

長(zhǎng)星寄明月
2026-03-02 18:54:51
復(fù)盤(pán)5次中東戰(zhàn)爭(zhēng)!別光盯著油價(jià)黃金,A 股這些機(jī)會(huì)已經(jīng)明牌了

復(fù)盤(pán)5次中東戰(zhàn)爭(zhēng)!別光盯著油價(jià)黃金,A 股這些機(jī)會(huì)已經(jīng)明牌了

風(fēng)風(fēng)順
2026-03-02 11:21:39
歐洲天然氣價(jià)格漲幅擴(kuò)大至42%,創(chuàng)2022年3月以來(lái)最大漲幅

歐洲天然氣價(jià)格漲幅擴(kuò)大至42%,創(chuàng)2022年3月以來(lái)最大漲幅

每日經(jīng)濟(jì)新聞
2026-03-02 20:22:09
2026-03-03 01:51:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7408文章數(shù) 553關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果中國(guó)官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國(guó)留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

數(shù)碼
親子
健康
公開(kāi)課
軍事航空

數(shù)碼要聞

高通MWC 2026發(fā)布多項(xiàng)通信技術(shù),定檔2029年開(kāi)啟6G商用

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國(guó)中央司令部透露對(duì)伊朗動(dòng)武全部武器裝備清單

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版