国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

挑戰(zhàn)GRPO,英偉達(dá)提出GDPO,專攻多獎(jiǎng)勵(lì)優(yōu)化

0
分享至



機(jī)器之心編輯部

GRPO 是促使 DeepSeek-R1 成功的基礎(chǔ)技術(shù)之一。最近一兩年,GRPO 及其變體因其高效性和簡(jiǎn)潔性,已成為業(yè)內(nèi)廣泛采用的強(qiáng)化學(xué)習(xí)算法。

但隨著語(yǔ)言模型能力的不斷提升,用戶對(duì)它們的期待也在發(fā)生變化:不僅要回答正確,還要在各種不同場(chǎng)景下表現(xiàn)出符合多樣化人類偏好的行為。為此,強(qiáng)化學(xué)習(xí)訓(xùn)練流程開始引入多種獎(jiǎng)勵(lì)信號(hào),每一種獎(jiǎng)勵(lì)對(duì)應(yīng)一種不同的偏好,用來(lái)共同引導(dǎo)模型走向理想的行為模式。

但英偉達(dá)的一篇新論文卻指出,在進(jìn)行多獎(jiǎng)勵(lì)優(yōu)化時(shí),GRPO 可能不是最佳選擇。



具體來(lái)說(shuō),在多獎(jiǎng)勵(lì)優(yōu)化場(chǎng)景中,GRPO 會(huì)將不同的獎(jiǎng)勵(lì)組合歸一化為相同的優(yōu)勢(shì)值。這會(huì)削弱訓(xùn)練信號(hào),降低獎(jiǎng)勵(lì)水平。

為了解決這一問(wèn)題,他們提出了一種新的策略優(yōu)化方法 —— 組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO)。該方法通過(guò)對(duì)各個(gè)獎(jiǎng)勵(lì)信號(hào)分別進(jìn)行歸一化,避免了不同獎(jiǎng)勵(lì)之間被混合「抹平」,從而更真實(shí)地保留它們的相對(duì)差異,使多獎(jiǎng)勵(lì)優(yōu)化更加準(zhǔn)確,同時(shí)顯著提升了訓(xùn)練過(guò)程的穩(wěn)定性。



  • 論文標(biāo)題:GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
  • 論文鏈接:https://arxiv.org/pdf/2601.05242
  • 代碼鏈接:https://github.com/NVlabs/GDPO
  • 項(xiàng)目鏈接:https://nvlabs.github.io/GDPO/
  • HuggingFace 鏈接:https://huggingface.co/papers/2601.05242

在工具調(diào)用、數(shù)學(xué)推理和代碼推理這三類任務(wù)上,論文將 GDPO 與 GRPO 進(jìn)行了對(duì)比評(píng)測(cè),既考察了正確性指標(biāo)(如準(zhǔn)確率、缺陷比例),也評(píng)估了對(duì)約束條件的遵守情況(如格式、長(zhǎng)度)。結(jié)果顯示,在所有設(shè)置中,GDPO 都穩(wěn)定地優(yōu)于 GRPO,驗(yàn)證了其在多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化中的有效性和良好泛化能力。



GRPO 有什么問(wèn)題?

目前,GRPO 主要被用于優(yōu)化單一目標(biāo)的獎(jiǎng)勵(lì),通常聚焦于準(zhǔn)確率。然而,隨著模型能力的持續(xù)提升,近期研究越來(lái)越傾向于同時(shí)優(yōu)化多個(gè)獎(jiǎng)勵(lì) —— 例如在準(zhǔn)確率之外,還考慮響應(yīng)長(zhǎng)度限制和格式質(zhì)量,以更好地與人類偏好保持一致?,F(xiàn)有的多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)方法通常采用一種直接的策略:將所有獎(jiǎng)勵(lì)分量相加,然后直接應(yīng)用 GRPO 進(jìn)行優(yōu)化。

具體而言,對(duì)于給定的問(wèn)答對(duì),行為策略會(huì)為每個(gè)問(wèn)題采樣一組響應(yīng)。假設(shè)存在 n 個(gè)優(yōu)化目標(biāo),則第 j 個(gè)響應(yīng)的聚合獎(jiǎng)勵(lì)被計(jì)算為各目標(biāo)獎(jiǎng)勵(lì)之和。隨后,通過(guò)對(duì)群組級(jí)別的聚合獎(jiǎng)勵(lì)進(jìn)行歸一化,得到第 j 個(gè)響應(yīng)的群組相對(duì)優(yōu)勢(shì)。

作者首先重新審視了這種將 GRPO 直接應(yīng)用于多獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)優(yōu)化的常見做法,并發(fā)現(xiàn)了一個(gè)此前被忽視的問(wèn)題:GRPO 本質(zhì)上會(huì)壓縮獎(jiǎng)勵(lì)信號(hào),導(dǎo)致優(yōu)勢(shì)估計(jì)中的信息損失。

為了說(shuō)明這一點(diǎn),他們從一個(gè)簡(jiǎn)單的訓(xùn)練場(chǎng)景開始,然后推廣到更一般的情況。假設(shè)為每個(gè)問(wèn)題生成兩個(gè) rollout 來(lái)計(jì)算群組相對(duì)優(yōu)勢(shì),且任務(wù)涉及兩個(gè)二值獎(jiǎng)勵(lì)(取值為 0 或 1)。因此,每個(gè) rollout 的總獎(jiǎng)勵(lì)可取 {0, 1, 2} 中的值。

如圖 2 所示,作者列舉了一個(gè)群組內(nèi)所有可能的 rollout 獎(jiǎng)勵(lì)組合。盡管在忽略順序的情況下存在六種不同的組合,但在應(yīng)用群組級(jí)獎(jiǎng)勵(lì)歸一化后,只會(huì)產(chǎn)生兩個(gè)唯一的優(yōu)勢(shì)組。具體來(lái)說(shuō),(0,1)、(0,2) 和 (1,2) 會(huì)產(chǎn)生相同的歸一化優(yōu)勢(shì)值 (-0.7071, 0.7071),而 (0,0)、(1,1) 和 (2,2) 則全部歸一化為 (0, 0)。



這揭示了 GRPO 優(yōu)勢(shì)計(jì)算在多獎(jiǎng)勵(lì)優(yōu)化中的一個(gè)根本性局限:它過(guò)度壓縮了豐富的群組級(jí)獎(jiǎng)勵(lì)信號(hào)。

從直覺上講,(0,2) 應(yīng)該比 (0,1) 產(chǎn)生更強(qiáng)的學(xué)習(xí)信號(hào),因?yàn)榭偑?jiǎng)勵(lì)為 2 意味著同時(shí)滿足了兩個(gè)獎(jiǎng)勵(lì)條件,而獎(jiǎng)勵(lì)為 1 僅對(duì)應(yīng)達(dá)成一個(gè)。因此,當(dāng)另一個(gè) rollout 只獲得零獎(jiǎng)勵(lì)時(shí),(0,2) 應(yīng)該產(chǎn)生比 (0,1) 更大的相對(duì)優(yōu)勢(shì)。這種局限性還可能因優(yōu)勢(shì)估計(jì)不準(zhǔn)確而引入訓(xùn)練不穩(wěn)定的風(fēng)險(xiǎn)。如圖 5 所示,當(dāng)使用 GRPO 訓(xùn)練時(shí),正確率獎(jiǎng)勵(lì)分?jǐn)?shù)在約 400 個(gè)訓(xùn)練步后開始下降,表明出現(xiàn)了部分訓(xùn)練坍塌。



近期,Dr.GRPO 和 DeepSeek-v3.2 采用了 GRPO 的一個(gè)變體,移除了標(biāo)準(zhǔn)差歸一化項(xiàng),使得優(yōu)勢(shì)直接等于原始獎(jiǎng)勵(lì)減去均值。盡管這些工作引入此修改是為了緩解問(wèn)題級(jí)別的難度偏差,但乍看之下,這一改變似乎也能解決上述問(wèn)題。具體而言,移除標(biāo)準(zhǔn)差歸一化確實(shí)在一定程度上緩解了問(wèn)題:(0,1) 和 (0,2) 現(xiàn)在分別產(chǎn)生 (-0.5, 0.5) 和 (-1.0, 1.0) 的不同優(yōu)勢(shì)值。

然而,當(dāng)將此設(shè)置推廣到更多 rollout(保持獎(jiǎng)勵(lì)數(shù)量固定)時(shí),如圖 3 所示,作者觀察到這種修復(fù)方法相比標(biāo)準(zhǔn) GRPO 僅略微增加了不同優(yōu)勢(shì)組的數(shù)量。在固定 rollout 數(shù)量為 4、逐步增加獎(jiǎng)勵(lì)數(shù)量的設(shè)置下,也觀察到類似趨勢(shì) —— 不同優(yōu)勢(shì)組的數(shù)量?jī)H有適度改善。作者還在第 4.1.1 節(jié)中實(shí)證檢驗(yàn)了移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果,發(fā)現(xiàn)這一修改并未帶來(lái)更好的收斂性或更優(yōu)的下游評(píng)估表現(xiàn)。



GDPO是怎么做的?

為了克服上述挑戰(zhàn),作者提出了群組獎(jiǎng)勵(lì)解耦歸一化策略優(yōu)化(GDPO),這是一種旨在更好地保持不同獎(jiǎng)勵(lì)組合之間區(qū)分度、并更準(zhǔn)確地在最終優(yōu)勢(shì)中捕捉其相對(duì)差異的方法。

與 GRPO 直接對(duì)聚合獎(jiǎng)勵(lì)和進(jìn)行群組級(jí)歸一化不同,GDPO 通過(guò)在聚合之前對(duì)每個(gè)獎(jiǎng)勵(lì)分別進(jìn)行群組級(jí)歸一化來(lái)解耦這一過(guò)程。具體而言,GDPO 不是先將所有 n 個(gè)獎(jiǎng)勵(lì)相加再進(jìn)行群組級(jí)歸一化得到總優(yōu)勢(shì),而是為第 i 個(gè)問(wèn)題的第 j 個(gè) rollout 的每個(gè)獎(jiǎng)勵(lì)分別計(jì)算歸一化優(yōu)勢(shì),如下所示:



用于策略更新的總體優(yōu)勢(shì)通過(guò)以下方式獲得:首先將所有目標(biāo)的歸一化優(yōu)勢(shì)相加,然后對(duì)多獎(jiǎng)勵(lì)優(yōu)勢(shì)之和應(yīng)用批次級(jí)優(yōu)勢(shì)歸一化。這確保了最終優(yōu)勢(shì)的數(shù)值范圍保持穩(wěn)定,不會(huì)隨著額外獎(jiǎng)勵(lì)的引入而增長(zhǎng)。從實(shí)證角度,作者還發(fā)現(xiàn)這一歸一化步驟能夠改善訓(xùn)練穩(wěn)定性。

通過(guò)分離每個(gè)獎(jiǎng)勵(lì)的歸一化,GDPO 緩解了 GRPO 優(yōu)勢(shì)估計(jì)中存在的信息損失問(wèn)題,如圖 2 所示。從圖中可以看到,當(dāng)采用 GRPO 時(shí),不同的獎(jiǎng)勵(lì)組合(如 (0,2) 和 (0,1))會(huì)導(dǎo)致相同的歸一化優(yōu)勢(shì),從而掩蓋了它們之間的細(xì)微差異。相比之下,GDPO 通過(guò)為每種組合分配不同的優(yōu)勢(shì)值來(lái)保留這些細(xì)粒度差異。

作者通過(guò)在兩種實(shí)驗(yàn)設(shè)置下比較 GDPO、GRPO 和「無(wú)標(biāo)準(zhǔn)差 GRPO」產(chǎn)生的不同優(yōu)勢(shì)組數(shù)量,進(jìn)一步量化了 GDPO 的有效性,如圖 3 所示。在兩個(gè)獎(jiǎng)勵(lì)、rollout 數(shù)量變化的場(chǎng)景中,GDPO 始終產(chǎn)生顯著更多的不同優(yōu)勢(shì)組,且隨著 rollout 數(shù)量增加,差距不斷擴(kuò)大。另一方面,當(dāng)固定 rollout 數(shù)量為 4 并增加獎(jiǎng)勵(lì)數(shù)量時(shí),也呈現(xiàn)出類似的模式 ——GDPO 隨著目標(biāo)數(shù)量增長(zhǎng)表現(xiàn)出逐步增大的優(yōu)勢(shì)粒度。這表明論文所提出的解耦歸一化方法在所有強(qiáng)化學(xué)習(xí)設(shè)置中都能有效增加不同優(yōu)勢(shì)組的數(shù)量,從而實(shí)現(xiàn)更精確的優(yōu)勢(shì)估計(jì)。

除了這些理論改進(jìn)之外,作者還觀察到使用 GDPO 能夠持續(xù)產(chǎn)生更穩(wěn)定的訓(xùn)練曲線和更好的收斂性。例如,在工具調(diào)用任務(wù)中,GDPO 在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上都實(shí)現(xiàn)了更好的收斂,如圖 4(見實(shí)驗(yàn)部分)所示。GDPO 還消除了 GRPO 在數(shù)學(xué)推理任務(wù)中觀察到的訓(xùn)練坍塌問(wèn)題,如圖 5(見實(shí)驗(yàn)部分)所示,使用 GDPO 訓(xùn)練的模型在整個(gè)訓(xùn)練過(guò)程中持續(xù)改善正確率獎(jiǎng)勵(lì)分?jǐn)?shù)。實(shí)驗(yàn)部分的更多實(shí)證結(jié)果進(jìn)一步證實(shí)了 GDPO 在廣泛的下游任務(wù)上實(shí)現(xiàn)更強(qiáng)目標(biāo)偏好對(duì)齊的能力。

到目前為止,論文假設(shè)所有目標(biāo)具有同等重要性。然而在實(shí)際應(yīng)用中,這一假設(shè)并不總是成立。在論文中,作者系統(tǒng)地概述了如何調(diào)整與不同目標(biāo)相關(guān)的獎(jiǎng)勵(lì)權(quán)重,或修改獎(jiǎng)勵(lì)函數(shù)以強(qiáng)制優(yōu)先考慮更重要的目標(biāo)。論文還討論了當(dāng)?shù)讓营?jiǎng)勵(lì)在難度上存在顯著差異時(shí),這兩種設(shè)計(jì)選擇的不同行為表現(xiàn)。具體內(nèi)容可參見論文第三章。

實(shí)驗(yàn)結(jié)果如何?

在實(shí)驗(yàn)部分,作者首先在工具調(diào)用任務(wù)上評(píng)估 GDPO 與 GRPO 的效果,然后在數(shù)學(xué)推理任務(wù)上進(jìn)行比較,最后將優(yōu)化獎(jiǎng)勵(lì)數(shù)量擴(kuò)展到三個(gè),在代碼推理任務(wù)上進(jìn)行對(duì)比。

工具調(diào)用

從圖 4 的訓(xùn)練曲線可以看到,GDPO 在所有運(yùn)行中都能在格式獎(jiǎng)勵(lì)和正確率獎(jiǎng)勵(lì)上收斂到更高的值。盡管 GDPO 在格式獎(jiǎng)勵(lì)收斂所需步數(shù)上表現(xiàn)出更大的方差,但最終達(dá)到的格式合規(guī)性優(yōu)于 GRPO。對(duì)于正確率獎(jiǎng)勵(lì),GDPO 在早期階段表現(xiàn)出更快的改善,并在后期達(dá)到比 GRPO 基線更高的獎(jiǎng)勵(lì)分?jǐn)?shù)。



在表 1 的 BFCL-v3 評(píng)估中,GDPO 也持續(xù)提升了平均工具調(diào)用準(zhǔn)確率和格式正確率。對(duì)于 Qwen2.5-Instruct-1.5B 的訓(xùn)練,GDPO 在 Live/non-Live 任務(wù)上分別取得了近 5% 和 3% 的提升,在整體平均準(zhǔn)確率上提高了約 2.7%,在正確格式比例上提高了 4% 以上。3B 模型上也觀察到類似的改進(jìn)。



關(guān)于移除標(biāo)準(zhǔn)差歸一化項(xiàng)的效果:從圖 4 可以觀察到,雖然「無(wú)標(biāo)準(zhǔn)差 GRPO」收斂到與 GDPO 相似且高于標(biāo)準(zhǔn) GRPO 的正確率獎(jiǎng)勵(lì),但它在格式獎(jiǎng)勵(lì)上完全失敗。這導(dǎo)致在 BFCL-v3 上的正確格式比例為 0%(見表 2),表明模型未能學(xué)習(xí)所需的輸出結(jié)構(gòu)。這說(shuō)明簡(jiǎn)單地移除標(biāo)準(zhǔn)差歸一化項(xiàng)以增加優(yōu)勢(shì)多樣性可能會(huì)給訓(xùn)練引入不穩(wěn)定性。



數(shù)學(xué)推理

從圖 5 中 DeepSeek-R1-1.5B 的訓(xùn)練曲線可以看到,模型傾向于最大化更容易的獎(jiǎng)勵(lì)。在本例中,長(zhǎng)度獎(jiǎng)勵(lì)更容易優(yōu)化,GRPO 和 GDPO 都在大約前 100 個(gè)訓(xùn)練步內(nèi)達(dá)到滿分長(zhǎng)度獎(jiǎng)勵(lì)。長(zhǎng)度獎(jiǎng)勵(lì)的快速上升伴隨著正確率獎(jiǎng)勵(lì)的早期下降,表明這兩個(gè)獎(jiǎng)勵(lì)存在競(jìng)爭(zhēng)關(guān)系。



然而,從正確率獎(jiǎng)勵(lì)軌跡來(lái)看,GDPO 比 GRPO 更有效地恢復(fù)了正確率獎(jiǎng)勵(lì)。作者還觀察到 GRPO 訓(xùn)練在 400 步后開始不穩(wěn)定,正確率獎(jiǎng)勵(lì)分?jǐn)?shù)逐漸下降,而 GDPO 則繼續(xù)改善。此外,盡管兩者都保持了近乎完美的長(zhǎng)度分?jǐn)?shù),但 GRPO 的最大響應(yīng)長(zhǎng)度在約 400 步后開始急劇增加,而 GDPO 的最大響應(yīng)長(zhǎng)度則持續(xù)下降。圖 9 和圖 10 中 DeepSeek-R1-7B 和 Qwen3-4B-Instruct 的訓(xùn)練曲線也顯示出類似的觀察結(jié)果。



表 3 的基準(zhǔn)測(cè)試結(jié)果表明,GDPO 訓(xùn)練的模型不僅在推理效率上比原始模型取得顯著提升(AIME 上超長(zhǎng)比例降低高達(dá) 80%),而且在大多數(shù)任務(wù)上也取得了更高的準(zhǔn)確率。對(duì)于 DeepSeek-R1-1.5B,GDPO 在所有基準(zhǔn)測(cè)試上都優(yōu)于 GRPO,在 MATH、AIME 和 Olympiad 上分別取得了 2.6%/6.7%/2.3% 的準(zhǔn)確率提升。DeepSeek-R1-7B 和 Qwen3-4B-Instruct 也呈現(xiàn)類似趨勢(shì),GDPO 在更具挑戰(zhàn)性的 AIME 基準(zhǔn)測(cè)試上將準(zhǔn)確率提高了近 3%,同時(shí)將超長(zhǎng)率分別降低至 0.2% 和 0.1%。



代碼推理

作者在代碼推理任務(wù)上檢驗(yàn) GDPO 在優(yōu)化兩個(gè)以上獎(jiǎng)勵(lì)時(shí)是否仍然優(yōu)于 GRPO。如表 5 所示,在雙獎(jiǎng)勵(lì)設(shè)置下,GDPO 在所有任務(wù)上都提升了通過(guò)率,同時(shí)保持相似的超長(zhǎng)比例。例如,GDPO 在 Codecontests 上將通過(guò)率提高了 2.6%,而超長(zhǎng)比例僅增加 0.1%;在 Taco 上取得了 3.3% 的通過(guò)率提升,同時(shí)將超長(zhǎng)違規(guī)降低了 1%。



在三獎(jiǎng)勵(lì)設(shè)置下也呈現(xiàn)類似模式,GDPO 在所有目標(biāo)上都實(shí)現(xiàn)了更有利的平衡,在保持與 GRPO 相似通過(guò)率的同時(shí),顯著降低了超長(zhǎng)比例和 bug 比例。

總體而言,這些結(jié)果表明 GDPO 在獎(jiǎng)勵(lì)信號(hào)數(shù)量增加時(shí)仍然有效,在雙獎(jiǎng)勵(lì)和三獎(jiǎng)勵(lì)配置中都始終比 GRPO 實(shí)現(xiàn)更優(yōu)的跨目標(biāo)權(quán)衡。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
被關(guān)押一周后,馬杜羅在美國(guó)監(jiān)獄傳來(lái)消息,委內(nèi)瑞拉代總統(tǒng):誓要解救馬杜羅

被關(guān)押一周后,馬杜羅在美國(guó)監(jiān)獄傳來(lái)消息,委內(nèi)瑞拉代總統(tǒng):誓要解救馬杜羅

兵器評(píng)論
2026-01-12 19:11:48
洗碗機(jī)后續(xù),女方提離婚,知情人女方真實(shí)情況,身上buff疊滿了

洗碗機(jī)后續(xù),女方提離婚,知情人女方真實(shí)情況,身上buff疊滿了

辣條小劇場(chǎng)
2026-01-10 05:57:26
特朗普失控,末日飛機(jī)起飛!中俄已作決定,哈梅內(nèi)伊頭像變更。

特朗普失控,末日飛機(jī)起飛!中俄已作決定,哈梅內(nèi)伊頭像變更。

時(shí)時(shí)有聊
2026-01-12 09:45:31
2026年,你敢不敢用一年的時(shí)間重啟人生

2026年,你敢不敢用一年的時(shí)間重啟人生

洞見
2026-01-06 21:17:51
斯諾克賽程:決出4席8強(qiáng),趙心童大師賽首秀,中國(guó)軍團(tuán)3連勝?

斯諾克賽程:決出4席8強(qiáng),趙心童大師賽首秀,中國(guó)軍團(tuán)3連勝?

劉姚堯的文字城堡
2026-01-12 08:08:40
唉!2米22中鋒,全場(chǎng)得0分,頂薪老將瞎扔,13中3,這球不輸才怪

唉!2米22中鋒,全場(chǎng)得0分,頂薪老將瞎扔,13中3,這球不輸才怪

金山話體育
2026-01-12 07:21:23
“背叛”還是“害怕”?從拒絕雷軍到被吉利收購(gòu),黃章被資本驅(qū)逐

“背叛”還是“害怕”?從拒絕雷軍到被吉利收購(gòu),黃章被資本驅(qū)逐

一號(hào)位故事
2025-11-01 11:59:06
廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

廣州小學(xué)生被抽血事件:告訴爸媽就扣小紅花

每日一見
2026-01-02 12:21:28
中超轉(zhuǎn)會(huì)動(dòng)態(tài):上賽季第十官宣10人離隊(duì),賽季15球外援在列

中超轉(zhuǎn)會(huì)動(dòng)態(tài):上賽季第十官宣10人離隊(duì),賽季15球外援在列

中超偽球迷
2026-01-12 19:08:21
曝周定洋將加盟新鵬城!雙方已簽約,記者:一點(diǎn)讓他選擇深圳

曝周定洋將加盟新鵬城!雙方已簽約,記者:一點(diǎn)讓他選擇深圳

奧拜爾
2026-01-12 23:03:08
在美國(guó)你買了房,房子是你的不假,房屋產(chǎn)權(quán)永久也不假

在美國(guó)你買了房,房子是你的不假,房屋產(chǎn)權(quán)永久也不假

忠于法紀(jì)
2026-01-10 19:43:35
-10℃!又要下雪!安徽雨雪速報(bào)

-10℃!又要下雪!安徽雨雪速報(bào)

環(huán)球網(wǎng)資訊
2026-01-12 10:41:06
偌大的海南島面積足有3.4萬(wàn)平方公里,為啥卻少有大型港口呢?

偌大的海南島面積足有3.4萬(wàn)平方公里,為啥卻少有大型港口呢?

向航說(shuō)
2025-12-12 00:40:02
多哈冠軍賽落幕,誕生3個(gè)贏家和4個(gè)輸家,棟曼與張本兄妹在列

多哈冠軍賽落幕,誕生3個(gè)贏家和4個(gè)輸家,棟曼與張本兄妹在列

王投吃吃喝喝
2026-01-12 13:28:58
向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

向太曝馬伊琍已再婚:當(dāng)年文章過(guò)不了心理那關(guān)

娛樂(lè)看阿敞
2025-12-12 15:50:00
今年起公司給個(gè)人支付勞務(wù)費(fèi),需代扣代繳增值稅

今年起公司給個(gè)人支付勞務(wù)費(fèi),需代扣代繳增值稅

極目新聞
2026-01-12 20:46:55
老板大氣!蘇州一工廠給員工發(fā)年終獎(jiǎng),按工齡1年1000,上不封頂

老板大氣!蘇州一工廠給員工發(fā)年終獎(jiǎng),按工齡1年1000,上不封頂

火山詩(shī)話
2026-01-12 06:54:34
成人游戲Mod遭"滅頂之災(zāi)"?GitHub突發(fā)大規(guī)模封殺

成人游戲Mod遭"滅頂之災(zāi)"?GitHub突發(fā)大規(guī)模封殺

游民星空
2026-01-12 11:14:14
財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

財(cái)政壓力的下半場(chǎng):退休人員占比近四成,才是硬賬

超先聲
2026-01-09 16:45:39
波斯在中東的處境,這幾年為何這么難?一切都要從大弟沒(méi)錢了說(shuō)起

波斯在中東的處境,這幾年為何這么難?一切都要從大弟沒(méi)錢了說(shuō)起

歷史擺渡
2026-01-12 16:55:03
2026-01-13 00:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12100文章數(shù) 142535關(guān)注度
往期回顧 全部

科技要聞

面對(duì)SpaceX瘋狂“下餃子” 中國(guó)正面接招

頭條要聞

日媒:高市連續(xù)兩日閉門不出 不回應(yīng)媒體采訪請(qǐng)求

頭條要聞

日媒:高市連續(xù)兩日閉門不出 不回應(yīng)媒體采訪請(qǐng)求

體育要聞

一場(chǎng)安東尼奧式勝利,給中國(guó)足球帶來(lái)驚喜

娛樂(lè)要聞

蔡少芬結(jié)婚18周年,與張晉過(guò)二人世界

財(cái)經(jīng)要聞

倍輕松信披迷霧 實(shí)控人占用資金金額存疑

汽車要聞

增配不加價(jià) 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

教育
手機(jī)
時(shí)尚
數(shù)碼
軍事航空

教育要聞

勸退:英國(guó)挨罵率最高的專業(yè)!

手機(jī)要聞

小米17沖上熱搜第二!系列銷量破300萬(wàn):國(guó)產(chǎn)新旗艦最強(qiáng)

看了日本主婦的搭配才明白,年紀(jì)大了這么穿,優(yōu)雅又不油膩

數(shù)碼要聞

ID - COOLING酷凜AT - 120系列機(jī)箱風(fēng)扇開售,59元起

軍事要聞

官方確認(rèn):殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機(jī)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版