国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek突然更新R1論文:暴增64頁,能公開的全公開了

0
分享至

2025 年 9 月,DeepSeek-R1 論文以封面文章的形式登上 Nature 雜志,成為全球首個通過頂級期刊獨(dú)立同行評審的主流大語言模型。從 2 月 14 日投稿到 9 月 17 日正式發(fā)表,8 位外部專家歷時 5 個月對論文的原創(chuàng)性、方法論和穩(wěn)健性進(jìn)行了嚴(yán)格審查。Nature 在編輯評論中直言:幾乎所有主流大模型都未曾經(jīng)歷過獨(dú)立同行評審,而 DeepSeek 打破了這一空白。

讓人沒想到的是,最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了這篇論文的第二版,頁數(shù)從 22 頁暴增至 86 頁,把此前藏在黑箱里的訓(xùn)練流程、基礎(chǔ)設(shè)施、消融實(shí)驗、中間檢查點(diǎn),乃至失敗嘗試,統(tǒng)統(tǒng)向外界進(jìn)行了展示。


圖丨相關(guān)論文(來源:arXiv)

那么,這 86 頁究竟比原來的 22 頁多出了什么?(關(guān)于基準(zhǔn)測試結(jié)果等初版論文已涉及的部分,我們不再贅述)

GRPO 算法與 RL 基礎(chǔ)設(shè)施

初版論文對 Group Relative Policy Optimization(GRPO,群組相對策略優(yōu)化)的介紹相當(dāng)克制,僅給出核心公式。新版用數(shù)頁篇幅展開對比分析,解釋 GRPO 何以能替代傳統(tǒng)的 Proximal Policy Optimization(PPO,近端策略優(yōu)化)。

PPO 在大模型強(qiáng)化學(xué)習(xí)中應(yīng)用廣泛,但有個麻煩:它需要訓(xùn)練一個與策略模型規(guī)模相當(dāng)?shù)膬r值模型來估計優(yōu)勢函數(shù),計算開銷很大。更棘手的是,價值模型要根據(jù)已生成的部分內(nèi)容預(yù)測最終累積獎勵,這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復(fù)修正、自我否定,早期內(nèi)容和最終答案之間的關(guān)聯(lián)性很弱。

GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出,用組內(nèi)獎勵的均值和標(biāo)準(zhǔn)差做歸一化,得到每個輸出相對于同組其他輸出的優(yōu)勢估計。這種“組內(nèi)排名”的思路規(guī)避了跨時間步的價值預(yù)測,既節(jié)省內(nèi)存,又適配長鏈推理場景。論文給出的對比實(shí)驗顯示,在 MATH 任務(wù)上,PPO 需要仔細(xì)調(diào)參(特別是 GAE 中的 λ 系數(shù))才能接近 GRPO 的效果,而 GRPO 開箱即用。


圖丨 PPO 與 GRPO 的演示(來源:arXiv)

新版論文還首次披露了 RL 訓(xùn)練基礎(chǔ)設(shè)施的完整架構(gòu)。系統(tǒng)分為四個模塊:Rollout 模塊用 vLLM 工作節(jié)點(diǎn)批量采樣響應(yīng);Inference 模塊加載獎勵模型和參考模型做前向推理;Rule-based Reward 模塊計算代碼執(zhí)行、答案匹配等規(guī)則獎勵;Training 模塊完成策略更新。四個模塊之間采用異步調(diào)度和顯存動態(tài)卸載策略。

為加速采樣,Rollout 模塊還用了 Multi-Token Prediction(MTP,多 token 預(yù)測)組件做自投機(jī)解碼,縮短最長樣本的生成耗時??紤]到 DeepSeek-R1-Zero 訓(xùn)練時每個問題要采樣 16 個輸出、單次訓(xùn)練步包含 32 個獨(dú)立問題,這種工程優(yōu)化對整體效率的提升不小。

訓(xùn)練成本方面,新版終于給出了明確數(shù)字:DeepSeek-R1 的增量訓(xùn)練成本約 29.4 萬美元。R1-Zero 訓(xùn)練使用 648 塊 H800 GPU,耗時約 198 小時,成本約 20.2 萬美元;SFT 數(shù)據(jù)創(chuàng)建約 1 萬美元;R1 后續(xù)訓(xùn)練約 8.2 萬美元。這不包含 DeepSeek-V3-Base 基座模型的訓(xùn)練成本(約 556.6 萬美元),但即便全部加總,也遠(yuǎn)低于行業(yè)認(rèn)為的頂級模型訓(xùn)練動輒數(shù)千萬美元的門檻。


圖丨DeepSeek-R1 的訓(xùn)練成本(來源:arXiv)

四階段訓(xùn)練流水線與中間檢查點(diǎn)

初版論文只描述了從 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點(diǎn),完整呈現(xiàn)了四階段訓(xùn)練流水線。


圖丨DeepSeek-R1 的多階段流程。(來源:arXiv)

第一階段是 R1-Zero 的純 RL 訓(xùn)練。基于 DeepSeek-V3-Base,完全不用監(jiān)督微調(diào)(SFT,Supervised Fine-Tuning),僅依靠正確性獎勵和格式獎勵引導(dǎo)模型自主探索推理策略。這一階段的核心發(fā)現(xiàn)是所謂的“Aha Moment”:在某個訓(xùn)練節(jié)點(diǎn),模型突然大量使用“wait”這個詞進(jìn)行自我反思。

論文統(tǒng)計了 10 個代表性反思詞匯(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出現(xiàn)頻率,發(fā)現(xiàn)這些詞匯在訓(xùn)練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思:訓(xùn)練早期幾乎不出現(xiàn),4,000 到 7,000 步偶爾使用,8,000 步之后顯著躍升。


(來源:arXiv)

第二階段是冷啟動 SFT 加第一輪 RL。團(tuán)隊收集了數(shù)千條展示對話式、人類友好思考過程的冷啟動數(shù)據(jù),解決 R1-Zero 可讀性差、語言混雜的問題。RL 訓(xùn)練時引入了語言一致性獎勵,計算目標(biāo)語言詞匯在思維鏈中的占比。消融實(shí)驗表明,這個獎勵會導(dǎo)致推理性能輕微下降(特別是在代碼任務(wù)上),但顯著改善了輸出可讀性。

第三階段是拒絕采樣與大規(guī)模 SFT。從第一輪 RL 的檢查點(diǎn)進(jìn)行拒絕采樣,生成約 60 萬條推理數(shù)據(jù),加上約 20 萬條來自 DeepSeek-V3 流水線的非推理數(shù)據(jù)(寫作、問答、角色扮演等),組成 80 萬樣本的 SFT 數(shù)據(jù)集。這一階段的關(guān)鍵在于平衡推理能力和通用能力,單純的推理 RL 會讓模型在寫作、開放域問答上表現(xiàn)欠佳。

第四階段是全場景 RL,整合基于規(guī)則的推理獎勵和基于偏好模型的通用獎勵。論文提醒,基于偏好模型的獎勵只在最后 400 步引入,過早或過長使用會導(dǎo)致獎勵作弊(reward hacking)現(xiàn)象。

性能對比顯示,從 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)顯著提升,但 AIME 數(shù)學(xué)競賽分?jǐn)?shù)有所下降,這是冷啟動數(shù)據(jù)規(guī)模有限的代價;從 Dev1 到 Dev2,推理性能恢復(fù)并超越 R1-Zero;到 Dev3 和最終版本,各維度都達(dá)到最優(yōu)。

蒸餾與強(qiáng)化學(xué)習(xí)的對比,以及一些關(guān)鍵發(fā)現(xiàn)

新版論文最核心的補(bǔ)充之一,是關(guān)于蒸餾與強(qiáng)化學(xué)習(xí)的對比實(shí)驗。

團(tuán)隊在 Qwen2.5-32B-Base 上進(jìn)行了超過 10,000 步的大規(guī)模 RL 訓(xùn)練,得到 Qwen2.5-32B-Zero。這個模型的性能與 QwQ-32B-Preview 相當(dāng),但顯著落后于從 DeepSeek-R1 蒸餾而來的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 為例,蒸餾模型的 Pass@1 達(dá)到 72.6%,RL 訓(xùn)練模型只有 47.0%。

結(jié)論顯示,對于中小規(guī)模模型,蒸餾比從頭 RL 訓(xùn)練更具性價比。論文的原話是,蒸餾策略既經(jīng)濟(jì)又有效,但要突破人類智能的邊界,可能仍需要更強(qiáng)大的基座模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。

另一組實(shí)驗在 Qwen2-Math-7B 上進(jìn)行。這個模型在 2024 年 8 月發(fā)布,早于 OpenAI o1,確保基座沒接觸過任何推理軌跡數(shù)據(jù)。經(jīng)過約 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表現(xiàn)(22.3%)顯著超過 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。這說明純 RL 確實(shí)能讓模型自主發(fā)展出高級推理策略,而非簡單模仿人類示范。

新版論文還披露了幾條早期的關(guān)鍵發(fā)現(xiàn)。團(tuán)隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓(xùn)練基礎(chǔ),但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應(yīng)長度增加時表現(xiàn)出強(qiáng)烈的重復(fù)傾向,無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規(guī)模架構(gòu),才觀察到實(shí)質(zhì)性提升。這暗示推理能力的涌現(xiàn)可能存在某種規(guī)模門檻。

關(guān)于數(shù)據(jù)來源,論文在同行評審文檔中回應(yīng)了“蒸餾 OpenAI”的質(zhì)疑:DeepSeek-V3-Base 的預(yù)訓(xùn)練數(shù)據(jù)完全來自互聯(lián)網(wǎng),沒有刻意使用合成數(shù)據(jù)。某些網(wǎng)頁可能包含 GPT-4 生成的答案,但這不是有意為之。為防止基準(zhǔn)污染,團(tuán)隊過濾掉了任何與評測問題存在 10-gram 匹配的文本片段,僅數(shù)學(xué)領(lǐng)域就移除了約 600 萬條文本。論文也坦承,n-gram 方法無法防止測試集改寫版本混入,2024 年之前發(fā)布的基準(zhǔn)仍可能有污染風(fēng)險。

新版論文詳細(xì)記錄了團(tuán)隊在 Process Reward Model(PRM , 過程獎勵模型 )上的探索。這本是一個直覺上很合理的方向:不只給最終答案打分,而是對推理過程的每一步提供反饋,把“怎么想”也納入優(yōu)化目標(biāo)。

但落到實(shí)踐里,它很快撞上了三道坎:第一,“一步”到底怎么切分并沒有統(tǒng)一標(biāo)準(zhǔn),邊界劃得粗細(xì)不同,獎勵信號就會變形;第二,要判斷某一步是否正確并不容易,模型自標(biāo)注的可靠性有限,而人工逐步標(biāo)注又幾乎不可能規(guī)?;?;第三,一旦引入基于模型的 PRM 作為獎勵來源,策略模型就不可避免地會學(xué)會“迎合評分器”,獎勵作弊(reward hacking)風(fēng)險隨之上升。

DeepSeek 的結(jié)論是:PRM 用來對 Top-N 候選響應(yīng)做重排序時確實(shí)有效,但放到大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練里,帶來的增益不足以覆蓋額外的復(fù)雜度與計算開銷。

他們也嘗試過 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛樹搜索)。受 AlphaGo 思路啟發(fā),團(tuán)隊設(shè)想把答案拆成更細(xì)的片段,用預(yù)訓(xùn)練的價值模型來引導(dǎo)搜索路徑。

然而在語言生成里,token 級的搜索空間呈指數(shù)級膨脹:擴(kuò)展得更廣會迅速失控,設(shè)置擴(kuò)展上限又容易過早收斂到局部最優(yōu);更要命的是,細(xì)粒度價值模型本身就難訓(xùn)練,AlphaGo 那種價值模型漸進(jìn)提升的閉環(huán)機(jī)制,在這里很難復(fù)現(xiàn)。

論文也特意強(qiáng)調(diào),分享這些失敗經(jīng)驗并不等于否定 PRM 或 MCTS 的潛力,只是它們在 R1 的具體開發(fā)路徑上沒有走通。

安全評估與結(jié)論

安全是新版論文著重補(bǔ)充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質(zhì)疑,團(tuán)隊這次也算是對這些聲音進(jìn)行了回應(yīng)。

在訓(xùn)練層面,團(tuán)隊構(gòu)建了 Safety Reward Model(安全獎勵模型)。與采用成對比較的有用性獎勵模型不同,安全獎勵模型使用逐點(diǎn)方法訓(xùn)練,基于 106,000 條標(biāo)注為“安全”或“不安全”的樣本,學(xué)習(xí)區(qū)分有害與無害響應(yīng)。在第二階段 RL 中,安全獎勵與有用性獎勵、規(guī)則獎勵共同作用,評估范圍覆蓋整個響應(yīng)(包括思維鏈和最終答案),以識別生成過程中可能出現(xiàn)的風(fēng)險內(nèi)容。

在部署層面,官方服務(wù)配備了外部風(fēng)險控制系統(tǒng)。系統(tǒng)分兩步工作:首先對用戶查詢進(jìn)行關(guān)鍵詞匹配,標(biāo)記潛在風(fēng)險對話;隨后將標(biāo)記內(nèi)容與預(yù)設(shè)的風(fēng)險審核提示拼接,送入 DeepSeek-V3 進(jìn)行判斷。審核提示覆蓋 11 類安全標(biāo)準(zhǔn),包括違法活動建議、隱私捏造、高風(fēng)險投資指導(dǎo)等。論文建議部署 R1 的開發(fā)者實(shí)施類似機(jī)制。

評估方面,團(tuán)隊在 6 個公開安全基準(zhǔn)(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結(jié)果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現(xiàn)穩(wěn)健,平均安全分達(dá) 95.0%。

但在 HarmBench 的版權(quán)相關(guān)測試中表現(xiàn)較弱,例如被要求生成歌詞時未能拒絕,導(dǎo)致被判定為不安全。團(tuán)隊還構(gòu)建了內(nèi)部安全測試集,按統(tǒng)一分類標(biāo)準(zhǔn)覆蓋 4 大類 28 個子類的安全場景,并針對多語言安全和越獄攻擊魯棒性進(jìn)行了額外評估。


圖丨6 個公開安全基準(zhǔn)的測試結(jié)果(來源:arXiv)

論文坦承,開源模型的安全風(fēng)險客觀存在。風(fēng)險控制系統(tǒng)能顯著提升服務(wù)安全性,特別是應(yīng)對越獄攻擊時效果明顯,但模型本身在某些邊界場景仍有改進(jìn)空間。

論文最后總結(jié)了幾點(diǎn)核心發(fā)現(xiàn)和局限。核心發(fā)現(xiàn)是:預(yù)訓(xùn)練檢查點(diǎn)本身就具備復(fù)雜推理的潛力,釋放這種潛力的關(guān)鍵不在于大規(guī)模人工標(biāo)注,而在于三個要素:困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復(fù)雜推理行為會在 RL 過程中自然涌現(xiàn)。

同時,團(tuán)隊也指出 DeepSeek-R1 還存在一些局限性,比如結(jié)構(gòu)化輸出和工具調(diào)用能力仍不及現(xiàn)有模型;token 效率有待優(yōu)化,簡單問題存在過度推理現(xiàn)象;非中英文查詢會出現(xiàn)語言混雜;對 prompt 敏感,few-shot 反而降低性能;軟件工程任務(wù)因評估耗時長,未能充分進(jìn)行大規(guī)模 RL,相比 V3 提升有限。

更根本的挑戰(zhàn)在于純 RL 方法本身:它依賴可靠的獎勵信號,而寫作等任務(wù)很難用規(guī)則定義獎勵,用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務(wù),如何擴(kuò)展純 RL 方法仍是開放問題。論文的判斷是,任何能被驗證器有效評估的任務(wù),機(jī)器都有望通過 RL 超越人類;但對于難以構(gòu)建可靠獎勵模型的任務(wù),進(jìn)展可能會慢一些。



參考資料:

1.https://arxiv.org/abs/2501.12948

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
才24歲!女子后悔不已,隱私部位短短一年內(nèi)長滿……醫(yī)生:早該重視了!

才24歲!女子后悔不已,隱私部位短短一年內(nèi)長滿……醫(yī)生:早該重視了!

福建衛(wèi)生報
2026-01-07 12:32:45
WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔(dān)任場外指導(dǎo)

WTT多哈站:一場3-0!王曼昱打敗日本大藤沙月,馬琳擔(dān)任場外指導(dǎo)

齊帥
2026-01-08 20:08:13
張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

張水華在直播說了很多,和361°沒合作,穿是懂感恩,老公不是教練

阿雹娛樂
2026-01-09 15:10:30
湖南省農(nóng)村信用社聯(lián)合社黨委副書記蔣俊文接受審查調(diào)查

湖南省農(nóng)村信用社聯(lián)合社黨委副書記蔣俊文接受審查調(diào)查

界面新聞
2026-01-08 17:03:54
特朗普 再次就騷亂事件對伊朗 發(fā)出威脅

特朗普 再次就騷亂事件對伊朗 發(fā)出威脅

每日經(jīng)濟(jì)新聞
2026-01-09 10:26:13
胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

飯小妹說歷史
2026-01-07 09:30:45
1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

1972年,毛主席當(dāng)眾指著她鼻子罵:你男人跟別人好了,你怎么不離婚?

寄史言志
2026-01-07 21:08:15
商務(wù)部回應(yīng)審查Meta收購Manus

商務(wù)部回應(yīng)審查Meta收購Manus

每日經(jīng)濟(jì)新聞
2026-01-08 16:33:07
斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

斗智:烏克蘭人的“無間道”戰(zhàn)術(shù)

近距離
2026-01-02 10:55:21
曹丕"荒淫無度"在位7年就駕崩?以他的玩法,40歲實(shí)屬是高壽!

曹丕"荒淫無度"在位7年就駕崩?以他的玩法,40歲實(shí)屬是高壽!

沈言論
2026-01-07 18:55:03
國際乒聯(lián)主席坐不住了!亞洲杯樊振東沒參賽,莎莎球迷也開始觀望

國際乒聯(lián)主席坐不住了!亞洲杯樊振東沒參賽,莎莎球迷也開始觀望

查爾菲的筆記
2026-01-08 13:27:11
陳志被捕荷槍實(shí)彈遣返北京,個子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

陳志被捕荷槍實(shí)彈遣返北京,個子矮小藍(lán)色囚衣關(guān)東城區(qū)看守所。

環(huán)球趣聞分享
2026-01-09 13:30:03
日均400萬票的生意官宣終止了!超1931億順豐大撤退?接盤俠贏了

日均400萬票的生意官宣終止了!超1931億順豐大撤退?接盤俠贏了

財經(jīng)八卦
2026-01-08 22:09:41
多晶硅期貨跌停!知情人士:多晶硅龍頭被約談確有其事

多晶硅期貨跌停!知情人士:多晶硅龍頭被約談確有其事

21世紀(jì)經(jīng)濟(jì)報道
2026-01-08 21:23:01
于存為毛澤東做飯11年,1971年毛澤東親自安排:你去給美國人做飯

于存為毛澤東做飯11年,1971年毛澤東親自安排:你去給美國人做飯

歷史龍元閣
2026-01-08 15:20:03
拓媒:裁判對楊瀚森還是吹罰過嚴(yán);跟羅威組雙塔丟籃板不怪他

拓媒:裁判對楊瀚森還是吹罰過嚴(yán);跟羅威組雙塔丟籃板不怪他

懂球帝
2026-01-09 13:15:05
央視直播1月9日多哈冠軍賽, 林詩棟戰(zhàn)杜達(dá),王曼昱對帕瓦德

央視直播1月9日多哈冠軍賽, 林詩棟戰(zhàn)杜達(dá),王曼昱對帕瓦德

乒乓球球
2026-01-09 06:32:19
最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

最年輕的Win11,被24歲的WinXP吊打了?六代系統(tǒng)同臺“對決”,Win11幾乎全線墊底……

CSDN
2026-01-08 18:13:36
流浪柬埔寨20歲女子新進(jìn)展:給她打八萬過去,說回來后會好好做人

流浪柬埔寨20歲女子新進(jìn)展:給她打八萬過去,說回來后會好好做人

江山揮筆
2026-01-08 16:33:57
外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

外交部:中方反對出于政治目的散布與中國有關(guān)的虛假信息

環(huán)球網(wǎng)資訊
2026-01-08 15:38:09
2026-01-09 15:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
16099文章數(shù) 514464關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

"老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

頭條要聞

"老板"拉群開口就要150萬 女財務(wù)付100萬后感覺天塌了

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

檀健次戀愛風(fēng)波越演越烈 上學(xué)經(jīng)歷被扒

財經(jīng)要聞

郁亮的萬科35年:從"寶萬之爭"到"活下去"

汽車要聞

英偉達(dá)的野心:做一套自動駕駛的“安卓系統(tǒng)”

態(tài)度原創(chuàng)

手機(jī)
本地
數(shù)碼
公開課
軍事航空

手機(jī)要聞

摩根大通正式接替高盛,成為蘋果Apple Card發(fā)卡機(jī)構(gòu)

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

數(shù)碼要聞

避免老設(shè)備“變磚”,Bose開源SoundTouch智能音箱API

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:已開始從委石油資源中賺錢

無障礙瀏覽 進(jìn)入關(guān)懷版