国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

UC Davis發(fā)現(xiàn):AI評分系統(tǒng)理解個人偏好偏差超20個百分點研究突破

0
分享至


這項由加利福尼亞大學戴維斯分校(University of California, Davis)研究團隊完成的工作,以預印本形式于2026年4月8日發(fā)布在arXiv平臺,編號為arXiv:2604.07343v1,收錄于計算機科學·計算與語言(cs.CL)領域,目前正處于同行評審階段。

你有沒有遇到過這樣的情況:向AI助手提問,它給出的回答在質量上無可挑剔,邏輯清晰、內(nèi)容準確、語氣禮貌,但就是感覺"不對"——不是你真正想要的那種答案。也許你一向喜歡直接溝通、喜歡別人建議你主動和他人交流,但AI卻給了你一堆"自我調(diào)整"的建議,和你的性格完全背道而馳。這種微妙的"不對勁",正是這項研究試圖正面攻克的核心問題。

AI系統(tǒng)的核心目標之一,是讓語言模型的行為與人類價值觀保持一致。為了做到這一點,研究者通常會訓練一個叫做"獎勵模型"的東西——可以把它理解為一位專職"品味評分員"。這位評分員的工作,是在AI生成多個候選回答之后,替人類挑出最好的那一個。這位評分員訓練得越準,AI最終給出的答案就越符合人類期望。問題在于,現(xiàn)有的這位"評分員"主要學的是"大眾口味"——什么是正確的、有用的、無害的——而對于每個人獨特的個人喜好,它幾乎是睜眼瞎。

這項研究的核心貢獻,是構建了一個名為**Personalized RewardBench**(個性化獎勵模型基準測試)的評估工具,用來專門測量這位"評分員"究竟有多懂你這個具體的人。研究團隊在測試了目前最先進的一批AI評分系統(tǒng)之后,得出了一個讓人警醒的結論:即使是表現(xiàn)最好的系統(tǒng),在理解個人偏好這件事上的正確率也不超過76%。換句話說,每四次評分中就有超過一次判斷錯了方向。而當研究者給系統(tǒng)提供完整的個人偏好線索后,理論上能達到的正確率接近99%。這中間超過20個百分點的差距,正是當前AI個性化能力的真實鴻溝。

一、為什么"評分員"這么重要,而它又錯在哪里

要理解這個問題,不妨用一個生活中的比喻來搭建整個理解框架。把AI訓練的過程想象成一家餐廳培養(yǎng)服務員的過程。餐廳雇了一位"品質督導",他的職責是在廚師端出多道菜之后,挑選出最好的那道送給顧客。這位督導經(jīng)過多年訓練,非常擅長判斷一道菜的火候是否到位、擺盤是否精美、食材是否新鮮——這些都是"通用質量標準"。

然而,餐廳的顧客各有不同。有人不吃辣,有人忌口蒜,有人希望分量大,有人則偏愛精致小份。當這位督導面對"哪道菜最好"這個問題時,他給的答案基于的是普遍意義上的烹飪水準,而不是這位具體顧客的口味檔案。結果就是,他送上去的菜在客觀上無可挑剔,但那位對蒜過敏的顧客可能一口都咽不下去。

這個比喻精準地描述了當前AI"獎勵模型"的困境?,F(xiàn)有系統(tǒng),無論是直接輸出分數(shù)的"評分型"系統(tǒng),還是通過推理過程來做比較的"生成型"系統(tǒng),都主要學會了判斷"這個回答在客觀質量上是否優(yōu)秀",而非"這個回答是否符合這位用戶的個人偏好"。

更關鍵的問題在于,現(xiàn)有的基準測試(也就是用來衡量這些評分員表現(xiàn)的"考卷")也存在同樣的盲區(qū)。它們通常通過選擇"質量更差的模型生成的答案"或者"人為注入錯誤的答案"來構造所謂的"錯誤選項",然后看評分員能不能挑出那個"質量更好的選項"。這種考卷考的其實是評分員能不能區(qū)分好壞,而不是能不能區(qū)分"適合你"和"不適合你"。

更糟糕的是,這些考卷上的成績,往往無法準確預測這位"評分員"在真實工作場景中的表現(xiàn)。一個在考卷上得了高分的督導,放在真實的餐廳里,不見得就能讓每位顧客滿意——因為考卷根本沒有測他會不會關注顧客的個人口味。

二、這張全新的"考卷"是怎么設計出來的

為了解決上面這個根本性問題,研究團隊設計了一套全新的評估方式。用餐廳比喻來說,他們做的事情是:先詳細記錄每位顧客的歷史點餐記錄和個人喜好,然后針對每位顧客精心準備兩道菜——一道嚴格按照他的個人口味檔案來做,另一道則故意違背他的口味偏好但在客觀質量上同樣無懈可擊,最后考察督導能不能挑出那道真正符合這位顧客口味的菜。

具體來說,研究團隊利用了一個叫做LaMP-QA的數(shù)據(jù)集作為原材料。這個數(shù)據(jù)集本身是一個"個性化問答"的測試集合,里面收錄了真實用戶提出的問題,以及每個用戶過去的歷史帖子和個人敘述。每道題目都附帶了一套"個人評分標準"——也就是這位用戶在回答這個問題時具體希望看到哪些方面的內(nèi)容,這套標準由人工驗證,契合度評分高達4.9分(滿分5分),可靠性非常高。

研究選取了三個"個人偏好差異最明顯"的領域:藝術與娛樂、生活方式與個人發(fā)展、社會與文化。之所以選這三個方向,是因為這些領域的問題沒有唯一正確答案,完全取決于個人的價值觀、經(jīng)歷和喜好——這正是考驗個性化理解能力的最佳場景。

為了構建每個用戶的個人檔案,團隊使用了一種叫做"檢索增強"的技術。簡單說,就是從用戶過去的大量歷史互動記錄中,自動找出最相關的10條,拼成一份"這個人是誰、他通常關心什么"的簡要畫像。

在生成回答對的環(huán)節(jié),團隊采用了一個關鍵的創(chuàng)新設計。"正確答案"由Google的Gemini-3-Flash模型在明確知曉用戶個人評分標準的情況下生成——相當于廚師拿到了顧客的口味檔案。"錯誤答案"則同樣由這個模型生成,但這次輸入的是"用戶明確不希望看到的內(nèi)容方向"——相當于廚師被告知要刻意避開顧客喜歡的一切,但仍然可以做出客觀上不錯的菜。這樣一來,兩道菜的"通用質量"旗鼓相當,唯一的區(qū)別就在于是否符合這位顧客的個人口味。

整套測試集完全由測試題目組成,沒有任何訓練數(shù)據(jù)混入其中。藝術與娛樂類包含767道題,生活方式類包含989道題,社會與文化類包含1074道題,每道題平均涉及4到5個具體的個人評分維度。

三、人工驗證:這張考卷考的真的是"個人偏好"而非"質量高低"嗎

設計出這套考卷之后,研究團隊需要回答一個關鍵問題:這兩道菜真的只有口味上的差異,而不是一道明顯比另一道做得好嗎?

為此,團隊專門請了人工評審,對所有"正確答案"和"錯誤答案"從四個維度逐一打分。前三個維度衡量通用質量:事實準確性(信息是否正確無誤)、相關性與指令遵循(是否真正回答了問題)、有幫助性與無害性(是否真正有用且沒有不良內(nèi)容)。第四個維度則衡量個性化契合度:這個回答是否真正滿足了這位用戶的個人評分標準。打分范圍從1分(完全不合格)到5分(完全滿足)。

結果驗證了團隊的設計意圖。"正確答案"在三個通用質量維度上的得分分別是:事實準確性約4.94至4.99分,相關性約4.97至4.99分,有幫助性約4.89至4.97分。"錯誤答案"在這三個維度上同樣保持了相當高的水準:事實準確性約4.55至4.72分,相關性約4.50至4.63分,有幫助性約4.30至4.55分。兩類答案的通用質量差距非常有限,都處于"高質量"區(qū)間。

然而在個性化契合度這一維度上,兩者出現(xiàn)了天壤之別。"正確答案"的個人評分標準契合度在4.84至4.93分之間,接近滿分。而"錯誤答案"則跌至1.44至1.49分,幾乎墊底。這個結果清楚地表明:這張考卷里的兩個選項,通用質量上半斤八兩,唯一的決定性差異就是有沒有滿足這位用戶的個人偏好。這正是這套測試想要測量的東西。

四、現(xiàn)有的"評分員"們,成績究竟如何

測試結果出來之后,整體畫面相當令人清醒。研究團隊測試了三大類共二十余個當前最先進的獎勵模型系統(tǒng),涵蓋直接輸出數(shù)值分數(shù)的"標量型獎勵模型"、通過語言推理來比較選項的"生成型獎勵模型",以及專門針對個性化場景微調(diào)過的"個性化獎勵模型"。

即使是表現(xiàn)最好的系統(tǒng),Google的Gemini-3-Flash,也只在"生活方式與個人發(fā)展"這個類別里達到了75.94%的正確率,在"藝術與娛樂"類別里是72.36%,在"社會與文化"類別里是75.51%。GPT-5.1在這三個類別里分別是65.45%、70.88%和66.76%,Anthropic的Claude-Sonnet-4-6則是67.28%、70.68%和73.56%。

在標量型獎勵模型這一類,internlm2-7b-reward的表現(xiàn)相對突出,在生活方式類達到了71.69%,在社會與文化類達到了74.95%。然而令人意外的是,參數(shù)量更大的internlm2-20b版本,在所有三個類別里都不如7b版本——這說明在個性化偏好理解這件事上,模型規(guī)模的擴大并不會自動帶來進步。類似的"越大越差"現(xiàn)象也出現(xiàn)在mR3系列的14B和8B版本之間。

那些專門為個性化場景微調(diào)過的獎勵模型,表現(xiàn)同樣不盡如人意。Bradley-Terry方法在三個類別里分別是63.75%、66.84%和64.99%,PAL方法則更低,最差的情況下只有48.76%到49.34%,幾乎等同于隨機猜測的水平。

與此形成鮮明對比的是,當研究者把真實的個人評分標準直接喂給Gemini-3-Flash,讓它作為一個知道所有個人偏好信息的"理想督導"來判斷時,正確率在三個類別里分別達到了97.78%、99.09%和98.60%——幾乎是滿分。這兩個數(shù)字之間超過20個百分點的巨大差距,既說明這套考卷本身的答案是清晰可辨的(不是題目太難或者本來就沒有正確答案),也說明現(xiàn)有系統(tǒng)的問題根本在于無法推斷和應用用戶的個人偏好。

五、用戶檔案能幫上忙嗎,以及應該怎么用

既然問題在于系統(tǒng)不了解用戶的個人偏好,一個自然的想法是:直接把用戶的歷史檔案塞給這些評分員,讓它們自己去讀,不就行了?

實驗結果給出了一個出乎意料的答案:直接塞反而會讓情況變得更糟。研究團隊發(fā)現(xiàn),在大部分測試模型上,把用戶的歷史檔案直接附加到輸入里,比完全不給檔案信息的情況下表現(xiàn)還要差。原因在于,這些評分員是在標準的"問題-回答"格式下訓練出來的,突然多了一大段"用戶歷史聊天記錄",對它們來說就是格式不匹配的噪聲,不僅沒有幫助,反而造成了干擾——這就好比一個從來沒讀過菜單的服務員,你突然扔給他一疊手寫的顧客日記,他只會更加手足無措。

為了解決這個問題,研究團隊提出了一個兩步走的策略。第一步,先用一個專門訓練過的"翻譯官"(在論文里稱為"計劃器"),把用戶的歷史檔案轉化為結構化的個人評分標準——也就是把那疊手寫日記濃縮成一份簡潔的口味清單,列明"這位顧客喜歡什么、不喜歡什么"。第二步,再把這份口味清單交給評分員,讓它在這個清晰指引下進行評分。

這個"先翻譯,再評分"的方案效果顯著。在Skywork、InternLM、RM-R1和Gemini這四個系列的模型上,使用這個方案之后,性能都有了明顯回升,大多數(shù)情況下不僅彌補了直接注入檔案帶來的損失,而且比完全不用檔案的基準情況還要好。這個結果表明,用戶檔案本身是有價值的信息,關鍵在于用正確的方式把它轉化成評分員能理解的格式。

對于那些專門微調(diào)過的個性化獎勵模型,研究團隊也專門做了對比實驗。結果同樣有趣:參數(shù)量更小的Llama-3.2-3B模型,在加入用戶檔案之后,在生活方式類別里達到了71.99%,在社會與文化類別里達到了72.07%,明顯高于參數(shù)量更大的Llama-3.1-8B在同一場景下的67.04%和68.34%。這再次印證了一個結論:對于個性化理解這種能力,模型架構的適應性和數(shù)據(jù)效率比單純堆砌參數(shù)規(guī)模更重要。

六、考卷上的成績能預測真實工作表現(xiàn)嗎

一套評估工具的價值,最終取決于它能不能準確預測"被評估的系統(tǒng)在實際應用中表現(xiàn)如何"。這是這項研究投入大量精力驗證的另一個核心問題。

研究團隊設計了兩種"真實工作場景"來檢驗這一點。第一種叫做Best-of-N(從N個中選最好的,簡稱BoN):讓一個較小的語言模型(Qwen2.5-0.5B-Instruct)針對每道題目生成16個不同的候選回答,然后讓被測的獎勵模型從中選出它認為最好的一個,最后用一個更強的大模型(Qwen2.5-32B-Instruct)按照用戶的個人評分標準來評判這個被選中的回答質量如何。第二種叫做PPO(近端策略優(yōu)化),這是一種強化學習訓練方法:用被測的獎勵模型直接訓練那個較小的語言模型,讓它的行為朝著獎勵更高的方向調(diào)整,訓練完成后再評估這個被優(yōu)化過的模型在回答問題時的表現(xiàn)。

之所以使用較小的Qwen2.5-0.5B作為受訓模型,是一個刻意的實驗設計:它的基礎能力有限,所以最終表現(xiàn)的好壞主要取決于獎勵模型的引導質量,而不是模型本身的能力。

評估指標方面,團隊使用了四種衡量排名一致性的方法。Spearman's ρ衡量整體排名的單調(diào)一致性,簡單說就是"考卷上排第一的系統(tǒng),在實際工作里是不是也接近第一"。NDCG和Weighted τ則更關注頂部排名的準確性,也就是"最優(yōu)秀的幾個系統(tǒng)有沒有被準確識別出來"。RBO衡量兩個排名列表從頂部開始的重疊程度。

結果相當有說服力。Personalized RewardBench在BoN場景下的NDCG達到了0.9180,Weighted τ達到了0.3409,Spearman's ρ達到了0.2571。在PPO場景下,NDCG達到了0.9265,Weighted τ達到了0.4793,Spearman's ρ達到了0.3714。相比之下,對照基準PersonalRewardBench(來自Chatbot Arena的個性化版本)在BoN場景下的NDCG只有0.6586,Weighted τ甚至是負數(shù)(-0.0736),意味著它的排名結果與實際工作表現(xiàn)完全背道而馳——在考卷上排名高的系統(tǒng),在實際工作中反而表現(xiàn)差。PRISM數(shù)據(jù)集的個性化版本也類似,Weighted τ僅有0.0170,基本等同于沒有預測價值。

換句話說,用Personalized RewardBench的考卷成績來預測哪個評分員在實際工作中表現(xiàn)更好,準確度遠高于現(xiàn)有的其他測試方案。這才是一張好考卷真正應該做到的事情。

說到底,這項研究揭示了當前AI對齊技術中一個被長期低估的盲區(qū)。目前的"品味評分員"們,在判斷"一個回答客觀上夠不夠好"這件事上已經(jīng)相當熟練,但在判斷"這個回答有沒有真正滿足這位用戶的個人需求"時,仍然存在相當大的認知鴻溝。

這個發(fā)現(xiàn)的意義并不局限于技術層面。當AI系統(tǒng)被越來越廣泛地應用于教育輔導、健康建議、生活決策等與個人深度相關的場景時,一個無法準確理解個人偏好的"評分員",可能會在訓練過程中系統(tǒng)性地引導AI產(chǎn)生那種"看起來很好但就是不對"的回答——通用質量合格,個性化體驗糟糕。

研究團隊提出的基準測試工具已經(jīng)開源,可以通過arXiv編號2604.07343查閱完整論文,數(shù)據(jù)集也在Huggingface平臺上公開,供研究者直接使用。正如研究者在論文中指出的,如何訓練出真正具備個性化理解能力的獎勵模型,仍然是一個大有可為的開放問題。畢竟,一位真正稱職的"品味評分員",不只是懂烹飪,還得真正認識每一位顧客。

Q&A

Q1:Personalized RewardBench是什么,和普通的獎勵模型基準測試有什么不同?

A:Personalized RewardBench是由UC Davis團隊構建的一套評估工具,專門用來測試AI獎勵模型能否理解個人偏好。與普通基準測試不同,它構造的兩個候選答案在客觀質量上旗鼓相當,唯一的區(qū)別是一個滿足了用戶的個人評分標準,另一個則故意違背了這些標準。這樣的設計確保測試考察的是"有沒有讀懂這個人",而不是"能不能區(qū)分好壞"。經(jīng)人工驗證,兩類答案在事實準確性、相關性和幫助性方面差異極小,只在個性化契合度上差距巨大。

Q2:現(xiàn)有最先進的AI獎勵模型在個性化偏好理解上表現(xiàn)有多差?

A:根據(jù)這項研究的測試,即使是表現(xiàn)最好的系統(tǒng)(Gemini-3-Flash),正確率也沒有超過76%,在藝術與娛樂類別里只有72.36%。而當研究者給系統(tǒng)提供完整的個人偏好標準作為參考時,理論上能達到的正確率接近99%。這意味著現(xiàn)有系統(tǒng)與理想狀態(tài)之間存在超過20個百分點的差距。更值得注意的是,模型參數(shù)量的增大并不能自動改善這種個性化理解能力,部分大參數(shù)模型反而不如小參數(shù)版本表現(xiàn)好。

Q3:為什么直接把用戶歷史檔案喂給獎勵模型反而會讓效果變差?

A:現(xiàn)有獎勵模型是在標準的"問題-回答"格式下訓練的,沒有處理用戶歷史檔案的能力。直接把大量歷史互動記錄附加到輸入中,會造成訓練格式與測試格式的嚴重不匹配,形成噪聲干擾。研究團隊發(fā)現(xiàn)更有效的做法是先用一個專門訓練過的"計劃器"模塊,把歷史檔案轉化為結構化的個人評分標準,再把這個清晰的口味清單交給獎勵模型。這種兩步走的方案在多個模型系列上都能穩(wěn)定提升性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
綜合ROI時代,這些高速增長的商家做對了什么?

綜合ROI時代,這些高速增長的商家做對了什么?

刀法研究所
2026-04-16 15:00:13
G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

G2湖人101-94戰(zhàn)勝火箭 球員評價:4人優(yōu)秀,3人及格,2人低迷

籃球資訊達人
2026-04-22 13:27:16
注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

注意!6月1日起大醫(yī)院不再隨意接診,看病不按規(guī)矩可能白跑

夜深愛雜談
2026-04-21 07:45:20
iPhone Fold 國內(nèi)售價1.4萬元?散熱方案曝光,這次信息量有點大

iPhone Fold 國內(nèi)售價1.4萬元?散熱方案曝光,這次信息量有點大

數(shù)碼Antenna
2026-04-22 11:47:48
建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

建國后外逃級別最高的貪官!至今未落網(wǎng),23年來逃跑方式仍是謎

老范談史
2026-04-22 16:45:31
段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

段睿悲痛萬分,深夜發(fā)布訃告:他走了,再也沒有人等我回去了!

米果說識
2026-04-22 14:41:50
到賬230億,賈躍亭起飛!

到賬230億,賈躍亭起飛!

鳴金網(wǎng)
2026-04-21 19:58:22
華為乾崑的3次“死磕”舉動,成了車圈最難抄的作業(yè)

華為乾崑的3次“死磕”舉動,成了車圈最難抄的作業(yè)

金錯刀
2026-04-21 14:22:17
炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

炸裂!網(wǎng)傳寧波某豪宅業(yè)主群夫妻大戰(zhàn),虎狼之詞流出,444人圍觀

火山詩話
2026-04-22 17:56:13
拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網(wǎng),市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

你寫的Skill,正在拖慢模型?策略式Gene才是正確答案

機器之心Pro
2026-04-21 18:54:52
5月1日起正式嚴打!8類灰色行為直接入刑,所有人務必警惕

5月1日起正式嚴打!8類灰色行為直接入刑,所有人務必警惕

另子維愛讀史
2026-04-22 07:39:03
曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

曾高喊打敗美帝:如今卻全家跑去美國,84歲活成這樣,引人熱議!

小莜讀史
2026-04-20 22:58:35
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

情侶約會求“刺激”,雙雙被抓,審訊時互相甩鍋

深圳晚報
2026-04-22 10:11:17
讓華北的地下水上一次熱搜吧!

讓華北的地下水上一次熱搜吧!

細雨中的呼喊
2026-04-22 13:29:31
2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

2013年,江青拍攝的照片以34萬元的高價拍出,毛澤東曾稱贊并題詞

南書房
2026-04-21 07:25:06
俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

俄羅斯為什么刪除20年法院數(shù)據(jù):審判記錄一夜清空

律法刑道
2026-04-22 08:53:34
把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

把 DeepSeek、Kimi、智譜和 MiniMax 拉進群聊

愛范兒
2026-04-21 22:36:25
出海更難了!俄朝圖們江公路大橋合攏,預計今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預計今年6月正式通車

全城探秘
2026-04-22 16:41:13
2026-04-22 19:39:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國道歉

體育要聞

網(wǎng)易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態(tài)度原創(chuàng)

數(shù)碼
教育
房產(chǎn)
手機
公開課

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

教育要聞

【媒體聚焦】南方工報 | 廣東省教育研究院走進湛江開展教研幫扶

房產(chǎn)要聞

官宣!今年9月起,廣州中小學“重點班”將成歷史!

手機要聞

續(xù)航滅霸降臨!vivo Y600 Pro 全配置曝光,10200mAh 電池沖擊中端機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版