国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊 Hy3 preview來了!姚順雨印跡明顯,混元重回牌桌|附實測

0
分享至


作者 | 董道力
郵箱 | dongdaoli@pingwest.com

4 月 23 日,騰訊正式發(fā)布 Hy3 preview。這是混元經(jīng)歷團隊重組、架構重構,以及明星科學家姚順雨接手關鍵團隊后,交出的第一份成績單。

官方口徑稱:Hy3 preview 有295B 總參數(shù)、21B 激活參數(shù)、256K 上下文,快慢思考融合的 MoE 架構,定位"解決真實世界復雜工程問題"。


我們在第一時間測試后發(fā)現(xiàn),Hy3 preview 并不是當前最強的模型,但此前騰訊真正的問題是沒有一個夠用的基座,能撐起自己的產(chǎn)品線,同時在模型能力上回到牌桌上。


從這個標準看,Hy3 preview 給出了一個肯定的答案。

我們的測試圍繞這個定位設計:真實世界的復雜工程問題,這也是姚順雨加入騰訊后一直在強調(diào)的方向。

他到騰訊參與的第一篇論文叫CL-bench,全稱Context Learning Benchmark,在這個研究里它沒有考察模型推理能力或代碼生成,而是在追問一件更基礎的事:對于上下文,模型真的讀進去了嗎?這對真實世界至關重要。


當時的研究結論很難看,十個前沿模型平均任務解決率只有 17.2%。

在模型發(fā)布后,騰訊首席AI科學家姚順雨表示,Hy3 preview是混元大模型重建的第一步!拔覀兿Mㄟ^這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續(xù)擴大預訓練和強化學習的規(guī)模,提升模型的智能上限,并通過與騰訊眾多產(chǎn)品的深度Co-Design,持續(xù)提升模型在真實場景中的綜合表現(xiàn),并開始探索特色模型能力!

我們在這次第一時間的測試里,就用了姚順雨“辣評”其他模型的方法,來看看Hy3 preview的表現(xiàn)。

1

實測 Hy3 preview

測試 1:做個人展示頁

網(wǎng)站開發(fā)對模型來說并不稀奇,但可以看出一個模型的審美能力。

在 workbuddy 中,選擇 Hy3 preview,模型。讓其幫我設計一個個人展示頁,UI 設計要有現(xiàn)代藝術感,要有炫酷的動效。

可以看到,Hy3 preview 首選的是比較科幻的風格,開頭文字的報錯設計,以及后續(xù)滾動彈出效果,以及鼠標交互效果都有,并不是常見的 AI 味很重的網(wǎng)頁。

測試 2:核實內(nèi)容,打敗幻覺

AI 時代,流言滿天飛,DeepSeek V4 鴿了又鴿,永遠在"下周發(fā)布";家族群每隔幾天就冒出一條 AI 生成的假新聞,真假混在一起,比以前更難分辨。

我們決定換個思路,既然 AI 會制造噪音,那讓 AI 來核實噪音呢?

我們嘗試讓 Hy3 preview,核實一下最近比較火的“魚油到底有沒有用的爭議”

任務不是簡單的"查一查",而是需要其提供完整的信源分析,搜集不同背景的來源,識別矛盾點,給出信度評分。

Hy3 preview 同時調(diào)取了央視、騰訊新聞、澎湃、FTC 執(zhí)法記錄、Nature/Scientific Reports 以及 PubMed/Cochrane,共 7 個信源。此外,它沒有給出模糊的"存在爭議"式結論,而是把問題拆開,針對健康人群給出 35 分低信度,針對心血管疾病患者給出 65 分,有效性高度依賴人群、劑量和產(chǎn)品純度等。

它還識別出市場層面的信息污染,央視調(diào)查發(fā)現(xiàn)有直播間銷售的"高純度魚油"實際未檢出任何 EPA、DHA;FTC 執(zhí)法記錄顯示 BASF 自己贊助的臨床試驗中產(chǎn)品效果不優(yōu)于安慰劑。


當然,報告也有局限,信度評分有偽精確感,對小鼠實驗的篇幅略重,對人體意義并不大。但重點是 Hy3 preview 引用信源的能力,知道什是官媒、什么是專業(yè)作者,什么是學術論文。

測試 3:針對權限虛假文檔答題

為了驗證 Hy3 preview 的 context learning 能力,我們參照 CL-Bench 的核心設計原則,測試材料必須是模型預訓練階段從未見過的內(nèi)容,正確答案只能從當下提供的文檔中推導,設計了道工業(yè)操作手冊題。

我們虛構了一份參數(shù)密集的《Helios-7 壓縮機組操作手冊》,將關鍵判斷條件藏在第 4.3 節(jié)的注意事項中:振動超限期間,若同時出現(xiàn)主軸承溫度超過 82°C,須立即停機,不得嘗試降速運行。

Hy3 preview 回答正確。它找到了第 4.3 節(jié)的禁止條款,判斷操作員做法不正確,理由準確指向軸承溫度 84°C 已超過 82°C 閾值這一關鍵事實,沒有用"降速是保守操作"的工程常識覆蓋文檔規(guī)則。


但有一個細節(jié)值得注意。Hy3 preview 的回答開頭出現(xiàn)了一段思維鏈獨白,其中寫道"I need to check what those steps are to determine if reducing speed is the correct response",緊接著卻直接給出了結論。

這個到底是真實推理軌跡還是一種“偽裝”,在解決這種搭建出來的環(huán)境里的問題時,模型的推理過程是否真實反映了它讀取文檔的路徑,值得更多研究。

單題答對不足以定論。CL-Bench 的測試結論是,當前前沿模型的平均任務解決率只有 17.2%,最強模型也不過 23.7%,失敗的主要原因是"讀到了但用錯了"。Hy3 preview 在這道題上沒有犯這個錯誤。

根據(jù)騰訊的數(shù)據(jù),Hy3 preview在CL-Bench的表現(xiàn)也較上一代模型有明顯提升。


測試 4:Agent 能力

說實話,當前模型能力正在趨同,真正拉開差距的反而是 Harness 構建的水平。那么模型能不能用好 Skill,能不能更好適配 Harness,有時比跑分更能說明問題。

我們以 Hy3 Preview 為例,調(diào)用瀏覽器 Skill(要配置 Chrome 遠程調(diào)試)和騰訊在線文檔 Skill,完成了一個世界杯賽程網(wǎng)頁的制作任務,任務中既涵蓋表格、PDF 等多模態(tài)輸出,也將直接檢驗 Hy3 Preview 的 Skill 調(diào)用能力。


可以看到,Hy3 Preview 在 workbuddy 環(huán)境下,為這個任務調(diào)用了 32 個工具,也不知道為啥能那么多。



第一步搜索階段,Hy3 Preview 先完成了瀏覽器環(huán)境檢查,然后檢索并整理出了基本賽事信息:48 支參賽隊、16 個舉辦城市、12 個小組的分組結果,以及賽制和獎金方案。值得注意的是,在啟動瀏覽器之前,它識別出了環(huán)境未就緒的問題,主動停下來提示完成 Node.js 版本檢查和遠程調(diào)試端口配置。

第二步內(nèi)容生成階段,任務切換后模型明顯提速:其直接生成了賽程網(wǎng)頁并完成預覽。相比第一步的大量工具調(diào)用,面對結構清晰、輸出目標明確的任務,模型能夠收斂調(diào)用鏈路。


過程中有一個細節(jié),當我打斷環(huán)境安裝步驟后,Hy3 Preview 會識別并選擇新的方式。在經(jīng)歷瀏覽器自動化和辦公 Skill調(diào)用后,Hy3 preview也成功生成了網(wǎng)頁和對應的多模態(tài)內(nèi)容。

1

補齊短板之后?

四項測試測下來,Hy3 preview 的表現(xiàn)不輸當前主流模型的日常使用水準。代碼生成有審美判斷,信息核實能區(qū)分信源權威度,context learning 的測試里沒有用常識覆蓋規(guī)則,Agent 任務里能識別環(huán)境變化并調(diào)整路徑。

但也有值得持續(xù)觀察的地方。思維鏈的"表演感"是當前推理模型的通病,Hy3 preview 也沒有跳出來。信度評分的偽精確、對小鼠實驗的過度展開,說明信息篩選的權重判斷還有空間。32 步工具調(diào)用完成任務,效率層面不算極致。

這些問題都還在。但它們不是這次評測的主角。

沒人懷疑在AI競爭里,騰訊強大的c端產(chǎn)品能起到的作用。但它有天花板——當用戶開始用 AI 做多步推理、長文檔分析、復雜 Agent 任務,底層模型的能力終究會直接影響留存。產(chǎn)品層能彌補的差距是有限的。

騰訊在 AI 這場仗里,產(chǎn)品腿和模型腿的長度一直不一樣。

Hy3 preview 的出現(xiàn)是一次基模補齊,而不是在模型能力上的超越。

騰訊從來不是靠最強技術贏的公司。微信贏的時候,技術并不比米聊強多少。但技術弱到一定程度,是會拖死產(chǎn)品。

Hy3 preview 在此刻的“任務”也許就在這里:不是要做最強的模型,而是讓騰訊的 AI 產(chǎn)品終于有底氣只用自家的基座。

據(jù)透露,該系列更大尺寸的模型接下來也會發(fā)布,競爭會變得更加有趣了。


點個愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

貝克漢姆迎51歲生日,貝嫂大方曬老公腹肌泳裝,長子沉默令人心寒

譯言
2026-05-03 08:10:06
世乒賽爆冷+丑聞日:張本智和、松島翻車,中國臺北教練發(fā)文炮轟

世乒賽爆冷+丑聞日:張本智和、松島翻車,中國臺北教練發(fā)文炮轟

大秦壁虎白話體育
2026-05-02 23:54:47
別再跟風了!五一最堵五大景點,第5名擠到勸退,第1名直接崩潰

別再跟風了!五一最堵五大景點,第5名擠到勸退,第1名直接崩潰

吃青菜長高
2026-05-03 08:12:17
張雪這張嘴,正在給品牌埋雷

張雪這張嘴,正在給品牌埋雷

全棧遛狗員
2026-04-30 17:12:13
我懷疑,男人更喜歡左邊這一款

我懷疑,男人更喜歡左邊這一款

娛你同歡
2026-05-02 21:44:54
演員陳學冬:2年4次手術,11部作品被下架,如今生活無法自理

演員陳學冬:2年4次手術,11部作品被下架,如今生活無法自理

悅君兮君不知
2026-05-02 11:55:33
退休后才懂:為啥多數(shù)老人不旅游_真正滿世界跑的,竟是這兩類人

退休后才懂:為啥多數(shù)老人不旅游_真正滿世界跑的,竟是這兩類人

心理觀察局
2026-05-03 09:12:14
繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

繼亨德利后,世錦賽六冠王戴維斯也痛批艾倫:這讓斯諾克蒙羞

觀察鑒娛
2026-05-02 15:26:23
人不會無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點

人不會無緣無故患帶狀皰疹!調(diào)查發(fā)現(xiàn):得帶狀皰疹,離不開這5點

岐黃傳人孫大夫
2026-05-01 14:35:03
歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊走了多遠?

歷史第8次黑七!76人掀翻綠軍創(chuàng)造歷史 前7支球隊走了多遠?

羅說NBA
2026-05-03 10:43:20
失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

失蹤的17歲女生遺體已經(jīng)找到,那天她穿上了最好看的裙子和假發(fā)

映射生活的身影
2026-05-02 20:13:26
委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個國家蒸蒸日上?

委內(nèi)瑞拉代總統(tǒng)干了什么,換下馬杜羅后整個國家蒸蒸日上?

錯過美好
2026-05-02 14:40:24
太離譜!華西醫(yī)院五一放假引爭議,被罵想休息別當醫(yī)生,網(wǎng)友吵翻

太離譜!華西醫(yī)院五一放假引爭議,被罵想休息別當醫(yī)生,網(wǎng)友吵翻

譚談社會
2026-05-02 14:27:21
皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續(xù)封神

皇馬悔青腸子!死保姆巴佩的同時,當初錯過的神鋒正在持續(xù)封神

奶蓋熊本熊
2026-05-03 02:07:54
又行了?阿森納完勝6分領跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

又行了?阿森納完勝6分領跑!記者:槍手調(diào)查后決定簽阿爾瓦雷斯

足球偵探
2026-05-03 08:30:16
哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學術勞動者

哈佛研究生大罷工:你們有五百億美元,發(fā)薪水給你的學術勞動者

知識分子
2026-05-02 22:16:41
南昌一樂園過山車空中發(fā)生故障,多名游客被困空中從軌道走下來,文旅局:已督促景區(qū)整改;樂園:有游客的手被倒刺扎傷,已賠償

南昌一樂園過山車空中發(fā)生故障,多名游客被困空中從軌道走下來,文旅局:已督促景區(qū)整改;樂園:有游客的手被倒刺扎傷,已賠償

極目新聞
2026-05-03 10:40:39
搶七轟34+12+6率隊黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤

搶七轟34+12+6率隊黑七,大帝成NBA歷史首人!三巨頭1-3絕境翻盤

鍋子籃球
2026-05-03 11:33:14
退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

退役3年 38歲前皇馬巨星形象全毀:發(fā)福大肚腩 如同60歲

葉青足球世界
2026-05-02 15:22:52
足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足壇瘋狂一夜:阿森納橫掃富勒姆,大巴黎爆冷丟分,巴薩2-1險勝

足球狗說
2026-05-03 05:19:37
2026-05-03 12:52:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎,歡迎來到這個星球。
3054文章數(shù) 10493關注度
往期回顧 全部

科技要聞

庫克罕見"拒答"!蘋果正被AI供應鏈卡脖子

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

頭條要聞

上?萍即髮W王晨輝教授因營救至親不幸去世 年僅39歲

體育要聞

裁判準備下班,結果吳宜澤進了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結婚戒指笑容不斷

財經(jīng)要聞

后巴菲特時代,首場股東會透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺

態(tài)度原創(chuàng)

家居
健康
教育
旅游
房產(chǎn)

家居要聞

靈動實用 生活藝術場

干細胞治燒燙傷面臨這些“瓶頸”

教育要聞

能者不想干,中學行政“空心化”何時休?

旅游要聞

夯!上海人的朋友圈被刷屏!上萬人的震撼場面

房產(chǎn)要聞

五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

無障礙瀏覽 進入關懷版