国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

騰訊混元「推倒重來」!Hy3-Preview實(shí)測(cè):結(jié)果喜憂參半

0
分享至

國(guó)內(nèi)大模型的競(jìng)爭(zhēng),最近卷得有些讓人眼花繚亂。幾乎每隔一段時(shí)間,就會(huì)有新的模型發(fā)布,配上一張漂亮的跑分截圖,然后悄悄在你的手機(jī) App 里更新,不看新聞你甚至不一定知道自己用的是哪個(gè)版本。

這不,騰訊今天悄悄給元寶更新了全新混元 Hy3-Preview 模型,號(hào)稱是「底層推倒重來的第一作」。主導(dǎo)這次重建的是首席 AI 科學(xué)家姚順雨,他是ReAct 框架的提出者,也是元寶團(tuán)隊(duì)去年從學(xué)術(shù)界挖來的重量級(jí)人物。



(圖源:騰訊混元)

有意思的是,Hy3-Preview刻意回避了跑分競(jìng)賽的路子,提出"評(píng)測(cè)真實(shí)性"原則,主動(dòng)跳出容易被刷榜的公開榜單,改用自建題目和人工評(píng)測(cè)來衡量真實(shí)戰(zhàn)斗力。官方特意強(qiáng)調(diào)了三個(gè)方向的重磅升級(jí),分別是復(fù)雜推理、代碼,以及智能體。



(圖源:雷科技制圖/官方 Promot 制作的網(wǎng)頁游戲)

既然如此,那么小雷也不去看所謂的跑分、數(shù)據(jù)、榜單,直接來一波實(shí)測(cè),就看看在這三個(gè)部分 Hy3-Preview 的表現(xiàn)到底如何。

Hy3代碼實(shí)測(cè):復(fù)雜任務(wù)有點(diǎn)難,生成速度非?

這次我們實(shí)測(cè)圍繞四個(gè)方向展開,分別是網(wǎng)頁生成、游戲編寫、交互建模和 SVG 動(dòng)畫。為了從普通用戶的視角進(jìn)行測(cè)試,我們使用的提示詞全都是偏自然語言的描述,比如"做一個(gè)交互式音樂可視化網(wǎng)站"、"做一個(gè) Roguelike 地牢探索游戲"這種,主要還是為了看看Hy3-Preview在沒有明確指引的情況下,自己會(huì)做哪些決策、能把一件事做到什么程度。



(圖源:雷科技制圖)

第一輪我們來一個(gè)不算很難的 SVG 星圖動(dòng)畫設(shè)計(jì),這個(gè)代碼的難點(diǎn)在于想象自己在一張紙上畫一個(gè)會(huì)動(dòng)的星空,同時(shí)還要讓人能用手指轉(zhuǎn)動(dòng)它、點(diǎn)擊星座看故事,這個(gè)場(chǎng)景其實(shí)在很多天文館也有展示。

在元寶客戶端上使用最新的 Hy3-Preview 模型,輸入提示詞之后,大約 30 秒就完成了代碼輸出,速度非常快。但出來的效果其實(shí)比較一般,基礎(chǔ)框架搭得還算清晰,星星的生成和行星軌道的思路是對(duì)的,可惜流星效果沒有做出來,拖拽交互也出現(xiàn)了問題,星座只有兩個(gè)。



(圖源:雷科技制圖)

為了驗(yàn)證這段提示詞的可行性,我們也嘗試了 Codex 進(jìn)行實(shí)測(cè),同一段提示詞下,Codex 幾乎需要 5 分鐘才能生成網(wǎng)頁,而它也沒有按要求做流星特效,只做了粒子效果,但星座故事是完整的,也有點(diǎn)擊和拖拽效果。



(圖源:雷科技制圖/由 Codex 制作)

接著我們讓它試試看做一個(gè)城市夜景 SVG 動(dòng)畫,這次它把題目要求的東西都做到了,建筑有層次,窗戶真的會(huì)隨機(jī)亮滅,車燈在街道上流動(dòng),閃電有雙閃效果,尤其是窗戶亮滅寫得很細(xì)心。



(圖源:雷科技制圖)

接下來我們就要做一些比較有挑戰(zhàn)性的測(cè)試,比如讓元寶做一個(gè)網(wǎng)頁游戲,而且是模擬建造游戲。這次元寶真的做了一套完整的游戲框架,經(jīng)濟(jì)系統(tǒng)有收入、支出、稅收、維護(hù)費(fèi),每個(gè)月會(huì)結(jié)算一次,甚至有交通、噪音、綠化,還做了隨機(jī)事件,偶爾會(huì)冒出"新居民遷入"或者"稅收增加"的通知。



(圖源:雷科技制圖)

在做一個(gè)經(jīng)典 Roguelike 游戲的時(shí)候,元寶還是稍微有點(diǎn)點(diǎn)掉鏈子,雖然它想到了設(shè)計(jì)戰(zhàn)士/游俠/法師三個(gè)職業(yè),整體的地牢地圖設(shè)計(jì)得也還算合理,但它忘記了最重要的一件事,那就是設(shè)計(jì)敵人。沒有敵人的話,主角就只能在地圖里跑來跑去,也沒法獲得經(jīng)驗(yàn)升級(jí)。



(圖源:雷科技制圖)

最后來到交互建模的部分,我們給出提示詞,要求元寶做一個(gè)點(diǎn)擊位置會(huì)擴(kuò)散出真實(shí)的水波紋的交互特效,而這次元寶給的出的結(jié)果確實(shí)很不錯(cuò),它用了像素級(jí)的波紋疊加把每一幀直接操作 Canvas 的像素?cái)?shù)據(jù),把多個(gè)波紋的強(qiáng)度疊加在一起生成水波紋的效果,其次是三個(gè)控件都真實(shí)可用。

唯一的遺憾可能就是波紋疊加的干涉效果不夠明顯,兩個(gè)波紋交匯的時(shí)候,那種"亮一下"的疊加感偏弱。



(圖源:雷科技制圖)

從這幾輪的代碼測(cè)試來看,Hy3-Preview 在創(chuàng)意執(zhí)行和界面呈現(xiàn)上已經(jīng)進(jìn)入可用的范圍,用來做效果展示類的東西是夠的,但如果任務(wù)本身的要求比較難,元寶可能會(huì)選擇性地先搭好整個(gè)框架,再慢慢詢問你的需求,是否要繼續(xù)增加功能。速度的確是快的,可惜結(jié)果目前看來并不是特別完美。

邏輯推理,元寶被表面現(xiàn)象迷惑?

如果說編程測(cè)試考的是模型能不能"做出來",推理測(cè)試考的就是它能不能"想清楚"。為了考驗(yàn)它的推理能力,我們給 Hy3 Preview 出了四道常識(shí)推理題,沒有公式可以套,全靠對(duì)真實(shí)世界的理解。

結(jié)果有點(diǎn)出乎意料,它在最"聰明"的題上翻了車,卻在最考驗(yàn)?zāi)托牡念}上發(fā)揮穩(wěn)定。

第一道題是個(gè)精心設(shè)計(jì)的陷阱,"一瓶水和一塊冰,放在同一個(gè)保溫箱里密封,24小時(shí)后,保溫箱里的水變多了還是變少了?"正確答案是不變,因?yàn)橄渥用芊,里面的總質(zhì)量哪兒也去不了,冰融化成水、水蒸發(fā)成水汽,形態(tài)在變,總量不動(dòng)。Hy3 的回答是:水變多了。



(圖源:雷科技制圖)

它的理由聽起來頭頭是道,冰在保溫箱里會(huì)升華,水蒸氣遇到冷的瓶壁凝結(jié)成液態(tài)水,所以液態(tài)水增加了。這個(gè)過程描述的單獨(dú)看沒什么問題,升華是真實(shí)存在的,凝結(jié)也是真實(shí)存在的,但它漏掉了一個(gè)前提是箱子是密封的,升華出來的水蒸氣、凝結(jié)回去的液態(tài)水,都還在箱子里,液態(tài)水多了,意味著別的形態(tài)的水就少了,加起來總量守恒。

這是一個(gè)典型的漏看細(xì)節(jié)的錯(cuò)誤,題目里"密封"兩個(gè)字是最重要的條件,它卻把注意力全放在升華和凝結(jié)這兩個(gè)物理過程上,最后給出了一個(gè)聽起來有道理,但是錯(cuò)誤的答案。

不過接下來的題目,它的表現(xiàn)明顯回來了。

第二道題問的是:早上出門,發(fā)現(xiàn)鄰居家報(bào)紙沒拿、車還在、窗簾拉著、燈沒開,能推斷出幾種合理解釋,哪種最可能?這道題沒有標(biāo)準(zhǔn)答案,考的是推斷有沒有層次。



(圖源:雷科技制圖)

它的回答是認(rèn)真的,有把幾種可能性分層列出來,每種解釋都附上了"支持點(diǎn)"和"疑點(diǎn)",最后得出最可能的結(jié)論是鄰居還沒起床,車在說明人大概率在家,窗簾拉著燈沒開符合還在睡覺的狀態(tài),報(bào)紙沒拿是自然結(jié)果。整個(gè)推斷鏈條清晰,沒有直接跳到戲劇性結(jié)論,也沒有把"出事了"這種小概率情況排在第一位。這種"優(yōu)先考慮最平凡的解釋"的判斷方式,其實(shí)是推理里最難的。

第三道題問餐廳為什么把沒人點(diǎn)的最貴菜放在菜單第一頁,它答出了"價(jià)格錨定效應(yīng)",解釋清楚了這道菜的作用不是被點(diǎn)走,而是讓顧客看到它之后覺得后面的菜價(jià)格合理。這個(gè)答案到位,而且它額外說了一點(diǎn),放在第一頁而不是最后一頁,是因?yàn)榈谝粋(gè)看到的數(shù)字對(duì)后續(xù)判斷影響最大,這個(gè)補(bǔ)充說明沒有在題目里,是它自己想到的,這個(gè)值得點(diǎn)贊。



(圖源:雷科技制圖)

綜合四道題來看,Hy3 在常識(shí)推理上呈現(xiàn)出一個(gè)有意思的特點(diǎn),越是需要慢慢思考的題,它越容易出錯(cuò),但需要展開來說的題,它反而發(fā)揮穩(wěn)定。

換句話說,它更擅長(zhǎng)把一個(gè)問題講得有條理,但在判斷"這道題的關(guān)鍵條件是什么"這件事上,有時(shí)候會(huì)被自己的知識(shí)量拖累。第一道題就是最好的例子知道的太多,反而沒注意到題目里最重要的兩個(gè)字。

其實(shí)這不只是 Hy3 的問題,幾乎是所有大模型在常識(shí)推理上的共同現(xiàn)象。真正考驗(yàn)?zāi)P偷,從來不是它知不知道升華和凝結(jié),而是它在一堆知識(shí)涌上來的時(shí)候,能不能先停下來,把題目讀完。

不過,拋開邏輯題之外,這次 Hy3-Preview 的確比之前多了點(diǎn)“活人感”。比如我跟他說“我今天被領(lǐng)導(dǎo)批評(píng)了,心情不好”,它就會(huì)直接安慰我,而不是讓我反思自己的問題,先不說這種做法對(duì)不對(duì),但至少情緒價(jià)值給到了。很多人在這種時(shí)刻,需要的不就是情緒上的安慰嗎?



(圖源:雷科技制圖)

說實(shí)在的,答對(duì)一道推理題不難,但在對(duì)的時(shí)刻說一句對(duì)的話,更難,前者還能靠知識(shí),而后者就只能靠理解了。很顯然,Hy3 Preview 在這件事上,似乎比它的前輩們更有感覺了一點(diǎn)。

Hy3 Preview,有驚喜也有遺憾

測(cè)完這些,有種微妙的對(duì)照感——這個(gè)模型知道自己在做什么,但還沒完全做到。

先說好的地方,創(chuàng)作和表達(dá)是 Hy3 Preview 目前最穩(wěn)定的部分。比如城市夜景動(dòng)畫有審美、有細(xì)節(jié),水波紋的實(shí)現(xiàn)思路選對(duì)了,推理題里的鄰居場(chǎng)景分析層次清晰,聊天回復(fù)也確實(shí)少了那種一眼就能認(rèn)出來的"AI腔"。這些加在一起,說明它在理解需求、組織語言、拿捏表達(dá)上已經(jīng)有了相當(dāng)?shù)姆e累。用來聊天、寫東西、做創(chuàng)意類的任務(wù),體驗(yàn)是真的很不錯(cuò)。

但硬任務(wù)一來,差距就出來了。機(jī)械運(yùn)動(dòng)的物理邏輯錯(cuò)了大半,保溫箱那道題被自己的知識(shí)量帶跑,肉鴿游戲只搭了個(gè)殼。這幾個(gè)案例指向同一個(gè)問題,它能把事情說得頭頭是道,但做起來的效果,其實(shí)還是有一點(diǎn)點(diǎn)不太讓人滿意。

不過放到整個(gè)行業(yè)背景里看,Hy3-Preview 完全是及格線以上的模型。

過去兩年,國(guó)內(nèi)大模型的競(jìng)爭(zhēng)基本圍繞兩件事展開:參數(shù)規(guī)模和榜單排名。誰的參數(shù)更大,誰在 MMLU、GSM8K 上跑得更高,誰就站上發(fā)布會(huì)的 C 位。這種方式在早期是有意義的,它建立了一個(gè)共同的評(píng)判標(biāo)準(zhǔn),讓行業(yè)能快速分出梯隊(duì),就如同手機(jī)性能跑分,分高自然就是強(qiáng)。



(圖源:騰訊混元)

但它的問題也越來越明顯,榜單和真實(shí)體驗(yàn)之間的差距,用戶早就感受到了。一個(gè)在數(shù)學(xué)推理榜單上排名很高的模型,可能在你問它"幫我潤(rùn)色一下這段話"的時(shí)候交出一篇比你原文還“AI”的東西。評(píng)測(cè)題和真實(shí)任務(wù)之間的距離,有時(shí)候比人們想象的要遠(yuǎn)得多。

騰訊這次選擇的方向,某種程度上是在回應(yīng)這個(gè)問題。他們提出不追公開榜單、用真實(shí)場(chǎng)景來驗(yàn)證模型能力,這個(gè)思路本身代表了行業(yè)一種新的成熟度,不是比誰分高,而是比誰真的好用。

從這個(gè)角度來看,Hy3 Preview 的意義不完全在于它現(xiàn)在能做到什么,更在于它選擇了一條更難但更對(duì)的路,那就是放棄刷榜的捷徑,從預(yù)訓(xùn)練到強(qiáng)化學(xué)習(xí)全部推倒重建。三個(gè)多月后交出這樣一份答卷,從雷科技的實(shí)測(cè)來看,驚喜是有的,遺憾也確實(shí)有一點(diǎn)。

Hy3 Preview 目前的位置,在表達(dá)和創(chuàng)意上已經(jīng)夠用,在需要嚴(yán)格正確的任務(wù)上還需要時(shí)間。對(duì)普通用戶來說,現(xiàn)在拿它來聊天、寫東西、處理日常信息,體驗(yàn)是值得一試的。對(duì)于更高的期待,騰訊說了正式版還在路上,更大規(guī)模的模型也在訓(xùn)練中。

而且,既然這個(gè)版本帶了“Preview”這個(gè)后綴,就說明它還沒到正式版本的時(shí)候,或許等到摘掉了這個(gè)后綴,我們就能見識(shí)到混元真實(shí)的實(shí)力了。

2026第十九屆北京國(guó)際汽車展覽會(huì)將于4月24日至5月3日在北京?中國(guó)國(guó)際展覽中心(順義館)和首都國(guó)際會(huì)展中心(新國(guó)展二期)舉行,本屆車展以“領(lǐng)時(shí)代·智未來”為主題,集中展現(xiàn)汽車工業(yè)的更多黑科技。
比亞迪、小米、鴻蒙智行(問界等)、小鵬、蔚來、嵐圖等頭部品牌集結(jié),多款重磅新車首秀;地平線、Momenta、卓馭等供應(yīng)商集體秀肌肉,AI大模型深度賦能,高階智駕、動(dòng)力電池、超快充技術(shù)等前沿科技集中亮相,看點(diǎn)拉滿!
雷科技旗下「電車通」將派出報(bào)道團(tuán)直擊現(xiàn)場(chǎng),以“關(guān)注電動(dòng)車,更懂智能化”的專業(yè)視角,帶來一線獨(dú)家報(bào)道,敬請(qǐng)關(guān)注!



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
倫敦清算所稱人民幣將在外匯期權(quán)交投方面超越日元

倫敦清算所稱人民幣將在外匯期權(quán)交投方面超越日元

財(cái)聯(lián)社
2026-04-23 15:42:04
1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

1898 年,譚嗣同就義,他永遠(yuǎn)不知,自己的后人有多讓人心疼

小燕聊劇
2026-04-14 19:53:58
中日已大吵一架,第三波反擊開始,中方追責(zé)東京,日本老底被扒光

中日已大吵一架,第三波反擊開始,中方追責(zé)東京,日本老底被扒光

伴史緣
2026-04-22 17:13:11
美國(guó)華爾街日?qǐng)?bào):就算把工廠搬到墨西哥印度越南,還是離不開中國(guó)

美國(guó)華爾街日?qǐng)?bào):就算把工廠搬到墨西哥印度越南,還是離不開中國(guó)

泠泠說史
2026-04-23 21:59:18
當(dāng)年無人問津的6部爛片,重溫成了經(jīng)典,最后一部被嚴(yán)重低估了

當(dāng)年無人問津的6部爛片,重溫成了經(jīng)典,最后一部被嚴(yán)重低估了

小Q侃電影
2026-04-23 20:27:45
比封鎖海峽更狠!伊朗亮出終極王牌,霍爾木茲海底光纜或?qū)⒈磺袛?>
    </a>
        <h3>
      <a href=芳芳?xì)v史燴
2026-04-23 18:30:17
說走就走、撤得干干凈凈的人,終究還是回來了。

說走就走、撤得干干凈凈的人,終究還是回來了。

小光侃娛樂
2026-04-20 12:40:03
“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

“說好給2000,他給10元”:2011年75歲男子睡33歲女人拒付錢被殺

漢史趣聞
2026-04-18 15:19:07
沃克:希望下個(gè)賽季我們能讓球迷感到自豪并重返頂級(jí)聯(lián)賽

沃克:希望下個(gè)賽季我們能讓球迷感到自豪并重返頂級(jí)聯(lián)賽

懂球帝
2026-04-23 05:55:44
快滅國(guó)了卻執(zhí)意和中國(guó)斷交,“抱大腿”無望又求援,中方:不慣著

快滅國(guó)了卻執(zhí)意和中國(guó)斷交,“抱大腿”無望又求援,中方:不慣著

黑翼天使
2026-03-30 13:23:53
善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

善惡有報(bào),移居英國(guó)僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

有范又有料
2025-12-17 14:54:06
恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會(huì)壞到什么地步?

恒大夏海鈞:當(dāng)一個(gè)人高智商,有資源,無下限,會(huì)壞到什么地步?

道術(shù)意義
2026-04-08 07:32:08
打發(fā)叫花子!帶領(lǐng)開拓者打進(jìn)季后賽,結(jié)果只給100萬薪資,被拒絕

打發(fā)叫花子!帶領(lǐng)開拓者打進(jìn)季后賽,結(jié)果只給100萬薪資,被拒絕

你的籃球頻道
2026-04-23 11:12:55
一個(gè)國(guó)際政治新詞正式上崗!特朗普又TACO了一次

一個(gè)國(guó)際政治新詞正式上崗!特朗普又TACO了一次

國(guó)是直通車
2026-04-22 19:52:05
賭狗的話能信嗎網(wǎng)友說早些年百度貼吧有個(gè)戒賭吧是最大的一個(gè)貼吧

賭狗的話能信嗎網(wǎng)友說早些年百度貼吧有個(gè)戒賭吧是最大的一個(gè)貼吧

侃神評(píng)故事
2026-04-22 17:25:03
中國(guó)游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

中國(guó)游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

芳姐侃社會(huì)
2026-04-21 16:37:18
剛剛,臺(tái)積電官宣 1.2nm !

剛剛,臺(tái)積電官宣 1.2nm !

EETOP半導(dǎo)體社區(qū)
2026-04-23 07:08:47
結(jié)果來了!東莞194個(gè)村(社區(qū))接受全面巡查

結(jié)果來了!東莞194個(gè)村(社區(qū))接受全面巡查

知肇分子
2026-04-22 23:57:04
重磅官宣!深圳水官高速4月26日免費(fèi)通行!深圳東部即將迎來8000億大爆發(fā)!

重磅官宣!深圳水官高速4月26日免費(fèi)通行!深圳東部即將迎來8000億大爆發(fā)!

深圳夢(mèng)
2026-04-23 19:22:39
太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

太慘了!燃油車再迎大降價(jià):最大跌幅50%,豪華車帶頭“跳水”

沙雕小琳琳
2026-04-23 02:29:16
2026-04-24 02:47:00
雷科技 incentive-icons
雷科技
專注AI硬科技
36917文章數(shù) 812046關(guān)注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產(chǎn)品",但量產(chǎn)難預(yù)測(cè)

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

頭條要聞

以色列:只要美國(guó)同意 將刺殺伊朗最高領(lǐng)袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財(cái)經(jīng)要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預(yù)售30.29萬起 嵐圖泰山X8配896線激光雷達(dá)

態(tài)度原創(chuàng)

游戲
家居
教育
時(shí)尚
親子

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢(shì)

家居要聞

浪漫協(xié)奏 法式風(fēng)格

教育要聞

推薦一款高考志愿卡,五大功能助你解決志愿疑難

李昀銳:林深見木

親子要聞

新華讀報(bào)|打乒乓球有助提高兒童注意力

無障礙瀏覽 進(jìn)入關(guān)懷版