国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不卷速度卷驗(yàn)證,陳天橋MiroMind精準(zhǔn)預(yù)測15天后黃金價(jià)格

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

一睜眼!陳天橋帶隊(duì)的大模型黑馬MiroMind再度滿血?dú)w來——

正式發(fā)布新一代重型推理智能體:MiroThinker-1.7MiroThinker-H1



何為重型?延續(xù)V1.5的深度推理基因,但任務(wù)更復(fù)雜、結(jié)果更精確。

眼見為實(shí),以基準(zhǔn)測試為例。

MiroThinker-1.7系列發(fā)布即霸榜多項(xiàng)深度研究任務(wù)測試,其中MiroThinker-H1刷新SOTA,超越Gemini-3.1-Pro、GPT-5.4-Thinking、Claude-4.6-Opus等一眾行業(yè)頂尖閉源模型:

  • BrowseComp(網(wǎng)頁檢索類大模型基準(zhǔn)測試):88.2%
  • BrowseComp-ZH(BrowseComp的中文適配版本):84.4%
  • GAIA-Val-165(GAIA基準(zhǔn)測試驗(yàn)證集):88.5%
  • HLE-Text(人類終極測試):47.7%

另外開源模型MiroThinker-1.7(235B)和小尺寸的MiroThinker-1.7-mini(30B)也在效率與性能之間達(dá)到了最優(yōu)平衡。

換言之,針對差異化的復(fù)雜推理需求,MiroMind已經(jīng)為開發(fā)者們準(zhǔn)備好了各式精準(zhǔn)匹配的模型方案,致力于將算力用在刀刃上。



此外,新模型不僅通用任務(wù)強(qiáng),在科技金融等專業(yè)領(lǐng)域同樣表現(xiàn)亮眼,它跳出了傳統(tǒng)LLM聊天交互的范疇,轉(zhuǎn)而能夠承擔(dān)起真實(shí)的長鏈條智力任務(wù)。

而這是以犧牲模型推理速度為代價(jià)的,所以u1s1,MiroMind真的很大膽。

當(dāng)其它大模型廠商都在卷速度,MiroThinker系列專為復(fù)雜長期任務(wù)而生,結(jié)果V1.5大獲全勝、V1.7再度突破。

下面老規(guī)矩,我們實(shí)測走起~

會賽車、買黃金,MiroThinker才是真懂行

實(shí)測之前,先簡要介紹一下交互界面。

和常規(guī)大模型對話窗口一致,左下角Pro按鈕開啟專業(yè)模式,模型尺寸更大、推理更深入,推理時間也會相應(yīng)延長。

支持文件上傳和語音輸入,還有新上線的MiroMind App可用。



話不多說,先拿最近的F1上海站正賽練練手。眾所周知,受賽車性能、車手狀態(tài)、環(huán)境因素影響,F(xiàn)1比賽結(jié)果預(yù)測難度相當(dāng)之高。

這就非??简?yàn)?zāi)P蛯?shí)時抓取信息、綜合判斷多方面因素的能力。

于是在比賽前2小時、比賽中1小時、比賽最后半小時三個關(guān)鍵時間節(jié)點(diǎn),我們分別讓MiroThinker實(shí)時預(yù)測排名情況,并與真實(shí)結(jié)果進(jìn)行比對。

首先是比賽正式開始前2小時:

  • 在即將舉辦的F1上海站上,對選手排名進(jìn)行預(yù)測。



預(yù)測結(jié)果如何暫且不提,光論推理過程和答案的詳實(shí)程度,就已經(jīng)遙遙領(lǐng)先~

仔細(xì)看模型思考過程,MiroThinker建立起一條極為完整的信息搜索路徑,包括比賽策略、車隊(duì)實(shí)力情況、潛在變數(shù)等:

確認(rèn)正賽時間和地點(diǎn)→收集最新的上海站排位賽、沖刺賽以及當(dāng)前賽季情況輔助→從規(guī)則變化到天氣情況逐步細(xì)化→匯總給出合理預(yù)測。

其中每一步都在反復(fù)驗(yàn)證,以確保后續(xù)推理的可靠性。



至于最終給出的賽前預(yù)測也很全面,先是直接甩出核心結(jié)論一目了然,預(yù)測梅賽德斯大獲全勝、法拉利緊隨、邁凱倫和紅牛位列第二梯隊(duì)。

P.S.模型用詞精準(zhǔn)專業(yè),使用“完賽”這一定語,也是未卜先知到了本次比賽的退賽盛況(doge)



然后給出簡要的預(yù)測邏輯以及觀賽建議,用戶體驗(yàn)感拉滿。



值得一提的是,MiroThinker還支持一鍵生成網(wǎng)頁報(bào)告。就這排版這審美,妥妥的打工人福音~



我們也將該問題同時交給ChatGPT、Gemini和DeepSeek進(jìn)行預(yù)測。

ChatGPT回答相對簡略,對影響變量和預(yù)測理由描述較少。



Gemini的亮點(diǎn)是除了列舉選手排名,還提供賽事核心看點(diǎn),但在整個答案的完整度上還是MiroThinker占優(yōu)。



DeepSeek的預(yù)測結(jié)果只關(guān)注到了選手歷史成績和車輛情況,考慮得不夠深入。

反觀MiroThinker,它是所有模型中,唯一關(guān)注到當(dāng)前天氣狀況的推理大模型,足以證明其專業(yè)度。



再看比賽進(jìn)程中1小時,MiroThinker對實(shí)時信息的抓取更為突出,既關(guān)注到了當(dāng)前的退賽情況,也能有效分析出每位選手的比賽節(jié)奏和車隊(duì)?wèi)?zhàn)略,逐步微調(diào)自己的預(yù)測答案。



到最后30分鐘,MiroThinker給出的預(yù)測答案已經(jīng)和最終結(jié)果完全一致



由此可見,MiroThinker在三次預(yù)測中逐步完成了信息收斂和復(fù)盤優(yōu)化。最終實(shí)現(xiàn),即使F1賽事情況瞬息萬變,但每一次MiroThinker都能給出最貼合當(dāng)前情況的預(yù)測。

有趣的是,再回過頭看第一輪預(yù)測結(jié)果,幾乎所有大模型都預(yù)測梅賽德斯包攬前兩名,但在第三名的預(yù)測上爭斗相當(dāng)激烈,MiroThinker給了和法拉利攜手多年的勒克萊爾,ChatGPT和Gemini支持技術(shù)老道的漢密爾頓,DeepSeek反手給了諾里斯。

結(jié)果萬萬沒想到,邁凱倫雙車退賽、法拉利內(nèi)斗,勒克萊爾再度陷入第四魔咒,“must be the water”(那一定是水)導(dǎo)致的~(doge)



此前,我們也嘗試用MiroThinker預(yù)測金融市場,提前15天預(yù)估黃金價(jià)格。

  • 2026年2月25日的黃金價(jià)格(XAU/USD)會是多少?



模型當(dāng)時預(yù)測金價(jià)是$5185/oz,實(shí)際Fortune報(bào)價(jià)$5181,150 Currency報(bào)價(jià)$5185.89,CME GCG26收盤價(jià)為$5206.40,誤差僅為0.08%($4),保持在合理誤差范圍之內(nèi)。



綜合來看,無論是短期的通用場景預(yù)測,還是中長期的專業(yè)場景預(yù)估,MiroThinker都能做到有理有據(jù),實(shí)際結(jié)果與模型預(yù)測高度吻合,且思考過程全部清晰可見。

雖然它還沒有做到像其它模型一樣秒出答案,需要一到兩分鐘的等待時間,但在答案完整度和邏輯鏈上已經(jīng)是next level,足以應(yīng)對絕大多數(shù)真實(shí)推理任務(wù)。

并非簡單做加法,而是精準(zhǔn)Scaling

那么為什么MiroThinker能夠做到這一點(diǎn)呢?

還要說回模型的核心技術(shù)突破——重型求解器(heavy-duty solver)。

當(dāng)前行業(yè)內(nèi)要提升推理深度,普遍采用的方案是通過強(qiáng)化學(xué)習(xí)將模型CoT運(yùn)算時間延長,這類優(yōu)化后的模型在數(shù)學(xué)、編程等領(lǐng)域表現(xiàn)突出。



而MiroThinker-1.7不僅僅是延長思考時間,更是強(qiáng)調(diào)模型的可驗(yàn)證性和有效交互。具體表現(xiàn)在兩項(xiàng)關(guān)鍵技術(shù)升級上:

1、升級智能體原生訓(xùn)練。

MiroMind注意到一個現(xiàn)象,如果模型每一步?jīng)Q策本身就質(zhì)量不高,即使讓模型完成更多輪的交互,最終結(jié)果也只是在放大低質(zhì)量決策。

所以提升推理性能的關(guān)鍵不是交互次數(shù)的疊加,而是專注增強(qiáng)每一步的質(zhì)量,也就是提升模型的智能體原生能力(agent-native competence),包括三步:

  • 規(guī)劃更可靠:一開始就把問題拆對、把路選對。
  • 推理更準(zhǔn)確:每一步判斷都經(jīng)得起驗(yàn)證和反思。
  • 長程不走偏:在復(fù)雜任務(wù)中始終對齊最終目標(biāo)。

為此,MiroThinker-1.7在訓(xùn)練過程中新增了一個mid-training(中期訓(xùn)練)階段。

借助大規(guī)模的高質(zhì)量任務(wù)數(shù)據(jù),重點(diǎn)訓(xùn)練模型的規(guī)劃、推理和總結(jié)能力,使其建立起更強(qiáng)的Agent基礎(chǔ)能力,比如目標(biāo)分解、選擇合適的工具調(diào)用、理解工具返回結(jié)果、整合生成最終答案。同時該階段也擴(kuò)大了模型的通用性。

在此基礎(chǔ)之上,還會加入SFT(監(jiān)督微調(diào))、DPO(偏好優(yōu)化)、RL(強(qiáng)化學(xué)習(xí))進(jìn)一步將Agent能力內(nèi)化,實(shí)現(xiàn)長時任務(wù)穩(wěn)定推理。



2、以驗(yàn)證為核心的重型推理模式。

然而,要提升單步推理質(zhì)量,也不能僅僅依靠模型自身的Agent推理能力,還需要引入驗(yàn)證器加以約束,可分為局部驗(yàn)證和全局驗(yàn)證:

  • 局部驗(yàn)證:在推理的每一步,系統(tǒng)都會停下來自我審查,只有通過了局部驗(yàn)證,系統(tǒng)才會允許繼續(xù)探索該條路徑。在一定程度上,局部驗(yàn)證能夠打破傳統(tǒng)AI的概率偏置,找到也許當(dāng)下瞬時概率較低但實(shí)則最正確的路徑。
  • 全局驗(yàn)證:在系統(tǒng)生成了幾條完整的推理路徑后,模型會回溯整條數(shù)據(jù)鏈,確保最終答案是推理環(huán)節(jié)最嚴(yán)密的,而不是語義最流暢、看似邏輯自洽的。



總的來說,前者顯著增強(qiáng)智能體原生能力,后者提升交叉驗(yàn)證可信度,二者深度融合,讓模型在面對復(fù)雜推理問題時能夠表現(xiàn)出精準(zhǔn)可驗(yàn)證的交互潛力。

另外值得關(guān)注的是,MiroMind還觀察到一個“反直覺”現(xiàn)象:在引入驗(yàn)證機(jī)制后,模型交互步驟數(shù)量明顯減少。

按照常規(guī)邏輯,往往步數(shù)越多、思考越久,模型性能就越強(qiáng),即Heavy-duty(重型)。

而該現(xiàn)象則說明驗(yàn)證器在這里充當(dāng)?shù)倪€有過濾器的作用,能夠幫助模型及時篩除掉沒有信息增益的步驟,將算力集中分配到真正推動問題求解的環(huán)節(jié)上。

雖然總步數(shù)減少了,但每一步包含的邏輯推理質(zhì)量更高了,整個推理過程變得高效且精密。

這就引出了MiroThinker系列模型的核心理念——擴(kuò)展有效交互。

抓住交互關(guān)鍵,“慢”也能彎道超車

從V1.5到V1.7,模型的每一次迭代都能產(chǎn)生行之有效的結(jié)果,這未嘗不是對MiroThinker交互理念的有力驗(yàn)證。

簡單來說,MiroThinker強(qiáng)調(diào)慢下來、想更多

雖然通過增加對話次數(shù)、工具調(diào)用,能夠非常直觀迅速地刷新基準(zhǔn)測試分?jǐn)?shù),但一旦中間步驟錯誤,錯誤就會像滾雪球一樣累積,直至系統(tǒng)徹底崩潰。

而“慢”推理不追求秒回,而是在行動前暫停、驗(yàn)證、權(quán)衡,確保在當(dāng)前復(fù)雜場景下推得深、推得對。

這種看似不討巧的選擇,反而成就了MiroThinker在大模型市場中獨(dú)樹一幟的風(fēng)格——不急于給出答案,而是專注求證問題背后的深層邏輯。

在算力約束與復(fù)雜任務(wù)的博弈中,MiroThinker沒有盲目堆砌算力,而是更像一位深諳最優(yōu)路徑的理科生,精打細(xì)算將算力落在該去的地方。

結(jié)果也很顯而易見,只要踏實(shí)做好有效交互,慢也不等同于落后,反倒是助力LLM走向真實(shí)物理世界更扎實(shí)。

事實(shí)上,如果仔細(xì)看MiroMind的人才梯隊(duì)建設(shè),同樣也很“穩(wěn)”

從MiroMind誕生之初,時任盛大副總裁、現(xiàn)任MiroMind COO邴立東博士便開始在新加坡牽頭組建初始團(tuán)隊(duì),一路保駕護(hù)航MiroThinker來到V1.7。



如今團(tuán)隊(duì)實(shí)力更是如虎添翼,三位世界級頂尖AI科學(xué)家杜少雷、安波楊凱峪同時加入MiroMind。

他們無一不是模型推理領(lǐng)域的熟手,長期致力于開發(fā)前沿大模型的推理決策能力。他們的加盟,將共同推動MiroThinker朝著會思考、能行動、可信任的方向進(jìn)化,從而直面科學(xué)、金融和工程領(lǐng)域的實(shí)際問題。

至此,隨著核心團(tuán)隊(duì)逐步到位,MiroMind已經(jīng)準(zhǔn)備好更猛烈的下一階段沖鋒。

有技術(shù)、有人才、有資金,還有一以貫之堅(jiān)持的理念,四角齊全的MiroMind,所以看似入場大模型姍姍來遲,實(shí)則每一步都穩(wěn)扎穩(wěn)打,后來者居上也就不足為奇了。

P.S.新模型即將上線官網(wǎng)(https://dr.miromind.ai)提供體驗(yàn)。

GitHub:https://github.com/MiroMindAI/MiroThinker
HuggingFace:https://huggingface.co/collections/miromind-ai/mirothinker-17

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國金花綻放!澳網(wǎng)冠軍救4賽點(diǎn)逆轉(zhuǎn),張帥組合進(jìn)4強(qiáng),PK頭號種子

中國金花綻放!澳網(wǎng)冠軍救4賽點(diǎn)逆轉(zhuǎn),張帥組合進(jìn)4強(qiáng),PK頭號種子

劉姚堯的文字城堡
2026-03-26 07:27:55
留幾手談張雪峰去世言論惹爭議:死者又不是我爹,憑什么為大……

留幾手談張雪峰去世言論惹爭議:死者又不是我爹,憑什么為大……

柴狗夫斯基
2026-03-25 21:01:47
11場10球!皇馬新帥有點(diǎn)神:伯納烏迎回熊皇!貝林厄姆:逆境重生

11場10球!皇馬新帥有點(diǎn)神:伯納烏迎回熊皇!貝林厄姆:逆境重生

萬花筒體育球球
2026-03-25 17:39:15
4、5、6月幸運(yùn)連連的三個生肖,危機(jī)變轉(zhuǎn)機(jī),財(cái)富破土節(jié)節(jié)攀升

4、5、6月幸運(yùn)連連的三個生肖,危機(jī)變轉(zhuǎn)機(jī),財(cái)富破土節(jié)節(jié)攀升

毅談生肖
2026-03-26 11:47:20
小米新SU7上市72小時:客流被稀釋,要拼產(chǎn)品硬功夫

小米新SU7上市72小時:客流被稀釋,要拼產(chǎn)品硬功夫

36氪
2026-03-24 08:09:09
公職人員下班后這5種行為,將嚴(yán)肅處理,千萬別踩紅線!

公職人員下班后這5種行為,將嚴(yán)肅處理,千萬別踩紅線!

細(xì)說職場
2026-03-26 11:13:03
A股:是二次探底開始,還是正常回調(diào),下午會這樣走

A股:是二次探底開始,還是正常回調(diào),下午會這樣走

要奔走的股市
2026-03-26 12:00:29
養(yǎng)肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

養(yǎng)肥了再宰?蒙古對西方巨頭下手了,這一刀也給中國提了個醒

財(cái)經(jīng)保探長
2026-03-19 19:39:45
張雪峰二婚妻子顏值高,正面照片流出,遺產(chǎn)繼承恐陷紛爭

張雪峰二婚妻子顏值高,正面照片流出,遺產(chǎn)繼承恐陷紛爭

老貓觀點(diǎn)
2026-03-26 07:35:34
山東廣饒縣44歲男子騎電動車外出后失聯(lián),最后出現(xiàn)在孫武湖附近

山東廣饒縣44歲男子騎電動車外出后失聯(lián),最后出現(xiàn)在孫武湖附近

好詞好文
2026-03-26 10:20:47
技術(shù)鐵幕下的潰堤:2026烏克蘭用“殺傷區(qū)”戰(zhàn)術(shù)重新定義現(xiàn)代戰(zhàn)爭

技術(shù)鐵幕下的潰堤:2026烏克蘭用“殺傷區(qū)”戰(zhàn)術(shù)重新定義現(xiàn)代戰(zhàn)爭

民間胡扯老哥
2026-03-23 08:06:33
湯加群島發(fā)生7.6級地震

湯加群島發(fā)生7.6級地震

大象新聞
2026-03-24 13:29:06
“老人味”的禍?zhǔn)妆痪境?!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍?zhǔn)妆痪境?!醫(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
莫迪力挺以色列,俄印聯(lián)盟坍塌?普京點(diǎn)名東盟,轉(zhuǎn)手就挖美國墻腳

莫迪力挺以色列,俄印聯(lián)盟坍塌?普京點(diǎn)名東盟,轉(zhuǎn)手就挖美國墻腳

兵說
2026-03-25 10:32:10
以色列批準(zhǔn)戰(zhàn)爭期間征召40萬名預(yù)備役人員!美國陸軍將新兵征召年齡上限從35歲提升至42歲,還給曾犯大麻持有罪的人開綠燈

以色列批準(zhǔn)戰(zhàn)爭期間征召40萬名預(yù)備役人員!美國陸軍將新兵征召年齡上限從35歲提升至42歲,還給曾犯大麻持有罪的人開綠燈

大象新聞
2026-03-25 22:45:22
大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

大意了!張雪峰不同時段坐姿,證明他越來越疲憊了,可惜錯過了

魔都姐姐雜談
2026-03-26 10:53:11
轟43+7又刷八紀(jì)錄!東契奇多次露出燦爛笑容 湖人6連客5勝1負(fù)收官

轟43+7又刷八紀(jì)錄!東契奇多次露出燦爛笑容 湖人6連客5勝1負(fù)收官

顏小白的籃球夢
2026-03-26 09:34:32
鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

鬧大了!美軍東太平洋再開火!打爆44艘運(yùn)輸船,150人被打死!

愛吃醋的貓咪
2026-03-25 20:19:15
山姆緊急下架,“已立案調(diào)查”

山姆緊急下架,“已立案調(diào)查”

天津族
2026-03-26 00:25:01
你家吃灰的舊手機(jī)突然成了香餑餑,但著急賣可能吃大虧

你家吃灰的舊手機(jī)突然成了香餑餑,但著急賣可能吃大虧

金融界
2026-03-25 22:05:13
2026-03-26 12:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12345文章數(shù) 176424關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

家居
本地
時尚
藝術(shù)
公開課

家居要聞

傍海而居 靜觀蝴蝶海

本地新聞

春日吃花第三站——廣東

2026年了,最好看的還是“這件針織”!

藝術(shù)要聞

哪一座橋不是風(fēng)景?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版