国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

英偉達(dá)巧用8B模型秒掉GPT-5,開源了

0
分享至

英偉達(dá)端著一個(gè)8B小模型對(duì)GPT-5說:

不好意思,你還得練(bushi)。

何出此言?——英偉達(dá)攜手香港大學(xué)開源的Orchestrator-8B,人類終極考試HLE分?jǐn)?shù)更高、花錢更少、跑起來速度還更快。



哦對(duì)了,還在HuggingFace被狂贊,沖到了熱門模型前五。



而它超越GPT-5的打法是不當(dāng)推理者,而是“工具主理人”,協(xié)調(diào)使用各路工具。

如何吊打GPT-5?

人在解決問題時(shí)會(huì)找各種幫手,比如搜索引擎、計(jì)算器 ,那這個(gè)工作能不能由模型代勞?

Orchestrator干的就是這事兒。

雖然自己只有8B參數(shù),但手下管著一整個(gè)工具團(tuán)隊(duì)。

既有GPT-5、Claude Opus 4.1這樣的頂級(jí)大模型,也有Qwen2.5-Math這樣的專業(yè)數(shù)學(xué)工具,還有網(wǎng)頁(yè)搜索、本地檢索、代碼解釋器這些實(shí)用小幫手。



它并不是自己解題,而是判斷現(xiàn)在該用哪個(gè)工具、控制工具的順序和使用次數(shù)、還能兼顧效果、成本、用戶偏好,工作日常如下:

  • 拿到難題先分析:這題需要算數(shù)學(xué)?那就調(diào)用Qwen2.5-Math;
  • 過程中動(dòng)態(tài)調(diào)整:搜完資料發(fā)現(xiàn)需要驗(yàn)證?那就先用代碼解釋器跑一遍;
  • 全程把控用戶偏好:用戶說要省錢,那GPT-5能不用就不用,優(yōu)先用本地工具。

簡(jiǎn)單說,大模型是一個(gè)人干所有活,而Orchestrator-8B是帶著團(tuán)隊(duì)干專業(yè)活。



能讓小模型精準(zhǔn)協(xié)調(diào)這么多工具,全靠英偉達(dá)的ToolOrchestra訓(xùn)練大法。

核心有兩個(gè),一個(gè)是有獎(jiǎng)有罰的強(qiáng)化學(xué)習(xí),一個(gè)是量身定制的ToolScale數(shù)據(jù)集。

訓(xùn)練時(shí)給Orchestrator立了三條獎(jiǎng)懲規(guī)則:

  • 效果獎(jiǎng):讓GPT-5判對(duì)錯(cuò),解題對(duì)了加分,錯(cuò)了扣分;
  • 效率獎(jiǎng):用的錢少、耗時(shí)短加分,反之扣分;
  • 偏好獎(jiǎng):聽用戶的話加分,比如用戶要隱私保護(hù),多用本地搜索就加分。

研究者建了個(gè)包含金融、醫(yī)療、電商、旅游等10個(gè)領(lǐng)域的訓(xùn)練素材庫(kù),里面全是“怎么用工具解題”的案例,讓模型充分接觸各類場(chǎng)景。

Orchestrator-8B也在權(quán)威測(cè)試中交出了令人滿意的答卷。



HLE測(cè)試?yán)锼孟?7.1%的得分,超過GPT-5的35.1%,成本卻僅為后者的1/2.5;



FRAMES、τ2-Bench測(cè)試中也拿下SOTA成績(jī),降低了開支,運(yùn)行速度更是快了一倍多。

小模型的逆襲

實(shí)際上,在AI領(lǐng)域工具編排和小模型驅(qū)動(dòng)復(fù)合系統(tǒng)的賽道上,英偉達(dá)ToolOrchestra訓(xùn)練的Orchestrator-8B并非孤例。

最早探索讓小模型學(xué)會(huì)調(diào)用工具的代表性研究,是谷歌DeepMind在2023年提出的Toolformer,通過監(jiān)督學(xué)習(xí)+自生成數(shù)據(jù),讓12B參數(shù)的模型學(xué)會(huì)調(diào)用計(jì)算器、翻譯API、搜索引擎等基礎(chǔ)工具;

但當(dāng)時(shí),Toolformer僅聚焦基礎(chǔ)工具,并沒有把大模型納入工具庫(kù)。

MIT和CMU聯(lián)合團(tuán)隊(duì)的ToolRL,提出以獎(jiǎng)勵(lì)為核心的工具學(xué)習(xí)框架,訓(xùn)練小模型通過強(qiáng)化學(xué)習(xí)動(dòng)態(tài)選擇工具,主要是解決“傳統(tǒng)工具學(xué)習(xí)過度依賴人工標(biāo)注數(shù)據(jù)” 的問題,通過自動(dòng)生成工具交互軌跡訓(xùn)練模型。

雖然也是獎(jiǎng)勵(lì)機(jī)制,但ToolRL的獎(jiǎng)勵(lì)函數(shù)更側(cè)重于任務(wù)的正確性和工具調(diào)用效率,并沒有明確納入用戶偏好,且工具庫(kù)以基礎(chǔ)工具和專業(yè)API為主。

今年,香港大學(xué)和微軟提出的Optimal Tool Calls(OCT),也是專門針對(duì)“工具調(diào)用成本優(yōu)化”的小模型訓(xùn)練方法。

越來越多的團(tuán)隊(duì)在做相關(guān)研究,也有越來越多的人關(guān)注該領(lǐng)域的進(jìn)展。

就拿Orchestrator-8B來說,為什么它能獲得HuggingFace高贊?

最明顯的原因就是實(shí)用。大模型雖強(qiáng),但太貴、太慢,而Orchestrator-8B參數(shù)量小,還能實(shí)現(xiàn)「強(qiáng)+省錢」,直接解決了落地時(shí)的成本難題。

用低成本實(shí)現(xiàn)高智能,這么一看,AI的未來還真不一定是超級(jí)大模型單打獨(dú)斗了。

作者簡(jiǎn)介

Orchestrator-8B這篇論文的一作是香港大學(xué)博士蘇弘錦,主要研究方向是數(shù)據(jù)科學(xué)和自然語(yǔ)言處理,現(xiàn)在英偉達(dá)實(shí)習(xí)。



共一是英偉達(dá)研究院的研究科學(xué)家Shizhe Diao,主要進(jìn)行大型基礎(chǔ)模型的預(yù)訓(xùn)練、高效調(diào)優(yōu)和對(duì)齊方面的研究,曾與字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的李航博士合作。



論文地址:https://arxiv.org/abs/2511.21689
項(xiàng)目主頁(yè):https://research.nvidia.com/labs/lpr/ToolOrchestra/
數(shù)據(jù)集:https://huggingface.co/datasets/nvidia/ToolScale
HuggingFace地址:https://huggingface.co/nvidia/Nemotron-Orchestrator-8B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
后續(xù)!絕情臭豆腐最新進(jìn)展:負(fù)責(zé)人正臉曝光社死,店老板公開道歉

后續(xù)!絕情臭豆腐最新進(jìn)展:負(fù)責(zé)人正臉曝光社死,店老板公開道歉

離離言幾許
2026-02-28 18:08:15
0-1到2-1!卡里克神了:曼聯(lián)奇跡逆襲,神鋒再次破門:8場(chǎng)轟入7球

0-1到2-1!卡里克神了:曼聯(lián)奇跡逆襲,神鋒再次破門:8場(chǎng)轟入7球

足球狗說
2026-03-01 23:58:18
江西女子用公驢器官泡酒,三個(gè)月后給丈夫喝,不料發(fā)生意外

江西女子用公驢器官泡酒,三個(gè)月后給丈夫喝,不料發(fā)生意外

古怪奇談錄
2025-06-28 13:49:02
伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國(guó)被惹怒了

伊朗使用集束彈藥轟炸特拉維夫!以色列淡水廠被炸!美國(guó)被惹怒了

妙知
2026-03-01 15:23:50
一夜虧掉4600億!被限制進(jìn)入中國(guó)市場(chǎng)后,外企炸鍋:饒了我們吧

一夜虧掉4600億!被限制進(jìn)入中國(guó)市場(chǎng)后,外企炸鍋:饒了我們吧

探史
2026-02-22 22:46:21
伊朗德黑蘭被炸給世界上了一課:中國(guó)防空系統(tǒng)到底有多恐怖?

伊朗德黑蘭被炸給世界上了一課:中國(guó)防空系統(tǒng)到底有多恐怖?

荷蘭豆愛健康
2026-03-01 22:22:27
即日起,廣州全面禁止!

即日起,廣州全面禁止!

羊城攻略
2026-03-01 23:03:39
臺(tái)關(guān)注我軍機(jī)活動(dòng)“斷崖式銳減”動(dòng)因

臺(tái)關(guān)注我軍機(jī)活動(dòng)“斷崖式銳減”動(dòng)因

沃德輿情觀察
2026-02-28 23:26:00
69歲伊朗前總統(tǒng)內(nèi)賈德遇襲身亡,從鐵匠之子成長(zhǎng)為總統(tǒng),高舉反美大旗,開創(chuàng)首位非神職人員擔(dān)任總統(tǒng)先例

69歲伊朗前總統(tǒng)內(nèi)賈德遇襲身亡,從鐵匠之子成長(zhǎng)為總統(tǒng),高舉反美大旗,開創(chuàng)首位非神職人員擔(dān)任總統(tǒng)先例

極目新聞
2026-03-02 00:03:17
最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

草莓解說體育
2026-03-02 01:02:37
又涼了一個(gè)

又涼了一個(gè)

求實(shí)處
2026-03-01 00:04:15
這老師真是絕代美人啊!

這老師真是絕代美人啊!

東方不敗然多多
2026-03-01 01:09:31
不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

不到24小時(shí),美以對(duì)伊完成二次打擊,俄媒警告:川普在逼中國(guó)下場(chǎng)

東極妙嚴(yán)
2026-02-28 17:56:12
迪拜多地爆炸聲不斷,世界最高樓與導(dǎo)彈“擦肩而過”;全球唯一七星級(jí)酒店遇襲,游客被巨大爆炸聲驚醒,震感強(qiáng)烈

迪拜多地爆炸聲不斷,世界最高樓與導(dǎo)彈“擦肩而過”;全球唯一七星級(jí)酒店遇襲,游客被巨大爆炸聲驚醒,震感強(qiáng)烈

每日經(jīng)濟(jì)新聞
2026-03-01 15:31:12
中國(guó)95%的房子,其實(shí)已經(jīng)沒有任何投資價(jià)值

中國(guó)95%的房子,其實(shí)已經(jīng)沒有任何投資價(jià)值

流蘇晚晴
2026-03-01 16:56:00
中國(guó)男籃險(xiǎn)勝中國(guó)臺(tái)北!郭士強(qiáng)抱住陳盈駿與王晗,全員吶喊慶祝!

中國(guó)男籃險(xiǎn)勝中國(guó)臺(tái)北!郭士強(qiáng)抱住陳盈駿與王晗,全員吶喊慶祝!

籃球資訊達(dá)人
2026-03-01 18:12:11
男單頒獎(jiǎng)!開心接獎(jiǎng)杯,與莎莎合影現(xiàn)場(chǎng)爆棚,主導(dǎo)男女單冠軍自拍

男單頒獎(jiǎng)!開心接獎(jiǎng)杯,與莎莎合影現(xiàn)場(chǎng)爆棚,主導(dǎo)男女單冠軍自拍

籃球資訊達(dá)人
2026-03-01 21:58:15
再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

再年輕也沒用!22歲健身博主胡洪盛去世,死因曝光,曾減重90斤

青梅侃史啊
2026-02-27 23:44:02
經(jīng)中央軍委批準(zhǔn),全軍今起制發(fā)啟用

經(jīng)中央軍委批準(zhǔn),全軍今起制發(fā)啟用

日照日?qǐng)?bào)
2026-03-01 14:39:13
布倫森打爆福克斯,文班25+13+4帽難救主,尼克斯終結(jié)馬刺11連勝

布倫森打爆??怂?,文班25+13+4帽難救主,尼克斯終結(jié)馬刺11連勝

釘釘陌上花開
2026-03-02 05:22:30
2026-03-02 06:08:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12211文章數(shù) 176399關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

頭條要聞

特朗普警告伊朗“不要報(bào)復(fù)” 伊朗外長(zhǎng)回應(yīng)

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財(cái)經(jīng)要聞

中東局勢(shì)升級(jí) 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計(jì)交付超159萬輛

態(tài)度原創(chuàng)

數(shù)碼
家居
本地
游戲
公開課

數(shù)碼要聞

曝蘋果WWDC 26將推Core AI框架取代Core ML并公布多項(xiàng)AI功能

家居要聞

素色肌理 品意式格調(diào)

本地新聞

津南好·四時(shí)總相宜

以《生化危機(jī)》命名?Capcom解答對(duì)RE引擎的誤讀

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版