国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

6位前DeepMind老將打造「AI指揮官」,一半成本刷新SOTA

0
分享至


新智元報(bào)道

編輯:元宇

【新智元導(dǎo)讀】6位前DeepMind成員以元系統(tǒng)重塑大模型調(diào)用方式,該系統(tǒng)推出的Gemini 3 Pro優(yōu)化技術(shù)在ARC-AGI-2上以54%的成績奪得榜首,而成本僅為此前最優(yōu)方法的一半。

最近,6名前Google DeepMind研究員、工程師又搞大事了。

他們的新初創(chuàng)公司Poetiq沒去研發(fā)更大、更聰明的模型,而是搭建了一個(gè)元系統(tǒng),該系統(tǒng)可以讓前沿大模型自動生成解決特定任務(wù)的策略和模型組合。

這樣不僅解決了前沿模型難以單獨(dú)解決復(fù)雜真實(shí)世界問題的痛點(diǎn),還將整體推理成本降低了一半。

12月8日,ARC Prize官宣驗(yàn)證了該團(tuán)隊(duì)的成果。


由Poetiq推出的Gemini 3 Pro優(yōu)化技術(shù),在ARC-AGI-2 leaderboard上創(chuàng)下新SOTA,得分高達(dá)54%,每任務(wù)計(jì)算成本僅31美元。

這一突破遠(yuǎn)超此前模型的最優(yōu)表現(xiàn),在leaderboard上力壓群雄。

Poetiq團(tuán)隊(duì)揭秘


Poetiq初創(chuàng)團(tuán)隊(duì)均來自Google DeepMind

Poetiq是一個(gè)精干且高度技術(shù)型的團(tuán)隊(duì),由6名來自Google DeepMind的研究員與工程師組成。

該創(chuàng)始團(tuán)隊(duì)成員一共擁有53年的專業(yè)經(jīng)驗(yàn),他們在Poetiq的目標(biāo)是「以更優(yōu)的推理,鋪就通過安全超級智能的最快路徑」。


12月5日,這家成立不到一年的公司自豪地宣布:

「Poetiq系統(tǒng)已經(jīng)大幅超越現(xiàn)有方法,并樹立了新的行業(yè)最佳表現(xiàn)。」


如上圖所示,Poetiq系統(tǒng)在ARC-AGI-2半私有評估集上創(chuàng)下新紀(jì)錄。

11月20日,Poetiq已經(jīng)公布了自己在ARC-AGI-2上的強(qiáng)勁表現(xiàn),此次ARC Prize對Poetiq公布的成績進(jìn)行了官方驗(yàn)證。


Poetiq開發(fā)的一套純Gemini配置參與了ARC Prize的官方評估。

該系統(tǒng)以每題30.57美元的成本取得了54%的成績,打破了此前Gemini 3 Deep Think創(chuàng)下的每題成本77.16美元、45%的最佳成績。

Poetiq團(tuán)隊(duì)表示,在ARC-AGI-2公共數(shù)據(jù)集上,Poetiq系統(tǒng)建立了全新的帕累托前沿,不僅超越以往成果,還進(jìn)一步推動了成本效益推理的邊界。

Poetiq團(tuán)隊(duì)將這一成績,歸結(jié)為它的元系統(tǒng)。

元系統(tǒng)

在任意模型上構(gòu)建智能

Poetiq的方法是在任意模型之上構(gòu)建智能。

其元系統(tǒng)旨在利用任何現(xiàn)成的前沿模型,自動生成能解決特定任務(wù)的完整系統(tǒng),無需構(gòu)建甚至不需要微調(diào)自己的大前沿模型。

這也是為什么Poetiq能在Gemini 3與GPT-5.1發(fā)布后數(shù)小時(shí)內(nèi),就將它們快速接入并取得SOTA表現(xiàn)的原因。



如上圖所示,Poetiq元系統(tǒng)在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績,也再次推進(jìn)了低成本推理的邊界。

  • 相比之下,Gemini 3 Deep Think(預(yù)覽版)成本明顯更高,準(zhǔn)確率卻更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多個(gè)大語言模型,在任意成本目標(biāo)下實(shí)現(xiàn)最大化性能。

  • Poetiq系統(tǒng)可以通過多次調(diào)用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題,從而在廣泛的計(jì)算區(qū)間內(nèi)實(shí)現(xiàn)帕累托最優(yōu)。

  • Poetiq(Grok-4-Fast)主打極致成本效率,構(gòu)建于Grok-4-Fast Reasoning模型之上。不僅比原模型報(bào)告的結(jié)果更便宜、準(zhǔn)確率更高,還能達(dá)到與價(jià)格高兩個(gè)數(shù)量級的模型相當(dāng)?shù)臏?zhǔn)確度。

  • Poetiq(GPT-OSS-b)基于開源權(quán)重模型GPT-OSS-120B,在單題不到1美分的成本下仍取得了非常亮眼的準(zhǔn)確率。

  • Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用來展示極限成本條件下的系統(tǒng)表現(xiàn)。

以上這些方案雖然各自都能獨(dú)立運(yùn)行,但它們共同的底層是Poetiq靈活的元系統(tǒng)。

這個(gè)元系統(tǒng)的核心優(yōu)勢之一即能自動選擇模型組合與策略,甚至?xí)孕信袛嗪螘r(shí)要寫代碼、又該由哪個(gè)模型負(fù)責(zé)寫代碼。

Poetiq的遞歸、自我改進(jìn)系統(tǒng)完全不依賴特定大模型,在接入最新模型時(shí)也能充分展現(xiàn)其能力。

使用Poetiq元系統(tǒng)強(qiáng)化主流模型

為了進(jìn)一步展示Poetiq元系統(tǒng)的能力,研究人員將其應(yīng)用到多個(gè)來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次,Poetiq都實(shí)現(xiàn)了「更高準(zhǔn)確率+更低成本」的組合。



上圖中展示了12個(gè)模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上經(jīng)過Poetiq處理后的表現(xiàn)。

Poetiq是如何做到的?秘訣其實(shí)只有一句話:

從上到下,全靠大語言模型。

Poetiq使用大模型來構(gòu)建系統(tǒng)、改進(jìn)系統(tǒng)、也讓系統(tǒng)本身運(yùn)行起來。

正是這種靈活、強(qiáng)大且遞歸的系統(tǒng)架構(gòu),讓Poetiq能快速取得如此一系列SOTA成果。

Poetiq選擇開源的具體配置,主要為了展示2個(gè)重要理念:

提示詞只是接口層,并非智能本體

系統(tǒng)在一個(gè)循環(huán)式的解題流程中運(yùn)行:它不會只問一次,而是先讓大模型生成一個(gè)可能的答案(有時(shí)包括代碼),根據(jù)反饋進(jìn)行分析,然后再繼續(xù)利用模型改進(jìn)答案。

這種多步驟、自我完善的方式,讓系統(tǒng)能逐步構(gòu)建并打磨最終解答。

自我檢查

系統(tǒng)會自主檢查自己的進(jìn)展,決定什么時(shí)候信息足夠、結(jié)果可靠,從而自動結(jié)束流程。

這種自我監(jiān)控機(jī)制能有效避免浪費(fèi)算力,讓整體成本更低。

為什么選擇ARC-AGI?

Poetiq認(rèn)為ARC-AGI是驗(yàn)證自身核心理念的理想測試場。

大模型蘊(yùn)含了大量人類知識,但在復(fù)雜推理任務(wù)上經(jīng)常出現(xiàn)不穩(wěn)定的情況。

一個(gè)原因是模型表現(xiàn)高度依賴提示詞,而其隨機(jī)性會讓知識提取變得不夠可靠,從而使推理步驟難以預(yù)測。

真正的挑戰(zhàn)在于:如何發(fā)現(xiàn)一種推理策略,既能找出需要的信息,又能在找到信息時(shí)順利將其組合起來,并智能判斷下一步該做什么。

Poetiq的核心目標(biāo),就是為了讓這一過程能夠自動化并不斷優(yōu)化。

Poetiq所構(gòu)建的系統(tǒng)并不預(yù)設(shè)推理策略,而是讓模型自主發(fā)現(xiàn)最適配的推理方式,并能在現(xiàn)實(shí)限制(預(yù)算、Token或算力)內(nèi)工作。

這將釋放生成式AI在復(fù)雜推理方面的真正潛力。

Poetiq的系統(tǒng)能在短時(shí)間內(nèi)適配任務(wù)特性與模型特性,而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力,這和Poetiq系統(tǒng)的優(yōu)勢也是相互匹配的。

為了使Poetiq的元系統(tǒng)能夠隨著每次解決新任務(wù)而持續(xù)進(jìn)化,任務(wù)的多樣性也非常關(guān)鍵。

為此,Poetiq的團(tuán)隊(duì)正在讓系統(tǒng)攻克更多基準(zhǔn)任務(wù),涵蓋多種推理與檢索需求。

此外,Poetiq系統(tǒng)的優(yōu)點(diǎn)是擅長與其他系統(tǒng)協(xié)作。

該系統(tǒng)可以用來優(yōu)化現(xiàn)有大型系統(tǒng)內(nèi)部的AI組件。

如果能夠在不修改模型本身的前提下,利用前沿模型中豐富的世界知識來解決長時(shí)序任務(wù),如果能讓底層知識提取機(jī)制更適配大模型,也許就不需要進(jìn)行模型調(diào)優(yōu),這些正是Poetiq下一步努力的方向之一。

參考資料:

https://poetiq.ai/posts/arcagi_verified/%20

https://x.com/arcprize/status/1997743855203148038?s=20

秒追ASI

?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?

點(diǎn)亮星標(biāo),鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
已確認(rèn)!接盤趙薇的大佬,出事了!

已確認(rèn)!接盤趙薇的大佬,出事了!

財(cái)經(jīng)要參
2025-12-24 22:00:13
廣東臺的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

廣東臺的衰?。簭摹叭f人空巷”到“無人問津”,被誰奪走了靈魂

阿訊說天下
2025-12-24 17:14:51
“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

“毀掉”孩子內(nèi)驅(qū)力很簡單,一直陪他寫作業(yè)就行,很多家長還在做

枕邊聊育兒
2025-12-24 09:02:59
8人死亡,接送幼兒車輛墜入池塘

8人死亡,接送幼兒車輛墜入池塘

中國新聞周刊
2025-12-24 18:14:25
普京報(bào)仇不隔夜!俄中將遇害后,基輔被炸成火海,更可怕的在后面

普京報(bào)仇不隔夜!俄中將遇害后,基輔被炸成火海,更可怕的在后面

云上烏托邦
2025-12-24 12:10:48
離岸人民幣兌美元漲117.5個(gè)基點(diǎn)

離岸人民幣兌美元漲117.5個(gè)基點(diǎn)

每日經(jīng)濟(jì)新聞
2025-12-25 06:05:04
深度揭秘?|?董事長李民吉落馬,揭開華夏銀行內(nèi)控之殤——“4.59萬億元資產(chǎn)”背后的失控與救贖

深度揭秘?|?董事長李民吉落馬,揭開華夏銀行內(nèi)控之殤——“4.59萬億元資產(chǎn)”背后的失控與救贖

一分為三看人生
2025-12-25 00:05:33
1夜3筆轉(zhuǎn)會確認(rèn)!米蘭冬窗首簽,皇馬天才離隊(duì),曼城強(qiáng)援即將到位

1夜3筆轉(zhuǎn)會確認(rèn)!米蘭冬窗首簽,皇馬天才離隊(duì),曼城強(qiáng)援即將到位

阿超他的體育圈
2025-12-25 05:29:13
柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

柬埔寨國王,72歲了,沒錢沒權(quán),沒結(jié)婚沒孩子,和老母親相依為命

科普100克克
2025-12-23 17:54:08
風(fēng)水輪流轉(zhuǎn)! 掃地出門、人財(cái)兩空 張嘉倪官宣喜訊,打臉買超

風(fēng)水輪流轉(zhuǎn)! 掃地出門、人財(cái)兩空 張嘉倪官宣喜訊,打臉買超

銀河史記
2025-12-24 12:15:44
《尋秦記》重聚尬到腳趾摳地!郭羨妮發(fā)腮,宣萱油膩,滕麗名土氣

《尋秦記》重聚尬到腳趾摳地!郭羨妮發(fā)腮,宣萱油膩,滕麗名土氣

八斗小先生
2025-12-23 23:43:56
死刑!就是給這種人準(zhǔn)備的!

死刑!就是給這種人準(zhǔn)備的!

鈞言堂
2025-12-23 14:38:14
大狂歡!集體漲停!剛剛,央行,利好來了!

大狂歡!集體漲停!剛剛,央行,利好來了!

中國基金報(bào)
2025-12-24 16:22:14
朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問他要啥官,他回了8個(gè)字

朱元璋的姐夫是聰明人,朱元璋當(dāng)皇帝后問他要啥官,他回了8個(gè)字

長風(fēng)文史
2025-12-23 21:14:32
年終大戰(zhàn)來襲:湖人火箭傷病報(bào)告出爐,東契奇有望復(fù)出

年終大戰(zhàn)來襲:湖人火箭傷病報(bào)告出爐,東契奇有望復(fù)出

錢說體育
2025-12-25 09:53:54
廣州市委書記調(diào)整

廣州市委書記調(diào)整

新京報(bào)
2025-12-24 12:28:05
南京這把火,直燒到了北京一位"通天"人物的心坎上

南京這把火,直燒到了北京一位"通天"人物的心坎上

小莜讀史
2025-12-24 02:19:53
53年賀龍女兒賀捷生考上北大,賀龍:你是第二個(gè)上名牌大學(xué)的學(xué)生

53年賀龍女兒賀捷生考上北大,賀龍:你是第二個(gè)上名牌大學(xué)的學(xué)生

大運(yùn)河時(shí)空
2025-12-24 07:10:02
故事:大清真正的第一罪人,既不是吳三桂,也不是鰲拜,其實(shí)是他

故事:大清真正的第一罪人,既不是吳三桂,也不是鰲拜,其實(shí)是他

卡西莫多的故事
2025-12-23 10:39:16
向好友發(fā)不雅照片或視頻違法?專家:是誤讀,實(shí)踐執(zhí)行中還應(yīng)細(xì)化分類

向好友發(fā)不雅照片或視頻違法?專家:是誤讀,實(shí)踐執(zhí)行中還應(yīng)細(xì)化分類

封面新聞
2025-12-23 21:37:02
2025-12-25 10:08:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14177文章數(shù) 66396關(guān)注度
往期回顧 全部

科技要聞

老板監(jiān)視員工微信只需300元

頭條要聞

路透社稱中國造出EUV光刻機(jī) "手搓"EUV光刻機(jī)難點(diǎn)披露

頭條要聞

路透社稱中國造出EUV光刻機(jī) "手搓"EUV光刻機(jī)難點(diǎn)披露

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

美國未來18個(gè)月不對中國芯片加額外關(guān)稅

汽車要聞

“運(yùn)動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

家居
本地
數(shù)碼
教育
公開課

家居要聞

法式大平層 智能家居添彩

本地新聞

云游安徽|一川江水潤安慶,一塔一戲一城史

數(shù)碼要聞

AMD Zen 6與Intel Nova Lake或?qū)⑸涎?88 MB 3D緩存“大戰(zhàn)”

教育要聞

2026年高考難度會下降嗎?了解高考的本質(zhì)和社會功能

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版