国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型如何「在思考中使用工具」|Interleaved Thinking

0
分享至

DeepSeek V3.2 提到了一個(gè)東西,屬于核心迭代
在思考中,使用工具
技術(shù)報(bào)告里,把這個(gè)叫Thinking in Tool Use

在這里與大家說道,這東西的由來、演進(jìn)和現(xiàn)狀,方便吹牛逼用

這里還有份報(bào)告解讀:

所謂「Thinking in Tool-Use
顧名思義,就是大模型一邊調(diào)用工具,一邊推理,多次循環(huán)后,最后輸出答案

行業(yè)里,常把這個(gè)叫做 Interleaved Thinking,本文沿用這個(gè)說法

類似的東西,最早是 Anthropic 提出的
今年初發(fā)布的,叫 Extended Thinking。額外說明:o1 不算,那個(gè)沒工具調(diào)用


相關(guān)內(nèi)容,發(fā)表于 25年2月24日:《Claude’s extended thinking》

在開源模型里,最早是 OpenAI 開源的 oss 最先支持的
說法是 interleaving tool calls within the CoT


相關(guān)內(nèi)容,發(fā)表于 25年8月5日:gpt-oss Model Card

之后,國內(nèi)的幾家模型廠,也給到了類似說法:

  • ? MiniMax M2 叫它「交錯(cuò)思維鏈」

  • ? Kimi K2 叫它「邊思考邊使用工具」

  • ? DeepSeek v3.2 叫它「思考模式下的工具調(diào)用」

各家說法不同,本質(zhì)是一件事
大模型,如何在保留推理狀態(tài)的同時(shí),進(jìn)行多次工具調(diào)用

有關(guān)交錯(cuò)思維鏈,MiniMax 前段時(shí)間還寫了篇文章,強(qiáng)調(diào)這東西的重要性,具體后面細(xì)說

技術(shù)原理

先說下推理模型是怎么使用工具的

舉個(gè)例子,你問模型一個(gè)問題:
一臺(tái)最新蘋果手機(jī),和兩臺(tái)最新的豆包手機(jī),誰更貴?

以最開始的 o1 模型為例,o1 這個(gè)模型并不能進(jìn)行工具調(diào)用,只能回答
對(duì)不起,我無法訪問網(wǎng)絡(luò),并不知道誰更貴

再之后,一些朋友對(duì) o1 類的模型進(jìn)行了工程優(yōu)化(比如具有聯(lián)網(wǎng)能力的 DeepSeek R1),讓他能夠在回答前,先搜索一些問題,然后多次調(diào)用模型,流程就變成了這樣:
先搜最新的蘋果手機(jī)讀結(jié)果決定下一步搜什么再搜索再讀結(jié)果 → ... → 整理答案


標(biāo)準(zhǔn)的工具調(diào)用流程

但實(shí)際上...在處理先搜最新的蘋果手機(jī)這一步中,就會(huì)發(fā)現(xiàn)蘋果有多款機(jī)型
如果只拿最新的 iPhone 17 比較,肯定不妥,畢竟還有 air 和 pro

作為人的話,可能會(huì)中間留個(gè)心眼:最新的蘋果手機(jī),需要考慮系列嗎?
那么,如果是大模型,會(huì)記住這些東西嗎?

早期做法:丟掉
具體來說:忘掉所有的中間思考,只保留結(jié)果和部分總結(jié)
這部分的具體描述,可以參加 OpenAI 的 o1 文檔:思維鏈?zhǔn)请[藏的


早期做法:每輪丟棄推理狀態(tài)

所以,在進(jìn)行最終判斷的時(shí)候,大模型的上文可能只有:

  • ? iPhone 17 的標(biāo)準(zhǔn)定價(jià)為 5999

  • ? 豆包手機(jī)(努比亞)的標(biāo)準(zhǔn)定價(jià)為 3499

然后得出結(jié)論:

iPhone 17,不如兩臺(tái)豆包手機(jī)貴

但....

作為人的話,我們會(huì)保留個(gè)心眼,思考過程也記著:

  • ? iPhone 17 的標(biāo)準(zhǔn)定價(jià)為 5999(同期發(fā)售的還有 iPhone Air:7999;Pro:8999)

  • ? 豆包手機(jī)(努比亞代工)的標(biāo)準(zhǔn)定價(jià)為 3499(目前無貨,閑魚 4499)

然后出結(jié)論:

iPhone 17,不如兩臺(tái)豆包手機(jī)貴 Air 和 Pro 則貴于兩臺(tái)豆包

這種「留心眼」的做法,就是 Interleaved Thinking
模型調(diào)用工具拿到結(jié)果繼續(xù)思考(帶著之前的推理)再調(diào)用工具繼續(xù)思考...

在這里,計(jì)劃假設(shè)、中間結(jié)論都會(huì)被帶到下一輪


Interleaved Thinking:保留推理狀態(tài)

當(dāng)然,這里為了方便表達(dá),我對(duì)原理進(jìn)行了極大的刪減
實(shí)際的做法和流程都會(huì)更為復(fù)雜
比如...這些推理內(nèi)容,在何時(shí)才會(huì)舍棄?

以DeepSeek v3.2為例,論文里是這么描述的:
只有新用戶消息到來時(shí),才丟棄推理內(nèi)容,工具返回結(jié)果不觸發(fā)丟棄

...這樣的細(xì)節(jié)還有許多,還是挺有工程實(shí)踐&復(fù)雜度的

效果差距

對(duì)于「保留推理狀態(tài) vs 丟棄推理狀態(tài)」,會(huì)有多少差距呢?
對(duì)于長鏈路 Agent 任務(wù),最高能有 +35%+40%
數(shù)據(jù)來自于 MiniMax 的對(duì)比測(cè)試數(shù)據(jù)


對(duì)比數(shù)據(jù)


  • ? SWE-Bench Verified:69.4 vs. 67.2, +3.3%

  • ? 2:87 vs. 64, +35.9%

  • ? BrowseComp:44.0 vs. 31.4, +40.1%

  • ? GAIA:75.7 vs. 67.9, +11.5%

  • ? xBench:72.0 vs. 66.0, +9.1%

至于為什么差距這么大?

可以這么理解:
一旦丟棄了之前的推理狀態(tài),模型的累積理解能力會(huì)下降,自我修正能力會(huì)減弱

這東西,在長程工具調(diào)用和「運(yùn)行–修復(fù)」循環(huán)中尤其明顯

世界是個(gè)草臺(tái)班子

這里有個(gè)現(xiàn)實(shí)問題:
很多項(xiàng)目使用了 thinking 模型,但工具的連續(xù)調(diào)用總是出問題
而且...可能...甚至還沒發(fā)現(xiàn)

這個(gè)其實(shí)是 OpenAI 的鍋

OpenAI 有多套 API 調(diào)用方法:

  • ? Completions (不再建議使用)

  • ? Chat Completions

  • ? Assistants API (壓根沒人用)

  • ? Responses API

目前用的最廣泛的的,是 Chat Completions api
但... 這玩意兒壓根沒有 thinking 相關(guān)的字段
于是大家只能在 assistant message 里假裝 thinking


Chat Completions API 的 assistant message 結(jié)構(gòu),沒有 thinking 相關(guān)字段

新的 Responses API 確實(shí)支持 reasoning 配置
但它返回的是 reasoning.encrypted_content——加密版本的推理內(nèi)容
推理過程?更不存在的


Responses API 的 reasoning 配置,注意那個(gè) encrypted_content

能用于多輪對(duì)話狀態(tài)保持,但你看不到原始推理過程

你說 OpenAI 開源的那個(gè) oss 支持?
哈哈哈哈哈哈哈哈哈哈
那套鬼東西,根本沒定義接口,怎么實(shí)現(xiàn)你就自己看著來吧


OpenAI 的 oss

按照慣性,大家都照著 OpenAI 的 API 規(guī)范寫代碼
但由于 OpenAI 在這個(gè)方面過于不干人事兒
各家廠商在這個(gè)不完整的規(guī)范上各自魔改

仔細(xì)看,你會(huì)發(fā)現(xiàn).... DeepSeek R1 的 Thinking 結(jié)構(gòu),和 OpenAI 的也都不一樣
然后同樣的模型,在硅基流動(dòng)、火山、官方 api 上,響應(yīng)結(jié)構(gòu)甚至也都不一樣


OpenAI API vs DeepSeek API

于是...調(diào)用 API 的時(shí)候,thinking 壓根沒放在上下文
哈哈哈哈哈哈哈哈哈哈

MiniMax 的貢獻(xiàn)

事情的另一個(gè)角度,MiniMax 反倒是 Thinking 模型的標(biāo)準(zhǔn)化,做了許多生態(tài)上的工作,比如與OpenRouter、Ollama、Droid、Vercel、Cline合作,共同推進(jìn)并實(shí)現(xiàn)這一功能的跨平臺(tái)支持。

具體的可以參見,希望通過推動(dòng)統(tǒng)一標(biāo)準(zhǔn),在應(yīng)用、OpenAI 兼容API、Anthropic 兼容 API 中,來推動(dòng) Interleaved Thinking 的廣泛支持


相關(guān)背景

11 月在紐約 AI.Engineer Summit,MiniMax 研究員 Olive 講了 Interleaved Thinking


Olive 在 AI.Engineer Summit 上的分享,圖中的 ppt 和 ds3.2 頗有相似

然后挨個(gè)給生態(tài)里的工具提 PR:

  • ? Cline、RooCode : 讓 VS Code 插件支持 Interleaved Thinking

  • ? Kilo Code : 優(yōu)化多輪對(duì)話的狀態(tài)保持邏輯

  • ? OpenRouter、Ollama : 推動(dòng)平臺(tái)層面跟進(jìn)支持

MiniMax 給 Kilo Code 提的 PR

Cline 和 Kilo Code 官方都發(fā)推確認(rèn)了


Cline 官方的確認(rèn)推文 Kilo Code 官方的確認(rèn)推文

現(xiàn)在這些平臺(tái)上,MiniMax M2 是第一個(gè)正確支持 Interleaved Thinking 的開源模型

對(duì)于其他支持這個(gè)機(jī)制的模型,比如 DeepSeek V3.2、Kimi K2,直接就能用了。算是給這個(gè)這種 thinking,造了個(gè)朋友圈

MiniMax 還開源了 Mini-Agent,一個(gè)支持 Interleaved Thinking 的 Coding CLI,700+ Star


Mini-Agent 項(xiàng)目

,開發(fā)者容易踩坑 MiniMax 還專門寫了篇文章,講怎么在不同 API 格式下正確實(shí)現(xiàn) Interleaved Thinking 算是手把手教學(xué)了

最后

Interleaved Thinking 的核心就一句話:
保留推理狀態(tài),讓模型在多輪工具調(diào)用中持續(xù)累積理解

最開始的時(shí)候,我們對(duì)于 Agent 的期待,是它能不能使用工具
然后看到了 ToolFormer 論文、看到了 Plugin、Function Call、JSON Mode
直到去年 8 月,OpenAI 宣布可以在 Structured Outputs 的嚴(yán)格模式下,做到 100% 的成功調(diào)用


OpenAI 的 Structured Outputs 公告: Introducing Structured Outputs in the API

而現(xiàn)在,我們的思考變成了「調(diào)用工具時(shí),如何保持連貫思考」,剛剛結(jié)束的 AWS re:invent 大會(huì)上,主題也便是 Agentic AI


轉(zhuǎn)眼三年,有點(diǎn)恍惚...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中央廣播電視總臺(tái)3個(gè)頻率同日停播

中央廣播電視總臺(tái)3個(gè)頻率同日停播

阿廢冷眼觀察所
2025-12-24 15:43:28
茅臺(tái)鎮(zhèn)過冬:酒價(jià)最高降6成!有酒廠暫停投產(chǎn)、免費(fèi)租窖池,大家在等2027

茅臺(tái)鎮(zhèn)過冬:酒價(jià)最高降6成!有酒廠暫停投產(chǎn)、免費(fèi)租窖池,大家在等2027

紅星新聞
2025-12-24 16:58:16
堅(jiān)守陣地130天,兩名烏軍終于撤了下來,還帶回個(gè)并肩作戰(zhàn)的俄軍

堅(jiān)守陣地130天,兩名烏軍終于撤了下來,還帶回個(gè)并肩作戰(zhàn)的俄軍

鷹眼Defence
2025-12-24 16:23:37
重磅!北京打響第一槍

重磅!北京打響第一槍

地產(chǎn)觀點(diǎn)
2025-12-24 17:57:23
葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

葉劍英詢問許世友:南京軍區(qū)還聽你調(diào)遣嗎?許世友直言:軍區(qū)司令就是我的貼身保鏢

清風(fēng)鑒史
2025-12-24 15:02:13
俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

俄羅斯和朝鮮因20億美元援俄士兵勞務(wù)款項(xiàng)正式鬧掰

律法刑道
2025-12-23 22:50:36
全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

萬象硬核本尊
2025-12-24 17:28:42
高市早苗支持率居高不下!高達(dá)75.9%,年輕人支持率突破92%

高市早苗支持率居高不下!高達(dá)75.9%,年輕人支持率突破92%

環(huán)球熱點(diǎn)快評(píng)
2025-12-24 14:13:34
突發(fā)!香港新義安二代掌舵人向華炎病逝,向華強(qiáng)見父親都得他允許

突發(fā)!香港新義安二代掌舵人向華炎病逝,向華強(qiáng)見父親都得他允許

阿訊說天下
2025-12-24 14:27:11
太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

好賢觀史記
2025-12-23 18:14:27
吉林4連勝大勝送北控4連敗 欒利程22分爆發(fā)廖三寧14+9

吉林4連勝大勝送北控4連敗 欒利程22分爆發(fā)廖三寧14+9

醉臥浮生
2025-12-24 21:31:12
南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

南京博物院文物盜竊事件讓很多人不再罵把文物捐給美國的翁萬戈

名人茍或
2025-12-24 06:02:23
日本宣稱:“中方若不承認(rèn)《舊金山和約》,臺(tái)灣即為日本領(lǐng)土!”

日本宣稱:“中方若不承認(rèn)《舊金山和約》,臺(tái)灣即為日本領(lǐng)土!”

百態(tài)人間
2025-12-24 16:47:16
老字號(hào)餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個(gè)多月暴瘦近20斤未出院,多部門介入

老字號(hào)餐館店員用84消毒液泡水壺,顧客喝后食道被腐蝕,一個(gè)多月暴瘦近20斤未出院,多部門介入

極目新聞
2025-12-24 13:21:57
逃離商場(chǎng)的“特斯拉們”,為何撐不下去了?

逃離商場(chǎng)的“特斯拉們”,為何撐不下去了?

金錯(cuò)刀
2025-12-24 10:09:57
他姓胡,曾被視為中共“接班人”之一,58歲官至正國級(jí),今年95歲

他姓胡,曾被視為中共“接班人”之一,58歲官至正國級(jí),今年95歲

大運(yùn)河時(shí)空
2025-12-24 11:50:03
搶瘋了!各地門店大排長龍,排號(hào)炒到400元一個(gè)!網(wǎng)友:怎么又火了?

搶瘋了!各地門店大排長龍,排號(hào)炒到400元一個(gè)!網(wǎng)友:怎么又火了?

觀威海
2025-12-24 10:14:23
家長沸騰!中小學(xué)或迎新改革,將于2026年2月1日起施行

家長沸騰!中小學(xué)或迎新改革,將于2026年2月1日起施行

老特有話說
2025-12-24 12:31:24
攤牌了,日本反咬美國,用“自殺式豪賭”拉美國下水!

攤牌了,日本反咬美國,用“自殺式豪賭”拉美國下水!

局勢(shì)帝
2025-12-24 15:32:32
正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

正式官宣!CBA第二位下課主帥確定,遼寧名宿走馬上任

體壇瞎白話
2025-12-24 13:54:08
2025-12-24 23:00:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
224文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

體育要聞

26歲廣西球王,在質(zhì)疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財(cái)經(jīng)要聞

北京進(jìn)一步放松限購 滬深是否會(huì)跟進(jìn)?

汽車要聞

“運(yùn)動(dòng)版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

健康
親子
教育
房產(chǎn)
軍事航空

這些新療法,讓化療不再那么痛苦

親子要聞

母嬰下半場(chǎng):科研與全齡的雙重突圍|世研消費(fèi)指數(shù)品牌榜Vol.93

教育要聞

183cm初中生為了10塊錢撒嬌,家長無奈吐槽:已經(jīng)激發(fā)不出母愛了

房產(chǎn)要聞

硬核!央企海口一線江景頂流紅盤,上演超預(yù)期交付!

軍事要聞

"九三"受閱女民兵:96米需踢出128個(gè)正步 每步75厘米

無障礙瀏覽 進(jìn)入關(guān)懷版