国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

0.002美元撬動(dòng)頂級(jí)研究力,開(kāi)源AI助手匹敵OpenAI商用系統(tǒng)

0
分享至

近日,美國(guó)華盛頓大學(xué)博士生邵如琳和合作團(tuán)隊(duì)打造出一個(gè)名為 Deep Research Tulu(DR Tulu)的深度研究小助手。使用一次 OpenAI 的 Deep Research 服務(wù)可能需要大約 1.8 美元,而 DR Tulu 使用一次的成本卻不到 0.002 美元,這幾乎是千倍的效率提升,這意味著未來(lái)個(gè)人或者小團(tuán)隊(duì)也能負(fù)擔(dān)得起高質(zhì)量、高可信度的 AI 研究服務(wù)。

DR Tulu 是一個(gè)擁有超級(jí)大腦且會(huì)熟練使用搜索引擎的科研助手。當(dāng)你問(wèn)它一個(gè)問(wèn)題時(shí),它不會(huì)只是簡(jiǎn)單地給你一列網(wǎng)頁(yè)鏈接,而是會(huì)像一位真正的研究員那樣,先去思考如何解決你的問(wèn)題,然后主動(dòng)查找各種資料比如網(wǎng)頁(yè)和論文,最終為你整理出一份條理清晰、有根有據(jù)、帶著詳細(xì)出處說(shuō)明的長(zhǎng)篇答案。


(來(lái)源:資料圖)

DR Tulu 的表現(xiàn)大幅超越了所有其他公開(kāi)可用的、專(zhuān)為搜索設(shè)計(jì)的 AI 模型,包括一些體型比它大的模型,證明了“小模型+好方法”也能做出大成就。

它的表現(xiàn)匹敵甚至超越了 OpenAI、Google 等公司的頂級(jí)商用深度研究系統(tǒng),比如 OpenAI 的 Deep Research、谷歌的 Gemini Pro + Search。要知道,這些系統(tǒng)背后的技術(shù)往往不公開(kāi),而且使用成本非常高昂。

同時(shí),DR Tulu 會(huì)坦誠(chéng)地承認(rèn)自己的知識(shí)邊界,并主動(dòng)查找和核實(shí)信息,從而盡可能減少回答中的"幻覺(jué)"。DR Tulu 還會(huì)在回答中提供詳細(xì)的文獻(xiàn)依據(jù),方便用戶(hù)交叉驗(yàn)證。目前業(yè)界尚無(wú)成熟的訓(xùn)練方法和數(shù)據(jù)來(lái)實(shí)現(xiàn)這一目標(biāo)。DR Tulu 的這些能力源于一項(xiàng)新型訓(xùn)練方法及其配套框架,使 AI 與評(píng)估器在訓(xùn)練過(guò)程中協(xié)同進(jìn)化、相互提升。


圖 | 邵如琳(來(lái)源:邵如琳)

為了讓 DR Tulu 成為一個(gè)優(yōu)秀的研究員,研究人員并沒(méi)有簡(jiǎn)單地把它丟進(jìn)一堆問(wèn)題里去死記硬背,而是像訓(xùn)練一位聰明的學(xué)徒以分為兩步走:

第一步是名師出高徒,研究人員請(qǐng)來(lái)幾位非常厲害的 AI 老師比如 GPT-5。這些老師本身就擅長(zhǎng)查找資料和回答問(wèn)題。研究人員讓 AI 老師們?cè)诨卮鸪汕先f(wàn)個(gè)問(wèn)題的過(guò)程中,把它們?nèi)绾嗡伎?、如何搜索、如何組織答案的每一步都記錄下來(lái)。這些記錄下來(lái)的標(biāo)準(zhǔn)答案步驟,成為了 DR Tulu 學(xué)習(xí)的第一手教材。通過(guò)模仿這些步驟,DR Tulu 學(xué)會(huì)了當(dāng)一名研究員的基本功。

第二步是在實(shí)戰(zhàn)中進(jìn)化,光會(huì)模仿還不夠,為了讓它變得更強(qiáng)大,研究人員發(fā)明了一個(gè)名為帶有進(jìn)化評(píng)分標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)的方法。

傳統(tǒng)方法就像老師拿著一份固定的評(píng)分表,用它來(lái)給學(xué)生的作業(yè)打分。學(xué)生可能會(huì)為了得高分,投機(jī)取巧地滿(mǎn)足這些死板的條目,而忽略了真正的理解和創(chuàng)造。

研究人員發(fā)現(xiàn),AI 在回答復(fù)雜問(wèn)題的時(shí)候,好壞標(biāo)準(zhǔn)很難用幾張固定的評(píng)分表說(shuō)清楚。于是,他們讓評(píng)分標(biāo)準(zhǔn)也跟著 AI 的學(xué)習(xí)一起進(jìn)化。

具體來(lái)說(shuō),在訓(xùn)練中 DR Tulu 會(huì)試著回答很多問(wèn)題,并能得到多個(gè)版本的答案。然后,另一個(gè) AI 也就是評(píng)分官會(huì)仔細(xì)對(duì)比這些答案,動(dòng)態(tài)地發(fā)現(xiàn)新的優(yōu)點(diǎn)和缺點(diǎn),并把它們作為新的評(píng)分標(biāo)準(zhǔn)。

這樣,評(píng)分標(biāo)準(zhǔn)就會(huì)越來(lái)越貼近 AI 當(dāng)前的真實(shí)水平,能更好地鑒別出高質(zhì)量的回答。同時(shí),這些標(biāo)準(zhǔn)總是基于最新搜索到的真實(shí)知識(shí),而不是 AI 自己想象出來(lái)的內(nèi)容。這樣一來(lái),DR Tulu 就能在不斷的挑戰(zhàn)和反饋中持續(xù)進(jìn)步,學(xué)會(huì)搜索以及通過(guò)綜合信息來(lái)給出可靠的答案。


(來(lái)源:資料圖)

研究人員在四個(gè)涵蓋學(xué)術(shù)、醫(yī)療等領(lǐng)域的現(xiàn)有 Deep Research 基準(zhǔn)上測(cè)試了 DR Tulu 的表現(xiàn)。結(jié)果顯示,DR Tulu 達(dá)到了當(dāng)前最優(yōu)水平(SOTA),與市面上表現(xiàn)最佳的 OpenAI Deep Research 相當(dāng),而成本僅為其千分之一。


(來(lái)源:資料圖)

為了檢驗(yàn) DR Tulu 解決現(xiàn)實(shí)世界難題的能力,研究人員設(shè)計(jì)了一個(gè)新挑戰(zhàn):分析致病基因變異。這是一個(gè)非常專(zhuān)業(yè)的醫(yī)學(xué)遺傳學(xué)問(wèn)題,需要從海量的科學(xué)論文和數(shù)據(jù)庫(kù)中查找信息,判斷一個(gè)特定的基因變異如何導(dǎo)致疾病,以及它是否適合采用某些前沿的治療方法比如基因療法。

為此,研究人員創(chuàng)建了包含 47 個(gè)此類(lèi)問(wèn)題的基因疾病問(wèn)答數(shù)據(jù)集。DR Tulu 在這個(gè)它從未專(zhuān)門(mén)學(xué)習(xí)過(guò)的領(lǐng)域,表現(xiàn)出了較強(qiáng)的泛化能力即解決新問(wèn)題的能力。它不僅能夠找到相關(guān)的科學(xué)證據(jù),還能將這些證據(jù)組織起來(lái)進(jìn)行比較和綜合,清晰地解釋變異的致病機(jī)理。

雖然在最終答案上的準(zhǔn)確性上略遜于使用最強(qiáng)商用大模型的系統(tǒng),但是在證據(jù)支持方面 DR Tulu 做得較為出色。對(duì)于專(zhuān)業(yè)用戶(hù)比如醫(yī)學(xué)用戶(hù)來(lái)說(shuō),這比一個(gè)看似正確但無(wú)法驗(yàn)證的簡(jiǎn)單答案更有價(jià)值,因?yàn)樗麄兛梢砸罁?jù) DR Tulu 提供的詳細(xì)引文去追溯和核實(shí)。

另?yè)?jù)悉,研究人員針對(duì) DR Tulu 進(jìn)行了完全開(kāi)放:訓(xùn)練代碼、數(shù)據(jù)、模型參數(shù)等目前已經(jīng)全部公開(kāi)。

參考資料:

代碼鏈接:https://github.com/rlresearch/dr-tulu

數(shù)據(jù)及模型鏈接:https://huggingface.co/collections/rl-research/dr-tulu

https://arxiv.org/abs/2511.19399

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普發(fā)布馬杜羅被抓后照片:戴手銬、雙眼被蒙??!

特朗普發(fā)布馬杜羅被抓后照片:戴手銬、雙眼被蒙?。?/a>

每日經(jīng)濟(jì)新聞
2026-01-04 01:17:06
哈里斯稱(chēng)美對(duì)委內(nèi)瑞拉動(dòng)武非法

哈里斯稱(chēng)美對(duì)委內(nèi)瑞拉動(dòng)武非法

界面新聞
2026-01-04 11:26:34
中俄先進(jìn)武器為何失靈?委內(nèi)瑞拉事件揭開(kāi)現(xiàn)代戰(zhàn)爭(zhēng)核心邏輯

中俄先進(jìn)武器為何失靈?委內(nèi)瑞拉事件揭開(kāi)現(xiàn)代戰(zhàn)爭(zhēng)核心邏輯

創(chuàng)作者_(dá)b3jm
2026-01-03 22:47:03
不是戰(zhàn)爭(zhēng),是逮捕:馬杜羅落網(wǎng),宣告美國(guó)全球執(zhí)法新時(shí)代

不是戰(zhàn)爭(zhēng),是逮捕:馬杜羅落網(wǎng),宣告美國(guó)全球執(zhí)法新時(shí)代

斌聞天下
2026-01-04 10:32:06
震驚!網(wǎng)傳特斯拉開(kāi)除一產(chǎn)線(xiàn)組長(zhǎng),起因是他為提升產(chǎn)能提倡加班

震驚!網(wǎng)傳特斯拉開(kāi)除一產(chǎn)線(xiàn)組長(zhǎng),起因是他為提升產(chǎn)能提倡加班

火山詩(shī)話(huà)
2026-01-02 15:42:01
她復(fù)出后依然山峰林立

她復(fù)出后依然山峰林立

貴圈真亂
2026-01-04 10:38:30
與其說(shuō)美軍綁架了馬杜羅,不如說(shuō)是委內(nèi)瑞拉統(tǒng)治集團(tuán)出賣(mài)了他

與其說(shuō)美軍綁架了馬杜羅,不如說(shuō)是委內(nèi)瑞拉統(tǒng)治集團(tuán)出賣(mài)了他

阿爾法34號(hào)
2026-01-04 09:38:31
伊朗最高領(lǐng)袖就美國(guó)對(duì)委軍事行動(dòng)表態(tài):“絕不會(huì)向敵人屈服”

伊朗最高領(lǐng)袖就美國(guó)對(duì)委軍事行動(dòng)表態(tài):“絕不會(huì)向敵人屈服”

環(huán)球網(wǎng)資訊
2026-01-04 12:08:21
雷軍直播,沖上熱搜!網(wǎng)友:是真敢啊

雷軍直播,沖上熱搜!網(wǎng)友:是真敢啊

中國(guó)基金報(bào)
2026-01-04 00:01:01
未來(lái)72小時(shí)至關(guān)重要:美國(guó)若掌控委內(nèi)瑞拉將改寫(xiě)全球油價(jià)

未來(lái)72小時(shí)至關(guān)重要:美國(guó)若掌控委內(nèi)瑞拉將改寫(xiě)全球油價(jià)

桂系007
2026-01-03 23:59:15
“i茅臺(tái)”連續(xù)4天秒空,茅臺(tái)批發(fā)價(jià)再度跌破1499元

“i茅臺(tái)”連續(xù)4天秒空,茅臺(tái)批發(fā)價(jià)再度跌破1499元

第一財(cái)經(jīng)資訊
2026-01-04 10:48:26
大爭(zhēng)議!三球效仿字母哥“爭(zhēng)議暴扣”引沖突 黃蜂15分逆轉(zhuǎn)公牛

大爭(zhēng)議!三球效仿字母哥“爭(zhēng)議暴扣”引沖突 黃蜂15分逆轉(zhuǎn)公牛

醉臥浮生
2026-01-04 12:11:17
俄首富警告:美國(guó)若掌握委國(guó)油田,將壓垮俄羅斯財(cái)政

俄首富警告:美國(guó)若掌握委國(guó)油田,將壓垮俄羅斯財(cái)政

桂系007
2026-01-04 01:45:32
笑不活!司曉迪“可汗大點(diǎn)兵”炸翻頂流圈,我卻笑死在成毅評(píng)論區(qū)

笑不活!司曉迪“可汗大點(diǎn)兵”炸翻頂流圈,我卻笑死在成毅評(píng)論區(qū)

八卦南風(fēng)
2026-01-03 17:33:45
遭雙殺,北京隊(duì)揪出最令人失望之人!拿550萬(wàn)10中2,被胡金秋打爆

遭雙殺,北京隊(duì)揪出最令人失望之人!拿550萬(wàn)10中2,被胡金秋打爆

南海浪花
2026-01-04 06:55:12
紐約市長(zhǎng):這是違法的戰(zhàn)爭(zhēng)行為!

紐約市長(zhǎng):這是違法的戰(zhàn)爭(zhēng)行為!

環(huán)球時(shí)報(bào)國(guó)際
2026-01-04 10:16:39
給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔(dān)憂(yōu)

給嬰兒喂安眠藥后續(xù):月嫂單位被扒,黑幕曝光,孩子狀態(tài)讓人擔(dān)憂(yōu)

奇思妙想草葉君
2026-01-03 19:47:31
馬杜羅最新照片

馬杜羅最新照片

新京報(bào)政事兒
2026-01-04 00:40:21
美國(guó)告知全世界,馬杜羅將進(jìn)監(jiān)獄,不到24小時(shí),反美強(qiáng)國(guó)仗義出手

美國(guó)告知全世界,馬杜羅將進(jìn)監(jiān)獄,不到24小時(shí),反美強(qiáng)國(guó)仗義出手

時(shí)時(shí)有聊
2026-01-03 20:32:29
“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

“最美新生兒”火了,似乎在娘胎整容化妝一般,全網(wǎng)都想沾喜氣

菁媽育兒
2026-01-03 12:44:30
2026-01-04 13:03:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16072文章數(shù) 514446關(guān)注度
往期回顧 全部

科技要聞

雷軍:罵小米汽車(chē)有流量,但別故意抹黑

頭條要聞

男子在村口畫(huà)"天安門(mén)"墻繪爆火:因英語(yǔ)5考央美均落榜

頭條要聞

男子在村口畫(huà)"天安門(mén)"墻繪爆火:因英語(yǔ)5考央美均落榜

體育要聞

離開(kāi)中超后,他成了足壇“倒鉤之王”

娛樂(lè)要聞

謝玲玲為101歲林老太慶生,四代同堂

財(cái)經(jīng)要聞

委內(nèi)瑞拉華商親歷:顧客排隊(duì)買(mǎi)生活物資

汽車(chē)要聞

最高續(xù)航310km 嵐圖泰山8或?qū)⑸习肽臧l(fā)布

態(tài)度原創(chuàng)

本地
藝術(shù)
健康
數(shù)碼
公開(kāi)課

本地新聞

即將過(guò)去的2025年,對(duì)重慶的影響竟然如此深遠(yuǎn)

藝術(shù)要聞

故宮一級(jí)文物:和珅送給乾隆的80大壽賀禮

這些新療法,讓化療不再那么痛苦

數(shù)碼要聞

華擎帶來(lái)SL-P白金ATX電源:全日系電容,Cybenetics A靜音

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版