国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UniPat AI 造了批數(shù)據(jù),讓 Qwen 的 3B 激活小模型,單項(xiàng)超過(guò) GPT-5.4

0
分享至

UniPat AI 開源了他們的一個(gè)科研 agent 模型 UniScientist,后訓(xùn)練自 Qwen3,30B參數(shù),3B激活

在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過(guò)了 GPT-5.4(33.0分)


https://github.com/UniPat-AI/UniScientist

但....別急著下結(jié)論,雖然是老朋友,我也不能硬吹,得說(shuō)一下:FrontierScience-Research 測(cè)的是一項(xiàng)很具體的能力

比如:給你一個(gè)開放式科學(xué)問(wèn)題,自己檢索文獻(xiàn),提出假設(shè),做推導(dǎo),做仿真,迭代驗(yàn)證,最后交一份完整的研究報(bào)告。就是科研這一件事,不是通用智能

用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們?cè)炝艘慌鷶?shù)據(jù)
這批數(shù)據(jù)怎么造的,比模型本身有意思

數(shù)據(jù)這件事

好模型 = 好數(shù)據(jù) + 好架構(gòu) + 足夠算力
這點(diǎn)來(lái)說(shuō),地球人都知道

但每次 Technical Report 一出來(lái),架構(gòu)寫幾十頁(yè),數(shù)據(jù)那一塊輕描淡寫,甚至不提

也好理解,畢竟架構(gòu)可以復(fù)現(xiàn),但一批做好的領(lǐng)域數(shù)據(jù),說(shuō)出去就沒(méi)了

UniScientist 做了 4700 多條科研題目,覆蓋物理、數(shù)學(xué)、生物、化學(xué)、計(jì)算機(jī)等 50 多個(gè)學(xué)科。每道題配 20 條以上的評(píng)分標(biāo)準(zhǔn),他們叫 rubric,每條只驗(yàn)證一個(gè)知識(shí)點(diǎn)

科研題目的答案是開放的,沒(méi)有標(biāo)準(zhǔn)答案。但可以把一個(gè)開放問(wèn)題拆成 20 個(gè)檢查項(xiàng),逐條過(guò),質(zhì)量就能量化,專家平均花 1 到 2 小時(shí)標(biāo)一條


學(xué)科分布 兩條彎路

造這批數(shù)據(jù)之前,走過(guò)兩條路

第一條,讓模型直接生成
速度快,成本低。找了一批頂級(jí)高校的碩博來(lái)看,反饋是「不太像人話,有點(diǎn)假」。措辭,問(wèn)題的提法,懂行的人一眼看得出來(lái)

第二條,純?nèi)斯?biāo)注
質(zhì)量有保證,但一條標(biāo)下來(lái)要好幾天

還有一個(gè)更難的問(wèn)題:科研題目很多是跨學(xué)科的
比如找一個(gè)化學(xué)博士,標(biāo)一道生物化學(xué)交叉方向的題,他懂化學(xué)那半,生物那半大概了解。生成題目的人和驗(yàn)證題目的人方向不同,理解會(huì)出現(xiàn)矛盾

但在這個(gè)方向上,模型沒(méi)有「不對(duì)口」的問(wèn)題
于是在當(dāng)前這個(gè)階段,就有了 Human in the Loop 的做法,把數(shù)據(jù)生產(chǎn)拆成流程線。有些步驟模型做,有些步驟專家把關(guān),哪個(gè)環(huán)節(jié)該誰(shuí)來(lái),一邊做一邊摸

雖然現(xiàn)在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個(gè) loop 里了

一個(gè)圖靈測(cè)試

對(duì)于搞科研,Unipat AI 團(tuán)隊(duì)做過(guò)一個(gè)實(shí)驗(yàn)
拿三組題,找了一個(gè)美國(guó)高校的博士來(lái)盲評(píng)。然后問(wèn):哪組最像真實(shí)研究者寫的?

三組分別是:

  • ? FrontierScience 的 benchmark 原題

  • ? 純?nèi)斯?biāo)注的題

  • ? 人機(jī)協(xié)作生成的題

對(duì) benchmark 原題,評(píng)價(jià)是:
中規(guī)中矩,看完能立刻想到解法方向

對(duì)純?nèi)斯?biāo)注那組:
看起來(lái)一知半解,有些地方模糊,不像完全對(duì)口的人寫的

對(duì)人機(jī)協(xié)作那組:
這道題的完成度,夠一個(gè)新晉教授拿項(xiàng)目申請(qǐng)書用了

專業(yè)越深,找到完全對(duì)口的人來(lái)標(biāo)就越難。人工標(biāo)注反而可能是更大的瓶頸
在足夠?qū)5念I(lǐng)域,「純?nèi)斯ぁ刮幢乇取溉藱C(jī)協(xié)作」更真實(shí)

再回到分?jǐn)?shù)上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一個(gè)模型,同樣的架構(gòu),同樣的算力,不做任何訓(xùn)練,直接跑 FrontierScience-Research,3 分
用 2000 條他們?cè)斓目蒲袛?shù)據(jù)訓(xùn)完,大概 15 分
擴(kuò)到 4700 條,28.3 分

模型沒(méi)換,漲的這 25 分是數(shù)據(jù)喂出來(lái)的
邊際效應(yīng)在哪,再加 10 倍數(shù)據(jù)會(huì)怎樣,目前不知道

整條數(shù)據(jù)生產(chǎn)的流程大概是這樣的

左邊是專家給出的科學(xué)論斷和證據(jù)來(lái)源,中間是模型做知識(shí)擴(kuò)展,把多個(gè)論斷整合成一道完整的研究問(wèn)題,專家驗(yàn)證

右邊是從問(wèn)題里拆出 rubric,再經(jīng)過(guò)一輪演化和專家驗(yàn)證,最后形成一條完整的訓(xùn)練數(shù)據(jù):研究背景,研究問(wèn)題,評(píng)分標(biāo)準(zhǔn)


UniScientist 推理流程 題目長(zhǎng)什么樣

Blog 里放了幾道樣題,隨便看兩道

化學(xué)方向
給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric


生態(tài)學(xué)方向
一個(gè)植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數(shù),要求判斷是否存在穩(wěn)定共存平衡點(diǎn),算出傳粉者的最低維持閾值,分析對(duì)抗壓力下植物崩潰的臨界條件。配了 24 條 rubric


每一道題都要求完整走一遍科研流程:
查文獻(xiàn),建模型,算一遍驗(yàn)證,寫報(bào)告...

Blog 里還放了一個(gè)完整的推理過(guò)程。

一道關(guān)于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調(diào)用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續(xù)找,最后交了一份 17000 字的報(bào)告,10 條 rubric 全拿滿




鎳酞菁 meso 位氮原子修飾

完整案例在這:
https://unipat.ai/blog/UniScientist

其他

模型是啥,其實(shí)不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構(gòu),30B 總參數(shù),每次推理激活 3B。128k 上下文,訓(xùn)練用了約 1200 小時(shí) H200 算力

推理時(shí)有四個(gè)工具可以調(diào):網(wǎng)絡(luò)搜索,Google Scholar,網(wǎng)頁(yè)抓取,代碼執(zhí)行。每次任務(wù)最多跑 100 輪,支持多次 rollout 再聚合

說(shuō)一下這個(gè)榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來(lái)的,專門測(cè)科學(xué)研究能力。AI 行業(yè)有個(gè)規(guī)律,一個(gè)榜出來(lái),各家集中優(yōu)化,一年左右刷到天花板。這個(gè)榜目前各家分差還明顯,還沒(méi)到扎堆的階段

具體成績(jī):

  • ? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高

  • ? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平

  • ? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0

  • ? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4

  • ? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7

不帶工具裸跑,成績(jī)也比基座有明顯提升。不全是靠工具調(diào)用漲的分

模型權(quán)重和推理代碼都開源,Apache 2.0


benchmark 詳細(xì)對(duì)比 以及..

之前和他們團(tuán)隊(duì)聊天的時(shí)候,我問(wèn)到
在這個(gè)過(guò)程中,有沒(méi)有發(fā)現(xiàn)什么奇怪或者不一樣的事情?

也確實(shí)有:用科研數(shù)據(jù)訓(xùn)出來(lái)的模型,在通用報(bào)告生成任務(wù)上也漲了

DeepResearch Bench,ResearchRubrics,這些和科研沒(méi)直接關(guān)系的榜,分?jǐn)?shù)都跟著上來(lái)

不過(guò)也合理,做研究這件事,要求主動(dòng)找證據(jù),提假設(shè),驗(yàn)證,迭代,最后寫結(jié)論,和 DeepResearch 挺像的,一旦建立起來(lái),往外溢,大概是自然的

UniPat AI,去年 12 月成立的研究實(shí)驗(yàn)室。之前發(fā)過(guò)多模態(tài)評(píng)測(cè)基準(zhǔn) BabyVision,已被多個(gè)近期發(fā)布的模型納入評(píng)測(cè)體系

項(xiàng)目地址:
https://github.com/UniPat-AI/UniScientist

模型權(quán)重:
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog:
https://unipat.ai/blog/UniScientist

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
央視調(diào)查暗黑動(dòng)漫正侵蝕青少年:多平臺(tái)公然傳播被禁多年的《東京食尸鬼》,內(nèi)容充斥絕望與暴力,偽裝成0.3元可買的資源或超長(zhǎng)風(fēng)光片

央視調(diào)查暗黑動(dòng)漫正侵蝕青少年:多平臺(tái)公然傳播被禁多年的《東京食尸鬼》,內(nèi)容充斥絕望與暴力,偽裝成0.3元可買的資源或超長(zhǎng)風(fēng)光片

極目新聞
2026-04-17 14:26:49
大面積閉店!深圳“奶茶一姐”為何輸給了河南草根兄弟?

大面積閉店!深圳“奶茶一姐”為何輸給了河南草根兄弟?

帥真商業(yè)
2026-04-15 18:58:55
直至陳瑤沖上熱搜,才知為何她人美戲好卻始終不火,吳鎮(zhèn)宇說(shuō)對(duì)了

直至陳瑤沖上熱搜,才知為何她人美戲好卻始終不火,吳鎮(zhèn)宇說(shuō)對(duì)了

劇芒芒
2026-04-17 15:13:34
中超雙賽:申花輕取升班馬,大連補(bǔ)時(shí)絕殺制勝

中超雙賽:申花輕取升班馬,大連補(bǔ)時(shí)絕殺制勝

余飩搞笑段子
2026-04-18 22:12:13
52 歲張震岳湘江邊夜跑!黝黑絡(luò)腮胡像外國(guó)人,男人味拉滿

52 歲張震岳湘江邊夜跑!黝黑絡(luò)腮胡像外國(guó)人,男人味拉滿

南萬(wàn)說(shuō)娛26
2026-04-12 15:22:37
丹尼斯泰勒:今年世錦賽冠軍 不是趙心童就是奧沙利文

丹尼斯泰勒:今年世錦賽冠軍 不是趙心童就是奧沙利文

羅克
2026-04-16 23:04:20
巨石強(qiáng)森曝光祖父照片:真人版毛伊原型是他

巨石強(qiáng)森曝光祖父照片:真人版毛伊原型是他

影視情報(bào)室
2026-04-17 08:42:31
《蜜語(yǔ)紀(jì)》蔣芷純白忙了!原來(lái),這才是她把紀(jì)封推向許蜜語(yǔ)的真相

《蜜語(yǔ)紀(jì)》蔣芷純白忙了!原來(lái),這才是她把紀(jì)封推向許蜜語(yǔ)的真相

郭蛹包工頭
2026-04-18 12:05:05
北影節(jié)開幕式出現(xiàn)搶位風(fēng)波!沈騰被擠出C位,強(qiáng)行在沈馬中間加桌

北影節(jié)開幕式出現(xiàn)搶位風(fēng)波!沈騰被擠出C位,強(qiáng)行在沈馬中間加桌

萌神木木
2026-04-16 21:18:03
破防!雷軍15小時(shí)京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

破防!雷軍15小時(shí)京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

雷科技
2026-04-18 12:38:28
42歲劉翔近況曝光,長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

42歲劉翔近況曝光,長(zhǎng)期在國(guó)外旅游,靠終身合同吸金,遠(yuǎn)離噴子!

林輕吟
2026-04-18 19:26:24
確診!福建女子兩年胖20斤,總是莫名疲累!醫(yī)生:?jiǎn)栴}出在脖子上,太多人忽視

確診!福建女子兩年胖20斤,總是莫名疲累!醫(yī)生:?jiǎn)栴}出在脖子上,太多人忽視

福建衛(wèi)生報(bào)
2026-04-18 17:39:12
惹怒王蒙,趙子琪硬剛,蕭薔開炮!吳京:該回家?guī)蘖耍?>
    </a>
        <h3>
      <a href=素衣讀史
2026-04-17 19:27:35
斯盧茨基有進(jìn)步,申花越低調(diào)對(duì)手越害怕,被扣十分反而越來(lái)越團(tuán)結(jié)

斯盧茨基有進(jìn)步,申花越低調(diào)對(duì)手越害怕,被扣十分反而越來(lái)越團(tuán)結(jié)

足壇劉脂導(dǎo)
2026-04-18 23:11:30
上海一小區(qū)居民很生氣:近百萬(wàn)改造項(xiàng)目質(zhì)量堪憂,新裝的智能門禁形同虛設(shè)!查賬后還發(fā)現(xiàn)一件事……

上海一小區(qū)居民很生氣:近百萬(wàn)改造項(xiàng)目質(zhì)量堪憂,新裝的智能門禁形同虛設(shè)!查賬后還發(fā)現(xiàn)一件事……

環(huán)球網(wǎng)資訊
2026-04-18 15:08:12
紅果短劇聲明:全面下架

紅果短劇聲明:全面下架

廣州生活美食圈
2026-04-17 20:44:45
臺(tái)灣漁民親述:大陸海警滅火時(shí)喊的那句"別怕,祖國(guó)在"有多暖?

臺(tái)灣漁民親述:大陸海警滅火時(shí)喊的那句"別怕,祖國(guó)在"有多暖?

大河故事會(huì)
2026-04-18 11:54:38
張?zhí)m回京3天干4件事,汪小菲直接認(rèn)慫,難怪當(dāng)年大S“斗不過(guò)”她

張?zhí)m回京3天干4件事,汪小菲直接認(rèn)慫,難怪當(dāng)年大S“斗不過(guò)”她

離離言幾許
2026-03-09 21:38:25
馬筱梅與玥箖割席后,硬要帶親媽住婆婆的別墅,張?zhí)m終于不再沉默

馬筱梅與玥箖割席后,硬要帶親媽住婆婆的別墅,張?zhí)m終于不再沉默

老屬科普
2026-04-18 06:08:23
理想看了沉默 福特三排座純電SUV原型車曝光:定位“高鐵級(jí)”座駕

理想看了沉默 福特三排座純電SUV原型車曝光:定位“高鐵級(jí)”座駕

快科技
2026-04-18 08:36:13
2026-04-18 23:51:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數(shù) 50關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒(méi)有人再嘲笑他了

娛樂(lè)要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬(wàn)科"2.0:管理層如何吸血萬(wàn)物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
健康
教育
公開課
軍事航空

選對(duì)發(fā)型,真的能少走很多變美彎路

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

教育要聞

教育縱深 | 聚焦春招進(jìn)行時(shí)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版