国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型黑箱被撬開(kāi):MIT華人聯(lián)創(chuàng),造出能追溯思考過(guò)程的大模型

0
分享至

大模型的黑箱問(wèn)題有解了?2 月 23 日,三名 MIT 博士在美國(guó)舊金山創(chuàng)辦的 Guide Labs 初創(chuàng)公司開(kāi)源了一個(gè) 80 億參數(shù)的語(yǔ)言模型 Steerling-8B。它最特別的地方在于,所生成的每一個(gè)詞都可以追溯到三個(gè)源頭:輸入了哪些提示詞、動(dòng)用了哪些概念、參考了哪些訓(xùn)練數(shù)據(jù)。之所以能做到這些,是因?yàn)?Guide Labs 在設(shè)計(jì)之初就給模型 Steerling-8B 事先埋了功能。


(來(lái)源:Guide Labs)

創(chuàng)始團(tuán)隊(duì)的三個(gè)人在 AI 領(lǐng)域已經(jīng)泡了十幾年。

Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學(xué)學(xué)習(xí)機(jī)械工程,后來(lái)在麻省理工學(xué)院拿了三個(gè)學(xué)位。2017 年他在谷歌做 AI 研究院,隨后進(jìn)入基因泰克子公司 Prescient Design 做數(shù)據(jù)科學(xué)。他的博士論文研究方向就是調(diào)試機(jī)器學(xué)習(xí)模型的工具,2018 年他那篇被廣泛引用的論文證明了一個(gè)結(jié)論:現(xiàn)有的深度學(xué)習(xí)模型解釋方法根本不可靠。


圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來(lái)源:領(lǐng)英)

Guide Labs 的首席科學(xué)家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學(xué)帕克分校拿的計(jì)算機(jī)科學(xué)博士,在 NeurIPS、ICLR 這些頂級(jí)會(huì)議上發(fā)了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導(dǎo)訓(xùn)練來(lái)提升深度學(xué)習(xí)解釋性,同時(shí)還建立了一套時(shí)間序列數(shù)據(jù)的解釋性評(píng)估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來(lái)源:領(lǐng)英)

第三位聯(lián)合創(chuàng)始人富爾頓·王(Fulton Wang)是麻省理工學(xué)院計(jì)算機(jī)科學(xué)博士,2015 年拿過(guò)美國(guó)統(tǒng)計(jì)協(xié)會(huì)統(tǒng)計(jì)學(xué)習(xí)與數(shù)據(jù)挖掘分會(huì)的最佳學(xué)生論文獎(jiǎng)。


圖 | 富爾頓·王(Fulton Wang)(來(lái)源:領(lǐng)英)

這三個(gè)人湊在一起就是希望解決同一個(gè)問(wèn)題:如何讓 AI 的解釋變得可信。

當(dāng)前市面上流行的方法,就像給一個(gè)陌生人做腦部掃描,試圖通過(guò)觀察這個(gè)人的神經(jīng)活動(dòng)來(lái)推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對(duì)模型做神經(jīng)科學(xué)。但 Guide Labs 換了個(gè)思路,他們放棄從外部解讀的方法,轉(zhuǎn)而從內(nèi)部設(shè)計(jì)。也就是從一開(kāi)始就把模型架構(gòu)做成可解釋的,讓每一層計(jì)算都留下痕跡。

他們?cè)谀P屠锴度肓艘粋€(gè)概念層,相當(dāng)于給數(shù)據(jù)分了類,貼上了可追溯的標(biāo)簽。這個(gè)層里有大約 3.3 萬(wàn)個(gè)已知概念,是人工預(yù)先標(biāo)注好的,比如基因編輯、量子計(jì)算這些話題。還有大約 10 萬(wàn)個(gè)發(fā)現(xiàn)概念,是模型自己在訓(xùn)練過(guò)程中學(xué)會(huì)的。


(來(lái)源:Guide Labs)

當(dāng)你讓 Steerling-8B 生成一段文字,它輸出的每一個(gè)詞塊,都可以點(diǎn)開(kāi)并查看以下三張清單。第一張清單是輸入特征歸因,會(huì)告訴你這個(gè)詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會(huì)列出它動(dòng)用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓(xùn)練數(shù)據(jù)歸因,會(huì)告訴你這個(gè)詞涉及的概念主要來(lái)自哪些訓(xùn)練數(shù)據(jù)源,比如是來(lái)自 arXiv、維基百科還是 FLAN 數(shù)據(jù)集。

這意味著如果模型輸出了一段涉及版權(quán)的內(nèi)容,你可以直接追溯到是哪篇訓(xùn)練文章影響了它。如果模型在回答醫(yī)療問(wèn)題時(shí)表現(xiàn)得有偏見(jiàn),你可以查看到底是哪些概念在起作用,然后就能精準(zhǔn)關(guān)掉那個(gè)概念的開(kāi)關(guān)。

說(shuō)到開(kāi)關(guān),這個(gè)模型還有一個(gè)能力叫做概念控制。你在推理的時(shí)候,可以手動(dòng)放大或者壓制某個(gè)概念的影響,不需要重新訓(xùn)練模型。比如說(shuō)你想讓回答更專業(yè)一點(diǎn),就把“專業(yè)”這個(gè)概念對(duì)應(yīng)的向量調(diào)大。再比如你想避免模型談?wù)摫┝?,就把“暴力”概念的?quán)重調(diào)低。Guide Labs 稱,這相當(dāng)于使用幾十個(gè)概念的調(diào)節(jié),取代了以往需要成千上萬(wàn)條安全訓(xùn)練數(shù)據(jù)才能做到的護(hù)欄效果。

在性能上,Steerling-8B 訓(xùn)練使用了 1.35 萬(wàn)億個(gè) tokens,在各種基準(zhǔn)測(cè)試上的表現(xiàn)和使用了 2 到 7 倍數(shù)據(jù)量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻(xiàn)來(lái)自概念層,而不是其他通道。這意味著模型的預(yù)測(cè)確實(shí)是沿著概念走的,而不是表面上給個(gè)解釋、暗地里使用其他方式干活。


(來(lái)源:Guide Labs)

要想驗(yàn)證這一點(diǎn)其實(shí)很簡(jiǎn)單:把其他通道關(guān)掉,看看模型還能不能正常工作。Guide Labs 的測(cè)試結(jié)果顯示,在各種任務(wù)上性能變化很小,這反過(guò)來(lái)證明了模型主要依靠概念在運(yùn)轉(zhuǎn)。

阿德巴約告訴媒體,把可解釋性做進(jìn)模型的基因里,對(duì)于人類來(lái)說(shuō)是一件長(zhǎng)期的好事。據(jù)了解,Guide Labs 于 2024 年浮出水面,當(dāng)時(shí)從 Initialized Capital 拿了 900 萬(wàn)美元種子輪融資,阿德巴約也是 Y Combinator 的畢業(yè)生。這次開(kāi)源的 Steerling-8B 是他們目前為止最大的概念驗(yàn)證。下一步,他們打算做更大的模型,并將開(kāi)放 API 接口讓更多人用上這套可追溯的 AI 系統(tǒng)。


(來(lái)源:Guide Labs)

Guide Labs 也在公司官網(wǎng)的博客里介紹了一些接下來(lái)要深挖的方向:概念控制、概念發(fā)現(xiàn)、無(wú)需微調(diào)的對(duì)齊、訓(xùn)練數(shù)據(jù)溯源,這些目標(biāo)的每一條背后都用論文支撐,有的是幾年前發(fā)的,有的是剛發(fā)的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

七年前,阿德巴約在麻省理工學(xué)院寫(xiě)博士論文的時(shí)候,開(kāi)頭第一句話大意是隨著機(jī)器學(xué)習(xí)系統(tǒng)部署到越來(lái)越多的高風(fēng)險(xiǎn)領(lǐng)域,確保它們可靠、公平、安全變得至關(guān)重要。但是,如果沒(méi)有有效工具來(lái)理解這些系統(tǒng)為何做出某個(gè)決定,這些目標(biāo)就很難實(shí)現(xiàn)。

現(xiàn)在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問(wèn)題,每個(gè)解釋也不是完美無(wú)缺的,但它證明了這樣一條走得通的新路,那就是對(duì)著 AI 黑箱瞎猜是不行的,要在一開(kāi)始就給黑箱安個(gè)燈。

參考資料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

軟件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢(qián)樹(shù),AI 正在「清零」人類工位

一夜蒸發(fā) 310 億美元!Claude 新工具干翻 IBM 搖錢(qián)樹(shù),AI 正在「清零」人類工位

AppSo
2026-02-24 12:20:50
朝鮮勞動(dòng)黨九大,崔龍海的退出

朝鮮勞動(dòng)黨九大,崔龍海的退出

周邊問(wèn)題研究所
2026-02-24 14:14:10
返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時(shí)共享單車

返程上海遭遇虹橋站打車難:超1200人在線排隊(duì),有人打貨拉拉回家,或騎兩小時(shí)共享單車

齊魯壹點(diǎn)
2026-02-24 17:55:12
姚晨過(guò)年回家被“連罵三天”事件,撕開(kāi)了中國(guó)人的統(tǒng)一春節(jié)噩夢(mèng)!

姚晨過(guò)年回家被“連罵三天”事件,撕開(kāi)了中國(guó)人的統(tǒng)一春節(jié)噩夢(mèng)!

脆皮先生
2026-02-23 19:35:34
消失的 29 斤羊肉去哪了?暗訪揭開(kāi)烤全羊行業(yè)黑幕

消失的 29 斤羊肉去哪了?暗訪揭開(kāi)烤全羊行業(yè)黑幕

復(fù)轉(zhuǎn)小能手
2026-02-24 17:32:12
全線崩盤(pán)!“超級(jí)風(fēng)暴”來(lái)了

全線崩盤(pán)!“超級(jí)風(fēng)暴”來(lái)了

魏家東
2026-02-24 09:09:26
電飯煲按下去的那一刻,北方的面食時(shí)代就結(jié)束了

電飯煲按下去的那一刻,北方的面食時(shí)代就結(jié)束了

富貴說(shuō)
2026-02-22 21:14:55
侃爺夫婦:一個(gè)不穿鞋賣(mài)鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

侃爺夫婦:一個(gè)不穿鞋賣(mài)鞋,一個(gè)敢穿到出圈,畫(huà)風(fēng)絕了

述家?jiàn)视?/span>
2026-02-23 21:23:16
被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

被打女孩至今半昏迷!打人夫妻徹底栽了,網(wǎng)友:比唐山打人案更狠

愛(ài)寫(xiě)的櫻桃
2026-02-23 22:06:50
36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報(bào)

36斤活羊烤完剩6.9斤后續(xù)!花了1188元,商家曝原因,顧客已舉報(bào)

南方健哥
2026-02-24 05:22:18
3-0橫掃晉級(jí)!中國(guó)女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

3-0橫掃晉級(jí)!中國(guó)女乒22歲第三巨頭崛起:追趕孫穎莎王曼昱?

李喜林籃球絕殺
2026-02-23 20:35:54
籃協(xié)即將換屆,王治郅或成新掌門(mén)人?答案早已明確,姚明無(wú)可奈何

籃協(xié)即將換屆,王治郅或成新掌門(mén)人?答案早已明確,姚明無(wú)可奈何

萌蘭聊個(gè)球
2026-02-24 15:23:54
哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書(shū)

哥哥高考復(fù)讀5年,錄取滑檔仍要復(fù)讀,母親發(fā)現(xiàn)5張高校錄取通知書(shū)

小秋情感說(shuō)
2026-02-24 09:54:03
恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

恭喜汪小菲又當(dāng)爸爸!產(chǎn)房照曝光兒子好帥氣,馬筱梅抱孩子很溫柔

娛樂(lè)圈圈圓
2026-02-24 15:30:08
王楠執(zhí)教突遭舉報(bào)!上任即翻車,郭斌最擔(dān)心的事還是來(lái)了

王楠執(zhí)教突遭舉報(bào)!上任即翻車,郭斌最擔(dān)心的事還是來(lái)了

卿子書(shū)
2026-02-24 09:04:42
王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報(bào)了吉尼斯世界記錄?

王健林投資約1億!在廣州建造了一座大型“壽桃”建筑!還申報(bào)了吉尼斯世界記錄?

建筑師雜志
2026-02-23 13:02:22
馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

馬筱梅生子!孩子小名曝光,張?zhí)m公布生產(chǎn)細(xì)節(jié),卻被質(zhì)疑太偏心!

古希臘掌管月桂的神
2026-02-24 13:45:04
火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

醉臥浮生
2026-02-24 12:54:22
宇樹(shù)去年賣(mài)了5500臺(tái)機(jī)器人,深挖后發(fā)現(xiàn):買(mǎi)主根本不是普通人

宇樹(shù)去年賣(mài)了5500臺(tái)機(jī)器人,深挖后發(fā)現(xiàn):買(mǎi)主根本不是普通人

離離言幾許
2026-02-22 20:45:23
WTT新加坡大滿貫:國(guó)乒再贏3場(chǎng)輸1戰(zhàn)!陳幸同率先晉級(jí)女單16強(qiáng)

WTT新加坡大滿貫:國(guó)乒再贏3場(chǎng)輸1戰(zhàn)!陳幸同率先晉級(jí)女單16強(qiáng)

全言作品
2026-02-24 15:01:38
2026-02-24 21:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16315文章數(shù) 514648關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

特朗普:是否對(duì)伊朗動(dòng)武 最終決定權(quán)在我手中

頭條要聞

特朗普:是否對(duì)伊朗動(dòng)武 最終決定權(quán)在我手中

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門(mén)即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

教育
藝術(shù)
房產(chǎn)
時(shí)尚
軍事航空

教育要聞

提前返程背后的真相:父母的“精明賬”,是給孩子最好的守護(hù)

藝術(shù)要聞

2025年第八屆全國(guó)青年美展 | 油畫(huà)作品選刊

房產(chǎn)要聞

330萬(wàn)人涌入!春節(jié)全國(guó)樓市,第一個(gè)賣(mài)爆的區(qū)域出現(xiàn)了!

50+的女性,大衣、直筒褲、皮草這么穿,冬天保暖顯瘦兩不誤

軍事要聞

美軍參聯(lián)會(huì)主席警告:對(duì)伊朗動(dòng)武可能帶來(lái)重大風(fēng)險(xiǎn)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版