国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

大模型黑箱被撬開:MIT華人聯(lián)創(chuàng),造出能追溯思考過程的大模型

0
分享至

大模型的黑箱問題有解了?2 月 23 日,三名 MIT 博士在美國舊金山創(chuàng)辦的 Guide Labs 初創(chuàng)公司開源了一個(gè) 80 億參數(shù)的語言模型 Steerling-8B。它最特別的地方在于,所生成的每一個(gè)詞都可以追溯到三個(gè)源頭:輸入了哪些提示詞、動(dòng)用了哪些概念、參考了哪些訓(xùn)練數(shù)據(jù)。之所以能做到這些,是因?yàn)?Guide Labs 在設(shè)計(jì)之初就給模型 Steerling-8B 事先埋了功能。


(來源:Guide Labs)

創(chuàng)始團(tuán)隊(duì)的三個(gè)人在 AI 領(lǐng)域已經(jīng)泡了十幾年。

Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學(xué)學(xué)習(xí)機(jī)械工程,后來在麻省理工學(xué)院拿了三個(gè)學(xué)位。2017 年他在谷歌做 AI 研究院,隨后進(jìn)入基因泰克子公司 Prescient Design 做數(shù)據(jù)科學(xué)。他的博士論文研究方向就是調(diào)試機(jī)器學(xué)習(xí)模型的工具,2018 年他那篇被廣泛引用的論文證明了一個(gè)結(jié)論:現(xiàn)有的深度學(xué)習(xí)模型解釋方法根本不可靠。


圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來源:領(lǐng)英)

Guide Labs 的首席科學(xué)家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學(xué)帕克分校拿的計(jì)算機(jī)科學(xué)博士,在 NeurIPS、ICLR 這些頂級(jí)會(huì)議上發(fā)了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導(dǎo)訓(xùn)練來提升深度學(xué)習(xí)解釋性,同時(shí)還建立了一套時(shí)間序列數(shù)據(jù)的解釋性評(píng)估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來源:領(lǐng)英)

第三位聯(lián)合創(chuàng)始人富爾頓·王(Fulton Wang)是麻省理工學(xué)院計(jì)算機(jī)科學(xué)博士,2015 年拿過美國統(tǒng)計(jì)協(xié)會(huì)統(tǒng)計(jì)學(xué)習(xí)與數(shù)據(jù)挖掘分會(huì)的最佳學(xué)生論文獎(jiǎng)。


圖 | 富爾頓·王(Fulton Wang)(來源:領(lǐng)英)

這三個(gè)人湊在一起就是希望解決同一個(gè)問題:如何讓 AI 的解釋變得可信。

當(dāng)前市面上流行的方法,就像給一個(gè)陌生人做腦部掃描,試圖通過觀察這個(gè)人的神經(jīng)活動(dòng)來推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經(jīng)科學(xué)。但 Guide Labs 換了個(gè)思路,他們放棄從外部解讀的方法,轉(zhuǎn)而從內(nèi)部設(shè)計(jì)。也就是從一開始就把模型架構(gòu)做成可解釋的,讓每一層計(jì)算都留下痕跡。

他們在模型里嵌入了一個(gè)概念層,相當(dāng)于給數(shù)據(jù)分了類,貼上了可追溯的標(biāo)簽。這個(gè)層里有大約 3.3 萬個(gè)已知概念,是人工預(yù)先標(biāo)注好的,比如基因編輯、量子計(jì)算這些話題。還有大約 10 萬個(gè)發(fā)現(xiàn)概念,是模型自己在訓(xùn)練過程中學(xué)會(huì)的。


(來源:Guide Labs)

當(dāng)你讓 Steerling-8B 生成一段文字,它輸出的每一個(gè)詞塊,都可以點(diǎn)開并查看以下三張清單。第一張清單是輸入特征歸因,會(huì)告訴你這個(gè)詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會(huì)列出它動(dòng)用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓(xùn)練數(shù)據(jù)歸因,會(huì)告訴你這個(gè)詞涉及的概念主要來自哪些訓(xùn)練數(shù)據(jù)源,比如是來自 arXiv、維基百科還是 FLAN 數(shù)據(jù)集。

這意味著如果模型輸出了一段涉及版權(quán)的內(nèi)容,你可以直接追溯到是哪篇訓(xùn)練文章影響了它。如果模型在回答醫(yī)療問題時(shí)表現(xiàn)得有偏見,你可以查看到底是哪些概念在起作用,然后就能精準(zhǔn)關(guān)掉那個(gè)概念的開關(guān)。

說到開關(guān),這個(gè)模型還有一個(gè)能力叫做概念控制。你在推理的時(shí)候,可以手動(dòng)放大或者壓制某個(gè)概念的影響,不需要重新訓(xùn)練模型。比如說你想讓回答更專業(yè)一點(diǎn),就把“專業(yè)”這個(gè)概念對應(yīng)的向量調(diào)大。再比如你想避免模型談?wù)摫┝?,就把“暴力”概念的?quán)重調(diào)低。Guide Labs 稱,這相當(dāng)于使用幾十個(gè)概念的調(diào)節(jié),取代了以往需要成千上萬條安全訓(xùn)練數(shù)據(jù)才能做到的護(hù)欄效果。

在性能上,Steerling-8B 訓(xùn)練使用了 1.35 萬億個(gè) tokens,在各種基準(zhǔn)測試上的表現(xiàn)和使用了 2 到 7 倍數(shù)據(jù)量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻(xiàn)來自概念層,而不是其他通道。這意味著模型的預(yù)測確實(shí)是沿著概念走的,而不是表面上給個(gè)解釋、暗地里使用其他方式干活。


(來源:Guide Labs)

要想驗(yàn)證這一點(diǎn)其實(shí)很簡單:把其他通道關(guān)掉,看看模型還能不能正常工作。Guide Labs 的測試結(jié)果顯示,在各種任務(wù)上性能變化很小,這反過來證明了模型主要依靠概念在運(yùn)轉(zhuǎn)。

阿德巴約告訴媒體,把可解釋性做進(jìn)模型的基因里,對于人類來說是一件長期的好事。據(jù)了解,Guide Labs 于 2024 年浮出水面,當(dāng)時(shí)從 Initialized Capital 拿了 900 萬美元種子輪融資,阿德巴約也是 Y Combinator 的畢業(yè)生。這次開源的 Steerling-8B 是他們目前為止最大的概念驗(yàn)證。下一步,他們打算做更大的模型,并將開放 API 接口讓更多人用上這套可追溯的 AI 系統(tǒng)。


(來源:Guide Labs)

Guide Labs 也在公司官網(wǎng)的博客里介紹了一些接下來要深挖的方向:概念控制、概念發(fā)現(xiàn)、無需微調(diào)的對齊、訓(xùn)練數(shù)據(jù)溯源,這些目標(biāo)的每一條背后都用論文支撐,有的是幾年前發(fā)的,有的是剛發(fā)的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

七年前,阿德巴約在麻省理工學(xué)院寫博士論文的時(shí)候,開頭第一句話大意是隨著機(jī)器學(xué)習(xí)系統(tǒng)部署到越來越多的高風(fēng)險(xiǎn)領(lǐng)域,確保它們可靠、公平、安全變得至關(guān)重要。但是,如果沒有有效工具來理解這些系統(tǒng)為何做出某個(gè)決定,這些目標(biāo)就很難實(shí)現(xiàn)。

現(xiàn)在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問題,每個(gè)解釋也不是完美無缺的,但它證明了這樣一條走得通的新路,那就是對著 AI 黑箱瞎猜是不行的,要在一開始就給黑箱安個(gè)燈。

參考資料:

Huggingface:https://huggingface.co/guidelabs/steerling-8b

GitHub:https://github.com/guidelabs/steerling

軟件包:https://pypi.org/project/steerling/

https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

https://www.guidelabs.ai/post/steerling-8b-base-model-release/

https://www.linkedin.com/in/juliusadebayo/

https://www.linkedin.com/in/ayaabdelsalamismail/

https://www.linkedin.com/in/fulton-wang-aa904a75/

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
開油車的笑了,開電車的慌了?2026油電新政實(shí)錘,稅費(fèi)規(guī)則全變了

開油車的笑了,開電車的慌了?2026油電新政實(shí)錘,稅費(fèi)規(guī)則全變了

蜉蝣說
2026-02-25 09:20:25
卡塞米羅拒絕續(xù)約曼聯(lián)原因曝光,感覺拉爵對其不敬!或降薪去意甲

卡塞米羅拒絕續(xù)約曼聯(lián)原因曝光,感覺拉爵對其不敬!或降薪去意甲

羅米的曼聯(lián)博客
2026-02-26 09:55:56
假如一等功臣的家屬被欺負(fù)了怎樣?網(wǎng)友:這肯定成為焦點(diǎn)

假如一等功臣的家屬被欺負(fù)了怎樣?網(wǎng)友:這肯定成為焦點(diǎn)

夜深愛雜談
2026-02-25 21:51:28
93年陳彪院士離奇失蹤,國家尋找30年仍無線索,被外國勢力陷害?

93年陳彪院士離奇失蹤,國家尋找30年仍無線索,被外國勢力陷害?

大運(yùn)河時(shí)空
2026-02-25 09:30:03
父親曾是上海首富,母親是知名主持,她卻定居美國,靠賣衣服為生

父親曾是上海首富,母親是知名主持,她卻定居美國,靠賣衣服為生

林輕吟
2026-02-25 22:29:48
開拓者更新楊瀚森傷情!籃球?qū)<以斀猬F(xiàn)狀未來:首要問題是三分球

開拓者更新楊瀚森傷情!籃球?qū)<以斀猬F(xiàn)狀未來:首要問題是三分球

羅說NBA
2026-02-26 08:34:30
尼格買提與撒貝寧滑雪被偶遇,17年老友情靠“互懟”維系

尼格買提與撒貝寧滑雪被偶遇,17年老友情靠“互懟”維系

師維
2026-02-26 09:34:16
危險(xiǎn)信號(hào)!賴清德大勝,綠營變天,鄭麗文突然改口:支持對美軍購

危險(xiǎn)信號(hào)!賴清德大勝,綠營變天,鄭麗文突然改口:支持對美軍購

井普椿的獨(dú)白
2026-02-25 21:37:52
中紀(jì)委2026下死手!四類人好日子到頭,退休也不是護(hù)身符

中紀(jì)委2026下死手!四類人好日子到頭,退休也不是護(hù)身符

觀星賞月
2026-02-25 18:28:44
朝鮮高層大變動(dòng),金正恩親妹妹升職,背后產(chǎn)生哪些不容忽視的影響

朝鮮高層大變動(dòng),金正恩親妹妹升職,背后產(chǎn)生哪些不容忽視的影響

李昕言溫度空間
2026-02-25 22:02:45
9人登場8人上雙,勇士差一步打破塵封32年紀(jì)錄,追夢還好意思笑?

9人登場8人上雙,勇士差一步打破塵封32年紀(jì)錄,追夢還好意思笑?

大飛說籃球
2026-02-26 11:34:58
英偉達(dá)成功,美國人反思:太多印度人當(dāng)高管,除了吹牛啥也不會(huì)

英偉達(dá)成功,美國人反思:太多印度人當(dāng)高管,除了吹牛啥也不會(huì)

羽逸地之光
2026-02-25 14:21:50
火箭31分大勝復(fù)仇國王!謝潑德28分,申京三雙,一戰(zhàn)能看清三件事

火箭31分大勝復(fù)仇國王!謝潑德28分,申京三雙,一戰(zhàn)能看清三件事

老梁體育漫談
2026-02-26 11:29:06
為什么你的電車,連自家小區(qū)地庫都進(jìn)不去?

為什么你的電車,連自家小區(qū)地庫都進(jìn)不去?

新能源前瞻
2026-02-25 16:02:47
湖人輸?shù)貌辉?!三次漏判魔術(shù)兩次吃虧:漏吹東契奇走步+打手犯規(guī)

湖人輸?shù)貌辉∪温┡心g(shù)兩次吃虧:漏吹東契奇走步+打手犯規(guī)

羅說NBA
2026-02-26 05:56:21
中方:對英方有關(guān)做法強(qiáng)烈不滿!

中方:對英方有關(guān)做法強(qiáng)烈不滿!

占豪
2026-02-26 00:02:47
我剛從臺(tái)灣回來:說實(shí)話很難聽,但這就是真實(shí)的臺(tái)灣省現(xiàn)狀了

我剛從臺(tái)灣回來:說實(shí)話很難聽,但這就是真實(shí)的臺(tái)灣省現(xiàn)狀了

番外行
2026-02-24 19:45:01
75歲劉曉慶與小30歲男演員吻戲引轟動(dòng)

75歲劉曉慶與小30歲男演員吻戲引轟動(dòng)

暫停白晝
2026-02-26 09:39:19
還打個(gè)屁!雷霆再傷2人,活塞逆轉(zhuǎn)升聯(lián)盟第一,坎寧安29+13立大功

還打個(gè)屁!雷霆再傷2人,活塞逆轉(zhuǎn)升聯(lián)盟第一,坎寧安29+13立大功

毒舌NBA
2026-02-26 11:18:42
離婚才幾年,楊穎這是怎么了?

離婚才幾年,楊穎這是怎么了?

文刀萬
2026-02-24 17:40:03
2026-02-26 11:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16320文章數(shù) 514657關(guān)注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達(dá)再次炸裂

頭條要聞

"霍金與比基尼女性同游照"現(xiàn)愛潑斯坦檔案 曾被"辟謠"

頭條要聞

"霍金與比基尼女性同游照"現(xiàn)愛潑斯坦檔案 曾被"辟謠"

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

尼格買提撒貝寧滑雪被偶遇 17年老友情

財(cái)經(jīng)要聞

短劇市場風(fēng)云突變!有人投百萬賠得精光

汽車要聞

第五代宏光MINIEV煥新 四門玩趣代步車來襲

態(tài)度原創(chuàng)

健康
房產(chǎn)
教育
家居
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

房產(chǎn)要聞

2.2萬/m2起!三亞主城性價(jià)比標(biāo)桿 海墾·桃花源實(shí)景現(xiàn)房春節(jié)被瘋搶

教育要聞

儲(chǔ)殷:反對孩子刷題,未來20年經(jīng)歷最大變化

家居要聞

歸隱于都市 慢享自由

軍事要聞

美政府給新伊核協(xié)議設(shè)限內(nèi)容遭披露

無障礙瀏覽 進(jìn)入關(guān)懷版