国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

梁文鋒領(lǐng)銜團(tuán)隊(duì)在《自然》發(fā)論文了…

0
分享至

設(shè)置星標(biāo) 關(guān)注,從此你的世界多點(diǎn)科學(xué)~


今年1月,來(lái)自杭州的深度求索公司攜開(kāi)源推理模型DeepSeek-R1火爆全網(wǎng)。

AI專家盛贊其“純強(qiáng)化學(xué)習(xí)”的創(chuàng)新范式讓模型自我進(jìn)化、擺脫對(duì)人工標(biāo)注文本的依賴,業(yè)內(nèi)同行驚嘆于其超高性能背后的超低投入,金融市場(chǎng)則以股價(jià)巨震向這位物美價(jià)廉的數(shù)學(xué)大師、編程高手、推理王者致敬。

DeepSeek-R1是開(kāi)放權(quán)重模型(訓(xùn)練參數(shù)對(duì)公眾公開(kāi)),可供任何人下載使用。時(shí)至今日,它在AI開(kāi)源社區(qū)Hugging Face上的下載量已超過(guò)1090萬(wàn)次,是目前同類模型里最受歡迎的。此外,它還剛剛成為全球第一款經(jīng)過(guò)完整同行評(píng)審的大語(yǔ)言模型(LLM)。

9月17日,深度求索創(chuàng)始人梁文鋒及其團(tuán)隊(duì)正式于《自然》雜志發(fā)表封面文章,詳細(xì)闡述了他們強(qiáng)化標(biāo)準(zhǔn)LLM、升級(jí)推理策略的方式和過(guò)程。

DeepSeek的核心創(chuàng)新在于采用純強(qiáng)化學(xué)習(xí)(pure reinforcement learning)這一自動(dòng)化試錯(cuò)方法構(gòu)建R1:通過(guò)獎(jiǎng)勵(lì)機(jī)制驅(qū)動(dòng)模型自己得出正確答案,而非教它遵循人類選擇的推理示例。因此,DeepSeek-R1能在“獨(dú)立思考”中學(xué)習(xí)形成自己的推理策略,例如“怎樣不受人類思維影響地驗(yàn)證自己的結(jié)果”。

為提升效率,模型選擇估計(jì)值(而非獨(dú)立算法)來(lái)給自己的工作評(píng)分——此項(xiàng)技術(shù)被稱為“群體相對(duì)策略優(yōu)化”(GRPO),屬于強(qiáng)化學(xué)習(xí)中的一種優(yōu)化方法,允許模型在訓(xùn)練時(shí)通過(guò)自我評(píng)估和群體比較以求增效。

有同行表示,DeepSeek-R1已對(duì)人工智能學(xué)界產(chǎn)生“相當(dāng)顯著的影響”,2025年幾乎所有給大語(yǔ)言模型上強(qiáng)化學(xué)習(xí)的研究都“或多或少受到R1啟發(fā)”。

另一方面,新論文在補(bǔ)充材料中首次披露了R1模型的訓(xùn)練成本——區(qū)區(qū)29.4萬(wàn)美元。構(gòu)建基礎(chǔ)LLM的投入則為600萬(wàn)美元。這是什么概念呢?OpenAI、谷歌DeepMind、Meta等AI巨頭的模型訓(xùn)練成本都是幾千萬(wàn)起步的。

值得一提的是,R1主要采用英偉達(dá)H800芯片進(jìn)行訓(xùn)練,而該芯片在2023年因美國(guó)出口管制禁令而被禁止對(duì)華銷售。

此外,梁文鋒等人根據(jù)評(píng)審意見(jiàn)減少了擬人化表述,并補(bǔ)充了技術(shù)細(xì)節(jié)說(shuō)明,包括模型訓(xùn)練數(shù)據(jù)類型和安全性方面的內(nèi)容。

Hugging Face的機(jī)器學(xué)習(xí)工程師劉易斯·坦斯托爾(Lewis Tunstall)是這篇《自然》新作的評(píng)審者之一。在他看來(lái),如果不樹(shù)立“將模型的大部分開(kāi)發(fā)過(guò)程與學(xué)界共享”的規(guī)范,同行就沒(méi)法評(píng)估系統(tǒng)是否存在風(fēng)險(xiǎn)。

俄亥俄州立大學(xué)的人工智能研究員孫歡則指出,嚴(yán)格的同行評(píng)審過(guò)程確實(shí)有助于驗(yàn)證模型的有效性和實(shí)用性,其他公司應(yīng)當(dāng)效仿DeepSeek。

此前有媒體報(bào)道OpenAI方面對(duì)DeepSeek-R1的質(zhì)疑:深度求索團(tuán)隊(duì)可能使用了OpenAI模型的輸出數(shù)據(jù)來(lái)訓(xùn)練R1,這幫助他們以更少資源取得更高性能。

梁文鋒等人未通過(guò)論文公開(kāi)訓(xùn)練數(shù)據(jù),但根據(jù)他們與評(píng)審人員的交流內(nèi)容,R1并未復(fù)制OpenAI模型生成的推理示例以開(kāi)展學(xué)習(xí)。不過(guò)他們也承認(rèn),與大多數(shù)大語(yǔ)言模型一樣,R1的基礎(chǔ)模型確實(shí)“上網(wǎng)”練過(guò),因此必然吸收互聯(lián)網(wǎng)上既有的AI生成內(nèi)容。

坦斯托爾認(rèn)為,雖無(wú)法百分百確定R1未使用OpenAI的示例進(jìn)行訓(xùn)練,但其他實(shí)驗(yàn)室的復(fù)現(xiàn)結(jié)果已證明,DeepSeek的推理方案可能足夠優(yōu)秀了,優(yōu)秀到不必做那種事?!皟H靠純強(qiáng)化學(xué)習(xí)就可實(shí)現(xiàn)極高性能!”

他還表示,目前很多同行正嘗試運(yùn)用R1的開(kāi)發(fā)方法,既增強(qiáng)現(xiàn)有LLM的類推理能力,又將其應(yīng)用領(lǐng)域拓展至數(shù)學(xué)和編程之外?!癛1成功引領(lǐng)了一場(chǎng)變革。”

孫歡指出,對(duì)研究者來(lái)說(shuō),R1很強(qiáng)很好用。在做數(shù)據(jù)分析和可視化等科學(xué)任務(wù)時(shí),R1的準(zhǔn)確率并未遙遙領(lǐng)先,但它最好地平衡了性能與成本。

資料來(lái)源:


《世界科學(xué)》雜志版在售中 歡迎訂閱

月刊定價(jià)

15元/期

全年訂閱價(jià)

180元

點(diǎn)擊左側(cè)圖片或以下方訂閱方式選購(gòu)

方式一

掃描二維碼,“雜志鋪”訂閱有折扣~

方式二

全國(guó)各地郵局訂閱 郵發(fā)代號(hào):4-263

方式三

機(jī)構(gòu)訂閱,請(qǐng)撥打

021-53300839;

021-53300838

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
男子得知暗戀多年女生離婚了,見(jiàn)面后想擁抱被拒,網(wǎng)友:放棄吧

男子得知暗戀多年女生離婚了,見(jiàn)面后想擁抱被拒,網(wǎng)友:放棄吧

唐小糖說(shuō)情感
2025-12-25 15:57:21
9票之差,彈劾提案通過(guò),賴清德被要求辭職,傅崐萁號(hào)召全島反攻

9票之差,彈劾提案通過(guò),賴清德被要求辭職,傅崐萁號(hào)召全島反攻

男女那點(diǎn)事兒兒
2025-12-27 01:32:15
官方:馬良行出任上海女足總教練兼一線隊(duì)主教練

官方:馬良行出任上海女足總教練兼一線隊(duì)主教練

懂球帝
2025-12-27 22:59:27
哈工大調(diào)查450名腦梗人士,驚訝發(fā)現(xiàn):易患腦梗的人有8大共性!

哈工大調(diào)查450名腦梗人士,驚訝發(fā)現(xiàn):易患腦梗的人有8大共性!

霹靂炮
2025-12-27 21:37:27
弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

弘一法師:少跟孩子生氣,孩子投胎到你家,有這幾種原因

木言觀
2025-12-23 18:35:55
臺(tái)三批人馬先后抵滬,蔣萬(wàn)安單獨(dú)行動(dòng)缺席晚宴,大陸仍高規(guī)格接待

臺(tái)三批人馬先后抵滬,蔣萬(wàn)安單獨(dú)行動(dòng)缺席晚宴,大陸仍高規(guī)格接待

南宗歷史
2025-12-28 05:37:06
紐約商品交易所主席談海南封關(guān):決定自貿(mào)港競(jìng)爭(zhēng)力的是政策的確定性

紐約商品交易所主席談海南封關(guān):決定自貿(mào)港競(jìng)爭(zhēng)力的是政策的確定性

財(cái)聯(lián)社
2025-12-27 18:04:09
人民幣現(xiàn)金支付,新規(guī)來(lái)了

人民幣現(xiàn)金支付,新規(guī)來(lái)了

忠于法紀(jì)
2025-12-27 23:05:29
別再沉迷商業(yè)航天!可控核聚變4大龍頭對(duì)決,誰(shuí)手握能源入場(chǎng)券?

別再沉迷商業(yè)航天!可控核聚變4大龍頭對(duì)決,誰(shuí)手握能源入場(chǎng)券?

粵語(yǔ)音樂(lè)噴泉
2025-12-27 00:57:19
12月31日前,農(nóng)民一次性補(bǔ)繳5萬(wàn),到了2026年能領(lǐng)1500元養(yǎng)老金嗎

12月31日前,農(nóng)民一次性補(bǔ)繳5萬(wàn),到了2026年能領(lǐng)1500元養(yǎng)老金嗎

墨蘭史書(shū)
2025-12-27 21:25:03
400萬(wàn)億什么時(shí)候來(lái)?等待我們的是什么?

400萬(wàn)億什么時(shí)候來(lái)?等待我們的是什么?

混知房產(chǎn)
2025-11-13 20:41:06
外媒:梅洛尼為什么能當(dāng)這么久的意大利總理?

外媒:梅洛尼為什么能當(dāng)這么久的意大利總理?

隨波蕩漾的漂流瓶
2025-12-27 17:47:01
他是紅軍軍團(tuán)長(zhǎng),八路軍成立時(shí)卻沒(méi)人要,毛主席震怒:這是瞎胡鬧

他是紅軍軍團(tuán)長(zhǎng),八路軍成立時(shí)卻沒(méi)人要,毛主席震怒:這是瞎胡鬧

比利
2025-12-18 12:22:56
女子被閨蜜“搶走”老公后續(xù):閨蜜多張照片遭曝光,不如原配好看

女子被閨蜜“搶走”老公后續(xù):閨蜜多張照片遭曝光,不如原配好看

秋姐居
2025-12-27 21:27:39
全攻全守!曼城中鋒不進(jìn)球仍配得上高分 責(zé)任心滿滿難怪能當(dāng)隊(duì)長(zhǎng)

全攻全守!曼城中鋒不進(jìn)球仍配得上高分 責(zé)任心滿滿難怪能當(dāng)隊(duì)長(zhǎng)

雪狼侃體育
2025-12-28 10:19:53
北京市紀(jì)委監(jiān)委:涉嫌嚴(yán)重違紀(jì)違法,楊文勝被查

北京市紀(jì)委監(jiān)委:涉嫌嚴(yán)重違紀(jì)違法,楊文勝被查

瀟湘晨報(bào)
2025-12-27 18:54:21
林莉回憶生平第一次見(jiàn)大明星妹妹林青霞,她像個(gè)孩子,姐姐叫沒(méi)完

林莉回憶生平第一次見(jiàn)大明星妹妹林青霞,她像個(gè)孩子,姐姐叫沒(méi)完

大運(yùn)河時(shí)空
2025-12-27 15:55:03
奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

奶奶深夜狂扇孫女后續(xù):媽媽哭了一晚上,女孩嘴被打腫,爸爸發(fā)聲

千言?shī)蕵?lè)記
2025-12-27 18:55:00
宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

宇航員登月回歸后精神失常,死前坦言:人類不應(yīng)踏足遠(yuǎn)方

清茶淺談
2024-12-20 22:30:46
云南保山務(wù)工人員乘坐專列抵達(dá)上海,他們將解決這個(gè)大難題

云南保山務(wù)工人員乘坐專列抵達(dá)上海,他們將解決這個(gè)大難題

上觀新聞
2025-12-27 18:22:12
2025-12-28 11:32:49
世界科學(xué) incentive-icons
世界科學(xué)
《世界科學(xué)》編輯部運(yùn)營(yíng)賬號(hào)
1822文章數(shù) 26907關(guān)注度
往期回顧 全部

科技要聞

AR眼鏡第一案,究竟在爭(zhēng)什么?

頭條要聞

美媒:美國(guó)"斬殺線"在中國(guó)網(wǎng)絡(luò)熱傳 美國(guó)務(wù)院暫未置評(píng)

頭條要聞

美媒:美國(guó)"斬殺線"在中國(guó)網(wǎng)絡(luò)熱傳 美國(guó)務(wù)院暫未置評(píng)

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

親子
教育
手機(jī)
本地
公開(kāi)課

親子要聞

62歲懷二胎真相驚人!醫(yī)生擔(dān)憂的惡心一幕曝光!

教育要聞

好校長(zhǎng)應(yīng)有的三個(gè)基本素養(yǎng)

手機(jī)要聞

OPPO A6t Pro海外發(fā)布:驍龍685芯片+7000mAh電池

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬(wàn)年史書(shū)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版