国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實測對比OpenAI開源的gpt-oss,奧特曼給的是誠意還是糊弄?

0
分享至

昨晚,OpenAI說了大半年的開源終于兌現(xiàn)了。上一次開源還是2019年的GPT-2。



開源模型的名稱很特別:gpt-oss,不是我們見過的GPT-4系列更不是“狼來了”的GPT-5,也不是推理模型o3、o4系列。Oss具體含義官方尚未公布,但大概率是open source series(開源系列)的縮寫。

這次OpenAI開源了 gpt-oss-120b 和 gpt-oss-20b 兩個MoE架構(gòu)的文本模型,原生基于MXFP4訓(xùn)練,采用Apache 2.0開源協(xié)議。

其中g(shù)pt-oss-120b總參數(shù)達1170億,激活參數(shù)僅 51 億。包含36層和128個專家,每次激活4個專家;gpt-oss-20b:總參數(shù)210 億,激活參數(shù)36億,擁有24層和32個專家,同樣每次激活4個專家。

模型在ollama、huggingface都可以下載使用。gpt-oss-120b模型需要顯存65G以上(運行需要多張高性能顯卡橋接),gpt-oss-20b需要14G顯存以上(推薦4080及以上顯卡)。

除了 MoE 架構(gòu),這兩個模型還融合了多項技術(shù),如交替使用的密集和局部帶狀稀疏注意力機制、分組多查詢注意力(grouped multi-query attention)、旋轉(zhuǎn)位置嵌入(RoPE)、能夠處理長達128k的上下文窗口。

預(yù)訓(xùn)練、后訓(xùn)練方法

預(yù)訓(xùn)練階段,gpt-oss 在一個以英文為主、專注于 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))、編程及通用知識的純文本數(shù)據(jù)集上進行訓(xùn)練。分詞器用的是跟o4-mini和GPT-4o上使用的相同分詞器o200k_harmony,在GitHub也同時開源了。在數(shù)據(jù)處理上,OpenAI 特別過濾了與化學(xué)、生物、放射性和核(CBRN)相關(guān)的有害信息,以確保模型的安全性。

后訓(xùn)練階段,流程與o4-mini類似,包含了監(jiān)督微調(diào)(supervised fine-tuning)和高計算量的強化學(xué)習(xí)(RL)兩個核心步驟。這一階段的目標(biāo)是使模型與OpenAI的模型規(guī)范(OpenAIModelSpec)對齊,并教會模型使用“思維鏈”(Chain-of-Thought, CoT)進行推理和工具使用。一個有意思的設(shè)計是,模型支持通過系統(tǒng)消息設(shè)置低、中、高三種不同的推理努力程度。在安全方面,模型通過“審慎對齊”(deliberative alignment)和“指令層級”(instruction hierarchy)等技術(shù),學(xué)習(xí)如何拒絕不安全的指令,確保了其在實際應(yīng)用中的可靠性。

實測對比gpt-oss-20b VS qwen3-30b

模型好不好用才是最重要的。我們選了兩個任務(wù)分別測試OpenAI的gpt-oss-20b和阿里的qwen3-30b,分別代表創(chuàng)意寫作和代碼能力。測試環(huán)境是ollama的0.11.2版本(ollama有UI界面了)。

任務(wù)1:寫一首莎士比亞風(fēng)格的十四行詩

難點:結(jié)構(gòu)和規(guī)律較為復(fù)雜,分為三段四行詩和一個結(jié)尾的兩行對句。十四行中每行結(jié)尾韻腳格式通常為abab cdcd efef gg。



gpt-oss-20b的回答

思考長達10分鐘,可以看到“光”“王”“心”“今”等字的重復(fù),而不是韻母重復(fù)。但基本符合十四行詩韻腳規(guī)則。



qwen3-30b的回答

思考僅40秒,但第三小部分末尾的“心”“冰”“淪”“空”不符合EFEF的規(guī)則。押韻好得多。

任務(wù)2:小球旋轉(zhuǎn)碰撞實驗

難點:要寫代碼還要考慮物理規(guī)律

提示詞:

生成一個html文件,展示5個小球在5層有缺口的同圓心的圓形旋轉(zhuǎn)球殼中的碰撞運動軌跡。小球出現(xiàn)位置在圓心附近,小球受重力和彈力影響。每層球殼的表面除了缺口占1/10外都是封閉的,而且順時針和逆時針每層一一交替。維度設(shè)定是2D



gpt-oss-20b的回答

思考時間長達11分鐘,球殼沒有缺口,導(dǎo)致球掉不下來。



qwen3-30b的回答

思考僅7秒,球殼有缺口,但球也掉不下來。有說明、暫停等額外功能。

測試下來的整體感受是:

gpt-oss-20b中文理解不如qwen3-30b,但邏輯能力和穩(wěn)定性尚可,思考時間較長。gpt-oss-120b能力應(yīng)該會更好,但是65G的顯存要求讓絕大部分設(shè)備還是沒有嘗試的機會。

至頂AI實驗室洞見

從這次開源可以看見一些創(chuàng)新之處,gpt-oss采用原生MXFP4精度訓(xùn)練,這是很罕見的。年初DeepSeek R1成功采用FP8混合精度訓(xùn)練已經(jīng)讓大家吃了一驚,原生FP4恐怕只會更難。

OpenAI開源的尺寸不夠大,誠意不夠。本次開源的最強模型僅120b,相比其它廠商開源的最強模型都小得多,然而往往模型越大越強。比如,DeepSeek R1有671b,qwen3有235b,kimi k2大約有1040b。

另外,開源程度還有待提升,相關(guān)技術(shù)報告沒有公開,技術(shù)細節(jié)不得而知。

開頭Sam Altman寫了,gpt-oss是幾十億美金研究的結(jié)果,錢花得值嗎?和MiniMax和DeepSeek花了不到幾百萬美金搞出M1和R1一對比,不知道是在表達誠意還是別的什么。

總的來說,OpenAI模型開源給電腦端的模型增加了一個選擇,但僅限于文本模型。未來oss開源系列是否還會有更多模態(tài)的好模型,還需要時間來驗證。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

“第三次世界大戰(zhàn)”導(dǎo)火索?如果中國攔截售臺武器,會發(fā)生什么?

扶蘇聊歷史
2025-12-27 10:30:21
俄羅斯運輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

俄羅斯運輸核反應(yīng)堆船只被擊沉,烏克蘭笑了

史政先鋒
2025-12-31 21:38:56
下月起,看病開藥新規(guī)!6類藥超7天全自費,慢病一次開3個月

下月起,看病開藥新規(guī)!6類藥超7天全自費,慢病一次開3個月

蜉蝣說
2025-12-30 11:59:54
龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂

龐家后人硬剛新華社!七條質(zhì)疑炸鍋,香港媒體敢報的真相太炸裂

滄海一書客
2025-12-25 19:27:44
剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

剛剛!濱江道、世紀(jì)鐘、解放橋跨年夜震撼一幕···

天津人
2025-12-31 22:59:53
攤牌了!徐帆回應(yīng)婚變傳聞才4個月左右 ,馮小剛就連演都懶得演了

攤牌了!徐帆回應(yīng)婚變傳聞才4個月左右 ,馮小剛就連演都懶得演了

阿廢冷眼觀察所
2025-12-10 06:53:04
孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國乒教練組競聘已結(jié)束

孔令輝現(xiàn)身!乒乓王子如今的樣子變化巨大,國乒教練組競聘已結(jié)束

三十年萊斯特城球迷
2025-12-31 22:34:39
浙江足協(xié)官方:寧波職業(yè)足球俱樂部成立,新賽季亮相中甲

浙江足協(xié)官方:寧波職業(yè)足球俱樂部成立,新賽季亮相中甲

懂球帝
2025-12-31 14:41:11
李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個人

李川跟錘娜麗莎求婚成功!搞笑女終于遇到了同頻共振的那個人

璀璨幻行者
2026-01-01 01:51:57
隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

隨著快船5連勝原地杵,湖人慘敗東部第一,西部最新排名!

止境
2026-01-01 00:43:43
李在明動身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

李在明動身訪華前,先給了中國一記下馬威,高市早苗卻笑不出來?

策前論
2025-12-31 18:05:08
美媒評各隊2025年最后悔決策:開拓者選瀚森在列 失誤比助攻還多

美媒評各隊2025年最后悔決策:開拓者選瀚森在列 失誤比助攻還多

羅說NBA
2025-12-31 21:38:12
姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

姜昆風(fēng)波持續(xù)發(fā)酵,洛杉磯鄰居紛紛出面,更多偶遇照又被扒出啦

振華觀史
2025-12-31 09:33:49
洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

百態(tài)人間
2025-12-31 16:18:36
36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

36歲男明星曬南極旅游!天天吃泡面,吐槽企鵝屎臭,網(wǎng)友:祛魅了

瓜汁橘長Dr
2025-12-29 17:52:06
在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個股受影響

在剛剛,28家公司發(fā)布重大利好利空消息,看看都有哪些個股受影響

股市皆大事
2025-12-31 20:52:15
回國后我才敢說:越南是我去過的所有國家中,最被低估的

回國后我才敢說:越南是我去過的所有國家中,最被低估的

阿纂看事
2025-12-29 09:43:52
被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

被處決毒梟要水喝,3停5口是17年前教的暗號:我是臥底,有內(nèi)鬼!

星宇共鳴
2025-12-29 09:56:33
洗浴中心成跨年熱門目的地,KTV一房難求,長沙進入全國休閑玩樂交易規(guī)模前十城市

洗浴中心成跨年熱門目的地,KTV一房難求,長沙進入全國休閑玩樂交易規(guī)模前十城市

瀟湘晨報
2025-12-31 20:38:14
這4個器官“用得勤”的人,更長壽

這4個器官“用得勤”的人,更長壽

大象新聞
2025-05-20 19:23:04
2026-01-01 03:03:00
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
895文章數(shù) 151關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團推遲原定訪華行程 外交部回應(yīng)

頭條要聞

日企代表團推遲原定訪華行程 外交部回應(yīng)

體育要聞

布基納法索2-0蘇丹,拉西納-特拉奧雷破門,阿爾塞納-夸西鎖定勝局

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財經(jīng)要聞

高培勇:分配制度改革是提振消費的抓手

汽車要聞

凱迪拉克純電中型SUV 售價不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

健康
本地
家居
房產(chǎn)
公開課

元旦舉家出行,注意防流感

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠

家居要聞

無形有行 自然與靈感詩意

房產(chǎn)要聞

終于等來了!2026年首個買房大利好

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版