国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Yuan 3.0 Flash避免“過度思考”,大幅壓縮推理成本

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

YuanLab.ai 團隊正式開源發(fā)布源Yuan3.0 Flash 多模態(tài)基礎(chǔ)大模型。Yuan3.0 Flash 是一款 40B 參數(shù)規(guī)模的多模態(tài)基礎(chǔ)大模型,采用稀疏混合專家(MoE)架構(gòu),單次推理僅激活約 3.7B 參數(shù)。Yuan3.0 Flash創(chuàng)新性地提出和采用了強化學習訓練方法(RAPO),通過反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,在提升推理準確性的同時,大幅壓縮了推理過程的 token 消耗,顯著降低算力成本,在 “更少算力、更高智能” 的大模型優(yōu)化路徑上更進一步。Yuan3.0 Flash已上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由視覺編碼器、語言主干網(wǎng)絡(luò)以及多模態(tài)對齊模塊組成。語言主干網(wǎng)絡(luò)采用局部過濾增強的Attention結(jié)構(gòu)(LFA)和混合專家(MoE)結(jié)構(gòu),在提升注意力精度的同時,顯著降低訓練與推理的算力開銷。多模態(tài)方面,采用視覺編碼器,將視覺信號轉(zhuǎn)化為token,與語言token一起輸入到語言主干網(wǎng)絡(luò),通過多模態(tài)對齊模塊實現(xiàn)高效、穩(wěn)定的跨模態(tài)特征對齊。同時,引入自適應(yīng)圖像分割機制,在支持高分辨率圖像理解的同時,有效降低顯存需求及算力開銷(如圖1)。


圖1:Yuan 3.0整體架構(gòu)和基于MoE的語言主干

左側(cè)為Yuan 3.0架構(gòu),含三個組件:(1) ViT編碼器處理圖像;(2) 輕量級MLP投影器對齊視覺與文本特征;(3) 基于MoE的語言模型。右側(cè)為采用局部過濾注意力(LFA) 的源3.0語言主干網(wǎng)絡(luò)。

更值得關(guān)注的是,在企業(yè)場景的 RAG(ChatRAG)、多模態(tài)檢索(Docmatix)、多模態(tài)表格理解(MMTab)、摘要生成(SummEval)等任務(wù)中, Yuan3.0 Flash 的表現(xiàn)已優(yōu)于 GPT-5.1,體現(xiàn)出其在企業(yè)應(yīng)用場景中的明顯能力優(yōu)勢。在多模態(tài)推理與語言推理評測中,Yuan3.0 Flash(40B)精度接近Qwen3-VL235B-A22B(235B)與DeepSeek-R1-0528(671B),但 token 消耗僅約為其 1/4 ~ 1/2,顯著降低了企業(yè)大模型應(yīng)用成本(如圖2)。


圖2:Yuan3.0 Flash在企業(yè)級、多模態(tài)和語言模態(tài)上的基準測試表現(xiàn)

01.

避免想得太多,而是“更有效思考”

近年來,長思維鏈(Chain-of-Thought)成為提升大模型推理能力的主流范式,但在實際應(yīng)用中也帶來了新的問題:推理過程冗長、算力消耗大、部署成本高,甚至在得到正確答案后仍持續(xù)大量生成冗長的內(nèi)容(如圖3)。


圖3: DeepSeek-R1的重復反思行為示例

針對推理模型普遍存在的 “過度思考(Overthinking)”問題,Yuan3.0 Flash 創(chuàng)新Reflection-aware Adaptive Policy Optimization(RAPO) 強化學習算法,提出反思抑制獎勵機制(RIRM),從訓練層面引導模型減少無效反思,專注于必要推理步驟(如圖4)。

RIRM:通過獎勵“思考過程”優(yōu)化模型訓練

RIRM(Reflection Inhibition Reward Mechanism,反思抑制獎勵機制)的核心思想并不復雜,卻極具突破性:模型不僅要為“答對”負責,也要為“什么時候停止思考”負責。

在傳統(tǒng)訓練中,只要最終答案正確,模型在中途經(jīng)歷了多少次自我否定、重復驗證,幾乎不會被區(qū)分對待。而RIRM首次明確引入了一條新的判斷標準——當模型已經(jīng)形成可靠結(jié)論后,繼續(xù)反思是否還具有信息價值。


圖4:反思抑制獎勵機制(RIRM)

該機制能夠識別模型首次得到正確答案的關(guān)鍵節(jié)點,并對后續(xù)冗余推理行為進行抑制,使模型在保證答案正確性的前提下,大幅壓縮輸出長度。實驗結(jié)果表明,在數(shù)學、科學與復雜推理任務(wù)中,Yuan3.0 Flash 在準確率提升的同時,推理 token 數(shù)量最高可減少約 75%,顯著降低推理成本。


表1:Yuan3.0 Flash采用RIRM的強化學習訓練與DAPO+長度懲罰的精度與輸出token數(shù)量對比

RAPO:反思感知的自適應(yīng)策略優(yōu)化算法

然而,僅靠對推理行為的抑制,并不足以支撐一個穩(wěn)定、高效的企業(yè)級模型訓練。Yuan 3.0 Flash所引入的RAPO(Reflection-aware Adaptive Policy Optimization,反思感知自適應(yīng)策略優(yōu)化)并非一次局部技巧的優(yōu)化,而是對強化學習訓練框架的一次系統(tǒng)性改進:從數(shù)據(jù)采樣效率、到學習目標、到推理過程評估(RIRM),同時兼顧訓練效率、訓練穩(wěn)定性及推理效率,使模型能夠在多任務(wù)、異構(gòu)場景中形成更具實用價值的策略。


RAPO通過自適應(yīng)采樣、梯度穩(wěn)定性控制等機制,顯著減少了強化學習階段的過度數(shù)據(jù)采樣,有效抑制了訓練過程的梯度波動。在大規(guī)模MoE模型上,這種改進尤為關(guān)鍵——實驗顯示,RAPO可使整體訓練效率提升超過 50%,在保證模型能力提升的同時,大幅縮短訓練周期。

更重要的是,RAPO與RIRM在設(shè)計上是協(xié)同的。RAPO決定模型“如何學習”,而 RIRM 明確模型“學到什么程度該停”。前者提供穩(wěn)定高效的學習框架,后者則為推理行為劃定邊界,兩者疊加,才使“想對就?!闭嬲蔀槟P偷哪J行為,而非例外情況。

02.

企業(yè)場景下模型能力的提升,

離不開高質(zhì)量數(shù)據(jù)支撐

Yuan3.0 Flash的優(yōu)秀表現(xiàn),并非僅依賴算法本身,而是建立在面向企業(yè)真實場景的數(shù)據(jù)準備工作之上。與通用對話或互聯(lián)網(wǎng)語料不同,模型在訓練階段重點引入了大量貼近企業(yè)生產(chǎn)環(huán)境的數(shù)據(jù)形態(tài),包括:


  • 長篇技術(shù)文檔、解決方案材料、操作手冊、投標文件等復雜文本

  • 財務(wù)與業(yè)務(wù)報表、多級表頭表格、嵌套表格與圖文混排頁面

  • 跨頁面、多模態(tài)信息聯(lián)合理解的真實業(yè)務(wù)場景


圍繞這些輸入形態(tài),訓練數(shù)據(jù)重點覆蓋多模態(tài)信息檢索、對比分析、摘要生成、表格分析與理解等企業(yè)高頻任務(wù)。同時,在數(shù)據(jù)構(gòu)建階段,團隊顯式區(qū)分了無需深度推理即可完成的任務(wù)與確需多步推理的復雜任務(wù),為后續(xù)強化學習階段優(yōu)化推理效率提供了明確的數(shù)據(jù)基礎(chǔ)。

03.

面向企業(yè)場景的多模態(tài)基礎(chǔ)能力

在能力層面,Yuan3.0 Flash 并非圍繞單一 Benchmark 優(yōu)化,而是針對企業(yè)真實業(yè)務(wù)需求進行了系統(tǒng)設(shè)計。在多項企業(yè)級評測中,模型在以下能力上表現(xiàn)突出:

檢索增強生成(RAG):在 ChatRAG、Docmatix 等評測中取得領(lǐng)先成績

復雜表格與文檔理解:在 MMTab 等多任務(wù)基準中展現(xiàn)領(lǐng)先能力

高質(zhì)量總結(jié)生成:在 SummEval 上兼顧語義一致性與事實準確性

多模態(tài)推理效率:在 ChartQA、DocVQA 等任務(wù)中,以更少token 達到比肩前沿大模型的精度

結(jié)合對128K長上下文的穩(wěn)定支持,Yuan3.0 Flash 能夠勝任企業(yè)級長文檔分析、跨頁面信息檢索與多源知識融合任務(wù)(如圖5)。


圖5:Yuan3.0 Flash在"大海撈針"測試中實現(xiàn)100%精度召回

04.

“更少算力、更高智能”

如何落地企業(yè)真實場景中

在架構(gòu)層面,Yuan3.0 Flash采用稀疏MoE設(shè)計,在推理時僅激活少量專家,降低單次推理的計算開銷;而在行為層面,RAPO與RIRM進一步確保這些算力被用于真正有價值的判斷,而非冗余反思。

這種組合效應(yīng),在企業(yè)高頻場景中表現(xiàn)尤為明顯。在RAG場景下,模型能夠更快聚焦于檢索到的關(guān)鍵信息,而不是圍繞同一內(nèi)容反復展開解釋;在復雜表格理解中,推理路徑更加直接,不再被冗余驗證拖慢;在長文檔分析中,模型避免了層層遞歸式總結(jié),顯著提升了響應(yīng)效率。

對企業(yè)而言,這意味著一個非常關(guān)鍵的變化:默認推理模式本身就已經(jīng)足夠可靠。無需額外開啟高成本的“深度思考模式”,模型就能在大多數(shù)業(yè)務(wù)任務(wù)中保持穩(wěn)定、可控的表現(xiàn),也就是更快、更準、更省。

Yuan3.0 Flash的技術(shù)實踐表明:當大模型已經(jīng)具備足夠的推理能力后,真正稀缺的,不再是“讓它想得更多”,而是“讓它知道什么時候該?!?。

RIRM通過獎勵機制約束無效反思,解決了“想得太多”的問題;RAPO通過高效、穩(wěn)定的強化學習策略,解決了“學得太慢、學得不實用”的問題。兩者共同構(gòu)成了一條面向企業(yè)級落地的現(xiàn)實路徑——在不犧牲能力的前提下,實現(xiàn)更低成本、更高效率的智能系統(tǒng)。

Yuan3.0 Flash大模型全面開源,不僅包括模型權(quán)重(16bit與4bit模型)、技術(shù)報告,也涵蓋完整的訓練方法與評測結(jié)果,支持社區(qū)在此基礎(chǔ)上進行二次訓練與行業(yè)定制。YuanLab.ai團隊希望通過這一開源基礎(chǔ)模型,推動大模型從“能力展示”走向“規(guī)?;涞亍?,為企業(yè)提供可控成本、可預測性能、可持續(xù)演進的多模態(tài)智能底座。

更少算力,并不意味著更弱能力;更高智能,也不一定依賴更大模型。” Yuan3.0 Flash 正是在這一理念下,對下一代基礎(chǔ)大模型形態(tài)的一次探索與實踐。

源Yuan 3.0基礎(chǔ)大模型將包含F(xiàn)lash、Pro和Ultra等版本,模型參數(shù)量為40B、200B和1T等,我們將陸續(xù)發(fā)布相關(guān)工作。

編輯:成蘊年

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
去了一趟伊朗才發(fā)現(xiàn):原來在伊朗人眼里,中國人是這樣的

去了一趟伊朗才發(fā)現(xiàn):原來在伊朗人眼里,中國人是這樣的

千秋文化
2026-03-24 21:40:40
河南街頭用頭撞車事件,警方回應(yīng)后續(xù)來了!評論區(qū)徹底炸鍋

河南街頭用頭撞車事件,警方回應(yīng)后續(xù)來了!評論區(qū)徹底炸鍋

奇思妙想草葉君
2026-03-25 13:12:39
高速停車區(qū)衛(wèi)生間,滿地手紙無從下腳;甘肅高速回應(yīng):是個待開發(fā)停車區(qū),已打掃干凈

高速停車區(qū)衛(wèi)生間,滿地手紙無從下腳;甘肅高速回應(yīng):是個待開發(fā)停車區(qū),已打掃干凈

大風新聞
2026-03-26 18:19:03
宅基地確權(quán)最后沖刺:今年不把名字改成兒子的,以后可能就改不了

宅基地確權(quán)最后沖刺:今年不把名字改成兒子的,以后可能就改不了

混沌錄
2026-03-19 21:59:03
周恩來晚年含淚揭秘,當年若非毛主席深夜提燈來,歷史或?qū)⒏膶?>
    </a>
        <h3>
      <a href=鶴羽說個事
2026-03-18 21:47:42
張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

暖心萌阿菇?jīng)?/span>
2026-03-25 22:01:09
中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人自由卻過的不幸福

中國游客到朝鮮游玩,朝鮮人疑問:為什么中國人自由卻過的不幸福

白色得季節(jié)
2026-03-16 19:50:53
夫妻性生活:別再傻傻用力了!讓妻子上癮的三個技巧,男人必看!

夫妻性生活:別再傻傻用力了!讓妻子上癮的三個技巧,男人必看!

精彩分享快樂
2025-11-20 00:05:03
江西銅業(yè):2025年凈利潤同比增長2.41% 擬10派6元

江西銅業(yè):2025年凈利潤同比增長2.41% 擬10派6元

證券時報
2026-03-26 18:22:05
笑掉大牙!伊朗高層當眾互撕,吹破天的強硬,連軍餉都發(fā)不出來

笑掉大牙!伊朗高層當眾互撕,吹破天的強硬,連軍餉都發(fā)不出來

老馬拉車莫少裝
2026-03-25 19:39:00
他偷偷處決了軍統(tǒng)站長,明知要被上級除掉,他卻還敢去赴約

他偷偷處決了軍統(tǒng)站長,明知要被上級除掉,他卻還敢去赴約

浩渺青史
2026-03-26 17:32:02
張雪峰離世后,妻子真實身份曝光:歷史博士、高校副教授,40天閃婚

張雪峰離世后,妻子真實身份曝光:歷史博士、高校副教授,40天閃婚

畫夕
2026-03-26 20:44:59
華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

華爾街大鱷稱:黃金正重演2008年劇本!金價將漲到11400美元?

王爺說圖表
2026-03-25 22:43:39
熱到25.8℃!別急,成都天氣又要變

熱到25.8℃!別急,成都天氣又要變

掌上金牛
2026-03-26 19:19:29
柯文哲一審重判17年,真正被擊中的,是民眾黨賴以生存的那塊招牌

柯文哲一審重判17年,真正被擊中的,是民眾黨賴以生存的那塊招牌

藍色海邊
2026-03-26 17:10:03
問界M6實車到店,全新中大型SUV,預售26.98萬起,會被大家認可嗎

問界M6實車到店,全新中大型SUV,預售26.98萬起,會被大家認可嗎

紅濤說車
2026-03-25 21:08:55
50歲何潤東做夢也沒想到,因張凌赫一個造型,讓他的口碑一夜暴漲

50歲何潤東做夢也沒想到,因張凌赫一個造型,讓他的口碑一夜暴漲

八卦南風
2026-03-24 15:15:25
“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

“這次穿得算保守了”,女老師短裙配蕾絲襪,學生上課頭都不敢抬

妍妍教育日記
2026-03-21 10:05:03
女孩當小姐,一晚要提供4到5次上門服務(wù),被親人點到不赴約

女孩當小姐,一晚要提供4到5次上門服務(wù),被親人點到不赴約

情感藝術(shù)家
2026-02-26 10:48:00
66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

66歲大媽喜歡睡前泡腳,不久腦梗去世,專家怒斥:太無知了

比利
2026-03-21 13:00:22
2026-03-26 21:44:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

頭條要聞

美國總統(tǒng)特朗普公開宣布訪華行程 外交部回應(yīng)

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
本地
健康
數(shù)碼
時尚

教育要聞

江蘇省教育廳公布全省中小學生競賽活動名單

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

iQOO Z11x發(fā)布:LCD黨的護眼神機 1499元起

上新|| 她們說,找到了自己的人生裙子!

無障礙瀏覽 進入關(guān)懷版