国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LG AI研究院首發(fā)開(kāi)源視覺(jué)語(yǔ)言模型EXAONE 4.5

0
分享至


這項(xiàng)由LG AI研究院主導(dǎo)開(kāi)發(fā)的研究成果以技術(shù)報(bào)告形式發(fā)布于2026年4月9日,論文編號(hào)為arXiv:2604.08644v1,有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整報(bào)告。

一個(gè)能同時(shí)看懂圖紙、讀懂說(shuō)明書、還能用六種語(yǔ)言回答問(wèn)題的AI助手,聽(tīng)起來(lái)像科幻小說(shuō)里的情節(jié),但LG的工程師們已經(jīng)把它變成了現(xiàn)實(shí)。這就是EXAONE 4.5——LG AI研究院歷史上第一個(gè)以"開(kāi)放權(quán)重"形式對(duì)外發(fā)布的視覺(jué)語(yǔ)言模型,也是該研究院在AI技術(shù)路線上邁出的重要一步。

所謂"開(kāi)放權(quán)重",可以理解為L(zhǎng)G把這個(gè)AI模型的內(nèi)部參數(shù)公開(kāi)分享給全世界的研究者和開(kāi)發(fā)者,有點(diǎn)像一家餐廳不僅開(kāi)放給客人用餐,還把廚師的菜譜一并公開(kāi)。這樣的做法能讓全球研究社區(qū)在此基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新,推動(dòng)整個(gè)行業(yè)向前發(fā)展。

一、從"只讀文字"到"既看圖又讀字"——EXAONE家族的進(jìn)化之路

要理解EXAONE 4.5的價(jià)值,先得了解它的前輩們走過(guò)了什么路。LG的EXAONE系列模型就像一個(gè)不斷成長(zhǎng)的學(xué)生:最早的EXAONE 3.0和3.5專注于文字處理,相當(dāng)于只會(huì)讀書寫字的學(xué)生;后來(lái)的EXAONE Deep專門強(qiáng)化了數(shù)學(xué)、科學(xué)、編程等領(lǐng)域的推理能力,像是參加了數(shù)理競(jìng)賽培訓(xùn);再后來(lái)的EXAONE 4.0進(jìn)化成一個(gè)"雙模式"系統(tǒng),既能輕松應(yīng)對(duì)日常對(duì)話,也能在面對(duì)高難度問(wèn)題時(shí)切換到深度推理狀態(tài)。

但這些前輩有一個(gè)共同的局限:它們只能理解文字,看不懂圖像。對(duì)于工廠里復(fù)雜的電路圖、醫(yī)院里的醫(yī)學(xué)影像、工程師手頭的設(shè)計(jì)藍(lán)圖,這些模型統(tǒng)統(tǒng)束手無(wú)策。EXAONE 4.5的誕生就是為了突破這道屏障——它給這個(gè)文字高手裝上了一雙"眼睛",讓它既能讀文又能看圖。

用一個(gè)更形象的比喻:以前的EXAONE就像一個(gè)博學(xué)的盲人,能夠流利背誦百科全書,卻無(wú)法判斷面前擺的是蘋果還是橙子。EXAONE 4.5則是在這位博學(xué)者身上裝了一套精密的視覺(jué)系統(tǒng),讓他第一次真正"看見(jiàn)"了世界。

二、架構(gòu)設(shè)計(jì):如何給語(yǔ)言模型裝上一雙好眼睛

EXAONE 4.5的核心架構(gòu)可以用"大腦加眼睛"來(lái)理解。它的語(yǔ)言理解部分繼承自EXAONE 4.0的32億參數(shù)(準(zhǔn)確說(shuō)是320億,即32B)語(yǔ)言模型,這是模型的"大腦",負(fù)責(zé)理解和生成語(yǔ)言。而新增的"眼睛"則是一個(gè)專門從零開(kāi)始訓(xùn)練的12億參數(shù)視覺(jué)編碼器。

為什么要特別強(qiáng)調(diào)"從零開(kāi)始訓(xùn)練"?因?yàn)槭忻嫔犀F(xiàn)有的視覺(jué)編碼器要么規(guī)模太小,要么效率不夠高,無(wú)法滿足LG工程師的具體需求。于是研究團(tuán)隊(duì)干脆自己設(shè)計(jì)并訓(xùn)練了這個(gè)12億參數(shù)的視覺(jué)編碼器,確保它能夠與整個(gè)系統(tǒng)的架構(gòu)完美契合。

視覺(jué)編碼器和語(yǔ)言模型之間,還有一個(gè)叫做"MLP投影器"的連接模塊,可以把它理解為翻譯官——它把視覺(jué)編碼器"看到"的內(nèi)容翻譯成語(yǔ)言模型能夠理解的格式,讓兩個(gè)原本說(shuō)"不同語(yǔ)言"的系統(tǒng)能夠順暢溝通。

在處理圖像時(shí),有一個(gè)關(guān)鍵的技術(shù)挑戰(zhàn):圖像越高清,處理它所需的計(jì)算資源就越多。以前很多模型為了省資源,會(huì)把圖像"壓縮"得很厲害,導(dǎo)致丟失大量細(xì)節(jié)。EXAONE 4.5選擇了不同的路——它用一個(gè)足夠大(12億參數(shù))的視覺(jué)編碼器來(lái)處理高分辨率圖像,同時(shí)支持"原生分辨率"輸入,也就是說(shuō)圖像不需要被強(qiáng)制縮小,保留了原始的細(xì)節(jié)信息。這就像拍照時(shí)選擇最高畫質(zhì),而不是為了省存儲(chǔ)空間壓縮成低畫質(zhì)。

為了在保持高質(zhì)量的同時(shí)控制計(jì)算成本,模型還用到了幾個(gè)聰明的技術(shù)。首先是"分組查詢注意力機(jī)制",簡(jiǎn)稱GQA——這個(gè)技術(shù)可以理解為一種更高效的信息處理方式,讓模型在處理圖像時(shí)不需要重復(fù)做太多冗余計(jì)算,節(jié)省了大量算力,同時(shí)也得到了現(xiàn)代推理框架的廣泛支持,部署起來(lái)更方便。

其次是"混合注意力機(jī)制",它幫助模型在處理長(zhǎng)文本或者多張圖片時(shí),能夠更有效地管理注意力資源,就像一個(gè)有經(jīng)驗(yàn)的讀者在閱讀長(zhǎng)文章時(shí)會(huì)合理分配注意力,而不是死盯著每一個(gè)字。

還有一個(gè)叫做"2D旋轉(zhuǎn)位置編碼"(2D RoPE)的技術(shù),專門用于視覺(jué)編碼器。普通的語(yǔ)言模型處理的是一維的文字序列,就像讀一行文字,從左到右依次理解。但圖像是二維的,有寬度也有高度,位置信息更復(fù)雜。2D旋轉(zhuǎn)位置編碼就專門為此設(shè)計(jì),讓模型能夠理解"這個(gè)物體在圖像的左上角"、"那個(gè)符號(hào)在右邊第三行"這樣的空間位置關(guān)系。相比之下,語(yǔ)言模型依然使用標(biāo)準(zhǔn)的一維位置編碼,這樣既保證了圖像理解的精準(zhǔn)性,也不影響語(yǔ)言理解的性能。

此外,模型還引入了"多令牌預(yù)測(cè)"模塊,借鑒自LG此前的K-EXAONE項(xiàng)目。這個(gè)模塊可以讓模型在生成文字時(shí)一次預(yù)測(cè)多個(gè)詞,相當(dāng)于打字時(shí)不是一個(gè)字一個(gè)字地敲,而是整詞、整句地輸入,大大提升了輸出速度。不過(guò)在實(shí)際推理時(shí),這個(gè)模塊會(huì)被關(guān)閉,以確保輸出質(zhì)量。

分詞器也做了專門優(yōu)化。EXAONE 4.5復(fù)用了K-EXAONE的分詞器,相比EXAONE 4.0的版本,它在多語(yǔ)言支持和韓語(yǔ)處理方面有顯著提升,能夠更準(zhǔn)確地理解和生成多種語(yǔ)言的文本。

三、訓(xùn)練過(guò)程:一場(chǎng)精心設(shè)計(jì)的"多階段特訓(xùn)"

訓(xùn)練EXAONE 4.5就像培養(yǎng)一名全能運(yùn)動(dòng)員,不能一上來(lái)就讓他參加奧運(yùn)會(huì),而是要按照由淺入深的課程逐步強(qiáng)化。整個(gè)預(yù)訓(xùn)練過(guò)程分為兩個(gè)大階段,總計(jì)處理了超過(guò)6450億圖像令牌和5100億文本令牌。

在正式的雙模態(tài)聯(lián)合訓(xùn)練開(kāi)始之前,研究團(tuán)隊(duì)先單獨(dú)訓(xùn)練了視覺(jué)編碼器,讓它學(xué)會(huì)如何"看圖",采用的是一種自回歸目標(biāo)的訓(xùn)練方式,靈感來(lái)自O(shè)penVision2的方法,確保視覺(jué)編碼器的輸出格式與整體架構(gòu)兼容。

第一階段被稱為"基礎(chǔ)模態(tài)對(duì)齊"。在這個(gè)階段,視覺(jué)編碼器、投影器和語(yǔ)言模型三者一起進(jìn)行端對(duì)端的聯(lián)合訓(xùn)練,序列長(zhǎng)度設(shè)定為8000個(gè)令牌,總計(jì)算量約為1.57×10??次浮點(diǎn)運(yùn)算。訓(xùn)練數(shù)據(jù)的組合非常多元:既有一般性的圖文配對(duì)數(shù)據(jù),也有交錯(cuò)排布圖文的文檔數(shù)據(jù),還有專門用于文檔理解的數(shù)據(jù)集和以O(shè)CR(光學(xué)字符識(shí)別)為核心的樣本。特別值得一提的是,為了防止加入視覺(jué)訓(xùn)練后語(yǔ)言能力退步,研究團(tuán)隊(duì)還在訓(xùn)練數(shù)據(jù)中加入了K-EXAONE流水線中的純文本數(shù)據(jù),就像讓一個(gè)學(xué)美術(shù)的學(xué)生同時(shí)不放棄語(yǔ)文練習(xí)。

第二階段叫做"感知與知識(shí)精煉",序列長(zhǎng)度同樣保持8000個(gè)令牌,總計(jì)算量約為6.43×10??次浮點(diǎn)運(yùn)算。這個(gè)階段的重點(diǎn)是調(diào)整數(shù)據(jù)配比:減少通用域數(shù)據(jù)的比例,轉(zhuǎn)而增加視覺(jué)定位、文檔解析和OCR相關(guān)的高密度結(jié)構(gòu)化數(shù)據(jù)。同時(shí)引入了涵蓋知識(shí)、數(shù)學(xué)和STEM領(lǐng)域的多樣化數(shù)據(jù)集,為后續(xù)處理復(fù)雜多模態(tài)任務(wù)打下基礎(chǔ)。整體策略是從"寬泛的視覺(jué)文本對(duì)齊"過(guò)渡到"對(duì)結(jié)構(gòu)化、領(lǐng)域特定數(shù)據(jù)的深度理解"。

在訓(xùn)練數(shù)據(jù)的構(gòu)成方面,研究團(tuán)隊(duì)投入了大量精力進(jìn)行精細(xì)化設(shè)計(jì)。圖像描述數(shù)據(jù)以韓英雙語(yǔ)配對(duì)為主,針對(duì)原始網(wǎng)絡(luò)抓取的圖文數(shù)據(jù)描述過(guò)于簡(jiǎn)短和噪聲多的問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一套合成描述生成流水線,專門用來(lái)豐富語(yǔ)義內(nèi)容。為了縮小通用預(yù)訓(xùn)練數(shù)據(jù)和實(shí)際下游任務(wù)之間的差距,還引入了面向任務(wù)的圖像,包括數(shù)學(xué)圖形、圖表、示意圖和文檔解析相關(guān)內(nèi)容。整個(gè)流水線以視覺(jué)信息豐富度和圖文對(duì)齊為優(yōu)化目標(biāo),強(qiáng)調(diào)實(shí)體多樣性、視覺(jué)復(fù)雜性和細(xì)粒度細(xì)節(jié),同時(shí)利用現(xiàn)有元數(shù)據(jù)作為合成生成的參考依據(jù),以減少幻覺(jué)現(xiàn)象。

交錯(cuò)圖文數(shù)據(jù)方面,研究團(tuán)隊(duì)借鑒了成熟的大語(yǔ)言模型數(shù)據(jù)過(guò)濾方法,從多個(gè)開(kāi)源資源和內(nèi)部資源中提取高質(zhì)量的多模態(tài)網(wǎng)絡(luò)內(nèi)容。他們使用了一個(gè)輕量級(jí)的文本分類器,根據(jù)教育質(zhì)量分?jǐn)?shù)和STEM相關(guān)性對(duì)文本部分進(jìn)行評(píng)估,過(guò)濾掉低價(jià)值的網(wǎng)絡(luò)噪聲,同時(shí)對(duì)高信息密度文檔進(jìn)行重點(diǎn)采樣。保留圖文自然排列順序的設(shè)計(jì)使模型能夠在長(zhǎng)上下文中處理多模態(tài)信息,并將非相鄰的視覺(jué)和文本線索關(guān)聯(lián)起來(lái)。

OCR和文檔數(shù)據(jù)的構(gòu)建非常細(xì)致,涵蓋了英語(yǔ)和韓語(yǔ),在字符、詞語(yǔ)和文檔三個(gè)層面上整合了開(kāi)源和內(nèi)部資源。合成的OCR圖像使用多樣化的背景和對(duì)比度不同的視覺(jué)混淆詞對(duì),模擬真實(shí)場(chǎng)景中的識(shí)別難度。各類文檔解析任務(wù)還包括將圖表、表格和文檔轉(zhuǎn)換為HTML、Markdown和JSON等結(jié)構(gòu)化格式,幫助模型學(xué)習(xí)版面理解和語(yǔ)義結(jié)構(gòu)重建。

視覺(jué)定位和計(jì)數(shù)數(shù)據(jù)有一套專門的構(gòu)建流水線。所有物體位置統(tǒng)一用邊界框格式表示,坐標(biāo)經(jīng)過(guò)歸一化處理后縮放到0到1000的范圍。計(jì)數(shù)任務(wù)則以合成生成為主,避免真實(shí)世界數(shù)據(jù)中遮擋、擁擠等噪聲問(wèn)題,并通過(guò)對(duì)計(jì)數(shù)范圍和對(duì)象類型進(jìn)行顯式平衡來(lái)消除偏向少量、簡(jiǎn)單類別的偏差,隨后經(jīng)過(guò)迭代精煉增加難度和多樣性。

STEM和推理數(shù)據(jù)通過(guò)一套基于搜索的合成流水線來(lái)解決高水平學(xué)術(shù)內(nèi)容稀缺的問(wèn)題,覆蓋復(fù)雜數(shù)學(xué)圖形、工程示意圖和科學(xué)圖解。提取的元數(shù)據(jù)被用于生成長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù),將視覺(jué)感知與深度知識(shí)推理結(jié)合起來(lái)。訓(xùn)練過(guò)程遵循漸進(jìn)式課程:先用寬泛過(guò)濾策略保證視覺(jué)多樣性,然后對(duì)專項(xiàng)數(shù)據(jù)集進(jìn)行戰(zhàn)略性上采樣,彌補(bǔ)剩余性能差距。

韓語(yǔ)專項(xiàng)數(shù)據(jù)是EXAONE 4.5的一大特色。研究團(tuán)隊(duì)專門整理了韓國(guó)旅游局的數(shù)據(jù)集,涵蓋大量韓國(guó)歷史和當(dāng)代文化的圖文描述,幫助模型積累深厚的文化知識(shí)。為了覆蓋活躍用戶群體中流行的游戲和IT內(nèi)容,還使用了IT Donga和Game Donga的數(shù)據(jù)集,讓模型能夠全面理解現(xiàn)代韓國(guó)數(shù)字文化。在推理任務(wù)方面,除了沿用英語(yǔ)STEM流水線外,還額外采用了一種"文字渲染為圖像"的策略,把基于文字的題目轉(zhuǎn)換為高分辨率渲染圖像,確保模型能夠穩(wěn)健地解析和求解格式化的韓語(yǔ)學(xué)術(shù)內(nèi)容。

四、從8K到256K:如何讓模型讀懂"超長(zhǎng)文檔"

一般的AI模型就像一個(gè)短期記憶很有限的人——你給他看的內(nèi)容太多,他就記不住前面說(shuō)了什么。EXAONE 4.5的目標(biāo)是支持最多256,000個(gè)令牌的上下文長(zhǎng)度,相當(dāng)于大約20萬(wàn)漢字的超長(zhǎng)文檔。這對(duì)于需要分析整本技術(shù)手冊(cè)或跨頁(yè)面圖表的工業(yè)應(yīng)用場(chǎng)景至關(guān)重要。

實(shí)現(xiàn)這一目標(biāo)的方式頗為巧妙。通常的做法是先把模型訓(xùn)練好,再單獨(dú)做一個(gè)"上下文擴(kuò)展"的階段,就像先造好一輛車,再專門改裝成越野車。EXAONE 4.5卻把上下文擴(kuò)展直接融入了監(jiān)督微調(diào)階段,讓模型在學(xué)習(xí)如何遵循指令的同時(shí),一并學(xué)會(huì)處理超長(zhǎng)內(nèi)容。

這種方法奏效的一個(gè)關(guān)鍵原因是底座足夠扎實(shí)——EXAONE 4.0語(yǔ)言模型本身就已經(jīng)支持128K的上下文長(zhǎng)度。在這個(gè)高起點(diǎn)上繼續(xù)擴(kuò)展到256K,比從只支持4K的模型開(kāi)始擴(kuò)展要穩(wěn)定得多,就像已經(jīng)跑過(guò)半程馬拉松的運(yùn)動(dòng)員,再多跑幾公里比從零起跑的人容易得多。視覺(jué)編碼器此時(shí)也能發(fā)揮積極作用,因?yàn)樗呀?jīng)通過(guò)多模態(tài)預(yù)訓(xùn)練與語(yǔ)言模型良好對(duì)齊,在多模態(tài)場(chǎng)景下同樣能保持穩(wěn)定的長(zhǎng)上下文處理能力。

計(jì)算層面,處理256K長(zhǎng)度的序列對(duì)內(nèi)存和算力的需求是巨大的。為此,研究團(tuán)隊(duì)引入了"上下文并行"技術(shù),把超長(zhǎng)序列分散到多個(gè)計(jì)算節(jié)點(diǎn)上并行處理,就像把一份超長(zhǎng)的報(bào)紙分成多段,讓多個(gè)人同時(shí)閱讀,再匯總各自的理解,從而維持了高訓(xùn)練吞吐量。

五、精細(xì)打磨:監(jiān)督微調(diào)、偏好優(yōu)化與強(qiáng)化學(xué)習(xí)三管齊下

預(yù)訓(xùn)練完成后,研究團(tuán)隊(duì)還對(duì)模型進(jìn)行了多輪精細(xì)化訓(xùn)練,就像一把刀鍛造好之后還要經(jīng)過(guò)打磨和開(kāi)刃才能真正好用。

監(jiān)督微調(diào)階段構(gòu)建了一個(gè)覆蓋多領(lǐng)域、多模態(tài)的高質(zhì)量訓(xùn)練數(shù)據(jù)集。與其用單一的數(shù)據(jù)處理流水線一刀切,研究團(tuán)隊(duì)按照不同的能力域來(lái)組織數(shù)據(jù),并為每個(gè)領(lǐng)域定制了不同的策略。訓(xùn)練數(shù)據(jù)覆蓋了視覺(jué)理解、語(yǔ)言使用、推理和指令遵循等多種能力,既包含文檔中心型輸入,也涵蓋通用多模態(tài)輸入,讓模型形成廣泛的泛化能力。

監(jiān)督微調(diào)同時(shí)整合了"非推理模式"和"推理模式"兩種監(jiān)督信號(hào)——前者對(duì)應(yīng)日常對(duì)話型任務(wù),后者對(duì)應(yīng)需要深入分析的復(fù)雜問(wèn)題,就像一個(gè)人既會(huì)輕松閑聊,也能在需要時(shí)切換到嚴(yán)肅思考模式。多階段的課程式訓(xùn)練設(shè)計(jì)讓模型能夠循序漸進(jìn)地強(qiáng)化各項(xiàng)能力,避免顧此失彼。語(yǔ)言支持方面,微調(diào)數(shù)據(jù)覆蓋了韓語(yǔ)、英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、日語(yǔ)和越南語(yǔ)六種語(yǔ)言的指令跟隨場(chǎng)景。

偏好優(yōu)化階段采用了"離線偏好優(yōu)化"方法,在訓(xùn)練流水線的不同位置分多個(gè)階段插入。每個(gè)階段針對(duì)特定能力,包括OCR、圖表理解、視覺(jué)識(shí)別、對(duì)話、指令遵循和安全性。對(duì)于視覺(jué)任務(wù),使用了DPO(直接偏好優(yōu)化)方法,通過(guò)參考模型提供穩(wěn)定的優(yōu)化信號(hào),β參數(shù)設(shè)為0.1;對(duì)于文本任務(wù),使用了GROUPER方法,能更有效地利用包含多個(gè)拒絕回答的數(shù)據(jù)集,G參數(shù)固定為4。兩種方法分別針對(duì)視覺(jué)和文本任務(wù)的特點(diǎn)量身選用,而非一律套用同一算法。

強(qiáng)化學(xué)習(xí)階段通過(guò)跨文本和視覺(jué)的聯(lián)合多模態(tài)強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)推理能力。文本數(shù)據(jù)涵蓋數(shù)學(xué)、編程、知識(shí)和指令遵循任務(wù);視覺(jué)數(shù)據(jù)涵蓋通用視覺(jué)理解、STEM推理、圖表、OCR、文檔理解和多圖場(chǎng)景。獎(jiǎng)勵(lì)機(jī)制上,文本任務(wù)沿用K-EXAONE的獎(jiǎng)勵(lì)系統(tǒng),視覺(jué)任務(wù)則針對(duì)不同任務(wù)設(shè)計(jì)了專門的獎(jiǎng)勵(lì)函數(shù)。策略優(yōu)化使用了GRPO算法配合IcePop設(shè)置,并應(yīng)用了零方差過(guò)濾——即如果一組樣本中所有樣本的優(yōu)勢(shì)值都為零,就直接跳過(guò)該組。優(yōu)勢(shì)值的計(jì)算方式是每個(gè)樣本獎(jiǎng)勵(lì)減去組內(nèi)平均獎(jiǎng)勵(lì),同時(shí)省略了標(biāo)準(zhǔn)差歸一化,以保持訓(xùn)練穩(wěn)定性。

六、評(píng)測(cè)結(jié)果:用數(shù)字說(shuō)話,它究竟有多厲害

在視覺(jué)基準(zhǔn)測(cè)試方面,研究團(tuán)隊(duì)將EXAONE 4.5(33B參數(shù))與多個(gè)強(qiáng)勁對(duì)手進(jìn)行了比較,包括GPT-5 mini(OpenAI的強(qiáng)力閉源模型)、Qwen3-VL-32B(阿里巴巴的32B密集模型)、Qwen3-VL-235B(阿里巴巴的超大規(guī)?;旌蠈<夷P停倕?shù)236B但每次激活約23B)以及Qwen3.5-27B(密集型推理模型)。

在STEM和推理類測(cè)試中,EXAONE 4.5的表現(xiàn)相當(dāng)亮眼。在MATH-VISION數(shù)學(xué)視覺(jué)推理測(cè)試中得分75.2,超過(guò)了參數(shù)規(guī)模是它七倍以上的Qwen3-VL-235B(74.6分);在WE-MATH測(cè)試中得分79.1,同樣高于Qwen3-VL-235B(74.8分)。面對(duì)GPT-5 mini這個(gè)強(qiáng)勁的閉源對(duì)手,EXAONE 4.5在MMMU-PRO上取得68.6分(GPT-5 mini為67.3分),在MATH-VISION上取得75.2分(GPT-5 mini為71.9分),均有超越。MMMU(大規(guī)模多學(xué)科多模態(tài)理解)得分78.7,MATHVISTA(mini)得分85.0,LOGICVISTA得分73.8。

文檔理解是EXAONE 4.5的重點(diǎn)強(qiáng)化領(lǐng)域。在CHARXIV圖表理解測(cè)試中得分71.7,明顯高于Qwen3-VL-235B的66.1分。在AI2D圖示理解測(cè)試中得分89.0,超過(guò)GPT-5 mini的88.2分。在OMNIDOCBENCH文檔基準(zhǔn)測(cè)試中得分81.2,超過(guò)GPT-5 mini的77.0分。CHARTQAPRO圖表問(wèn)答得分62.2,OCRBENCH v2光學(xué)字符識(shí)別得分63.2。

通用視覺(jué)測(cè)試方面,在BLINK測(cè)試中得分68.8,超過(guò)Qwen3-VL-235B的67.1分;MMSTAR得分74.9,HALLUSIONBENCH得分63.7。

韓語(yǔ)視覺(jué)理解方面,KMMMU得分42.7,高于GPT-5 mini的42.6分和Qwen3-VL-235B的42.1分;K-VISCUIT得分80.1,高于GPT-5 mini和Qwen3-VL-32B的78.5分;KRETA得分91.9。

在語(yǔ)言基準(zhǔn)測(cè)試方面,對(duì)比的模型增加了LG自己的K-EXAONE-236B-A23B(更大規(guī)模的混合專家模型)。推理類測(cè)試中,EXAONE 4.5在LIVECODEBENCH V6編程能力測(cè)試上取得81.4分,超越所有對(duì)比模型,包括K-EXAONE的80.7、GPT-5 mini的78.1、Qwen3-VL-235B的70.1和Qwen3.5-27B的80.7。AIME 2026數(shù)學(xué)競(jìng)賽測(cè)試得分92.6,排名第二(僅次于Qwen3.5-27B的93.2分,但高于GPT-5 mini的92.4分和K-EXAONE的92.2分)。GPQA-DIAMOND研究生水平問(wèn)答得分80.5,MMLU-PRO得分83.3。

智能體工具使用測(cè)試(τ?-BENCH)是EXAONE 4.5的另一個(gè)亮點(diǎn)。在零售場(chǎng)景子集得分77.9,航空?qǐng)鼍暗梅?6.5,電信場(chǎng)景得分73.0,加權(quán)平均綜合得分72.0,大幅超過(guò)Qwen3-VL-235B的57.0分。指令遵循測(cè)試中,IFBENCH得分62.6,高于Qwen3-VL-235B的59.2分;IFEVAL得分89.6,高于Qwen3-VL-235B的88.2分。

長(zhǎng)上下文理解測(cè)試AA-LCR得分50.6。韓語(yǔ)語(yǔ)言測(cè)試中,KMMLU-PRO得分67.6,高于K-EXAONE的67.3分;KOBALT得分52.1,超過(guò)Qwen3-VL-235B的51.1分。多語(yǔ)言測(cè)試中,MMMLU覆蓋韓語(yǔ)、德語(yǔ)、西班牙語(yǔ)、日語(yǔ)四種語(yǔ)言,得分85.4;WMT24++翻譯測(cè)試覆蓋五種語(yǔ)言(含越南語(yǔ)),得分91.5,超過(guò)K-EXAONE的90.5分。

七、EXAONE 4.5能在工業(yè)場(chǎng)景里做什么

以工廠為例:傳統(tǒng)的質(zhì)量檢測(cè)需要人工在流水線旁盯著產(chǎn)品一個(gè)個(gè)檢查,不僅費(fèi)人力,還容易因?yàn)槠诋a(chǎn)生漏檢。有了EXAONE 4.5這樣的視覺(jué)語(yǔ)言模型,AI可以實(shí)時(shí)分析流水線攝像頭的視頻畫面,自動(dòng)識(shí)別產(chǎn)品表面的劃痕、變形、顏色異常等缺陷,同時(shí)還能用語(yǔ)言描述發(fā)現(xiàn)了什么問(wèn)題,給出處理建議,甚至生成質(zhì)檢報(bào)告。

在工程維護(hù)領(lǐng)域,工程師有時(shí)需要翻閱厚厚的技術(shù)手冊(cè)、對(duì)照復(fù)雜的管道示意圖,才能判斷某個(gè)設(shè)備的故障原因。EXAONE 4.5可以同時(shí)"看"圖紙、"讀"說(shuō)明書,把視覺(jué)信息和文字信息綜合起來(lái),自動(dòng)完成合規(guī)檢查,生成診斷報(bào)告,大幅縮短維修響應(yīng)時(shí)間。

從更長(zhǎng)遠(yuǎn)的視角來(lái)看,EXAONE 4.5在LG的技術(shù)路線圖中承擔(dān)著"跳板"的角色。研究報(bào)告明確指出,視覺(jué)語(yǔ)言能力是邁向"視覺(jué)-語(yǔ)言-動(dòng)作"模型(VLA)的關(guān)鍵一步。VLA模型不僅能看懂圖像、理解語(yǔ)言,還能將這些理解轉(zhuǎn)化為實(shí)際的物理操作指令,指揮機(jī)器人在工廠、倉(cāng)庫(kù)、醫(yī)院等真實(shí)環(huán)境中自主完成任務(wù)。EXAONE 4.5就是這條路上不可或缺的基礎(chǔ)設(shè)施。

八、模型的局限性和使用條款

任何技術(shù)都有其邊界,LG的研究團(tuán)隊(duì)在報(bào)告中坦誠(chéng)地列出了EXAONE 4.5的局限性。模型生成的內(nèi)容基于訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律,可能會(huì)包含個(gè)人信息、有害內(nèi)容或帶有年齡、性別、種族等方面的偏見(jiàn);也可能在語(yǔ)義或語(yǔ)法上出現(xiàn)錯(cuò)誤;由于訓(xùn)練數(shù)據(jù)有截止日期,模型不反映最新信息,可能給出過(guò)時(shí)或不準(zhǔn)確的答案。LG明確表示,模型生成的文字不代表LG AI研究院的立場(chǎng),用戶不得將模型用于任何違反LG AI倫理原則的活動(dòng)。

使用授權(quán)方面,EXAONE 4.5采用的是EXAONE AI模型許可協(xié)議1.2版(非商業(yè)版),由LG管理發(fā)展研究院作為許可方授權(quán)。該協(xié)議允許用戶訪問(wèn)、下載、安裝和使用模型,但僅限于研究和教育目的,涵蓋評(píng)估、測(cè)試、學(xué)術(shù)研究、實(shí)驗(yàn)、學(xué)習(xí)、教學(xué)、培訓(xùn)以及非商業(yè)性質(zhì)的競(jìng)賽參與。用戶可以公開(kāi)披露基于模型或衍生品的研究結(jié)果,也可以修改模型并在研究和教育范圍內(nèi)創(chuàng)建衍生品,修改后的模型名稱必須以"EXAONE"開(kāi)頭。協(xié)議明確禁止將模型用于任何商業(yè)目的,禁止逆向工程、違法使用和不道德使用,并禁止將模型用于開(kāi)發(fā)或改進(jìn)與LG模型競(jìng)爭(zhēng)的產(chǎn)品。

說(shuō)到底,EXAONE 4.5的發(fā)布代表著LG在AI領(lǐng)域的一次重要跨越——不僅是技術(shù)上的跨越,更是開(kāi)放理念上的跨越。一個(gè)33B參數(shù)的開(kāi)放權(quán)重視覺(jué)語(yǔ)言模型,能夠在數(shù)學(xué)推理和文檔理解上挑戰(zhàn)參數(shù)規(guī)模是它七倍的競(jìng)爭(zhēng)對(duì)手,在編程能力測(cè)試上力壓一眾強(qiáng)敵,在韓語(yǔ)理解上展現(xiàn)出獨(dú)特優(yōu)勢(shì),這樣的成績(jī)確實(shí)值得記錄。

未來(lái)EXAONE系列將繼續(xù)向更多領(lǐng)域和應(yīng)用場(chǎng)景擴(kuò)展,研究團(tuán)隊(duì)也明確了向視覺(jué)-語(yǔ)言-動(dòng)作模型演進(jìn)的方向。如果你對(duì)這個(gè)領(lǐng)域感興趣,不妨追蹤LG AI研究院的后續(xù)動(dòng)態(tài),或者通過(guò)arXiv編號(hào)2604.08644v1查閱這份完整的技術(shù)報(bào)告,親自探索這些技術(shù)細(xì)節(jié)背后的更多可能性。

Q&A

Q1:EXAONE 4.5和普通的文字AI有什么區(qū)別?

A:EXAONE 4.5是一個(gè)視覺(jué)語(yǔ)言模型,意味著它既能理解文字,也能看懂圖像。普通的文字AI只能處理文本輸入,而EXAONE 4.5能同時(shí)分析圖片內(nèi)容和文字描述,適合工廠質(zhì)檢、工程圖紙分析、文檔解析等需要同時(shí)處理圖文信息的場(chǎng)景。

Q2:EXAONE 4.5支持哪些語(yǔ)言?

A:EXAONE 4.5支持六種語(yǔ)言,分別是韓語(yǔ)、英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、日語(yǔ)和越南語(yǔ)。其中韓語(yǔ)是重點(diǎn)優(yōu)化方向,模型在韓語(yǔ)理解和文化知識(shí)方面有專項(xiàng)數(shù)據(jù)訓(xùn)練,在多個(gè)韓語(yǔ)基準(zhǔn)測(cè)試上的表現(xiàn)超過(guò)了一些參數(shù)規(guī)模更大的競(jìng)爭(zhēng)對(duì)手。

Q3:EXAONE 4.5可以商用嗎?

A:不可以直接商用。EXAONE 4.5采用非商業(yè)許可協(xié)議,僅允許用于研究、教育、學(xué)術(shù)實(shí)驗(yàn)等非商業(yè)目的。如果企業(yè)或開(kāi)發(fā)者希望將其用于商業(yè)產(chǎn)品或服務(wù),需要與LG管理發(fā)展研究院?jiǎn)为?dú)簽署商業(yè)許可協(xié)議。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

出海更難了!俄朝圖們江公路大橋合攏,預(yù)計(jì)今年6月正式通車

全城探秘
2026-04-22 16:41:13
我有罪,大導(dǎo)演昆汀花1萬(wàn)美金,在包房舔腳半小時(shí),直到皮膚起皺

我有罪,大導(dǎo)演昆汀花1萬(wàn)美金,在包房舔腳半小時(shí),直到皮膚起皺

西樓知趣雜談
2026-04-20 08:40:47
任澤平退款731萬(wàn),恒大高管們開(kāi)始退錢了

任澤平退款731萬(wàn),恒大高管們開(kāi)始退錢了

互聯(lián)網(wǎng)大觀
2026-04-22 13:44:17
伊朗“宮斗”分出勝負(fù)?12小時(shí)就改口要談判,改革派重新占據(jù)上風(fēng)

伊朗“宮斗”分出勝負(fù)?12小時(shí)就改口要談判,改革派重新占據(jù)上風(fēng)

民間胡扯老哥
2026-04-22 05:07:48
騰訊與阿里巴巴洽談投資DeepSeek 估值超過(guò)200億美元

騰訊與阿里巴巴洽談投資DeepSeek 估值超過(guò)200億美元

財(cái)聯(lián)社
2026-04-22 19:24:36
日艦闖臺(tái)海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

日艦闖臺(tái)海3天后,高市被逼辭職,岸田已扛旗,052D抵近奄美大島

古事尋蹤記
2026-04-22 07:16:16
情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

情侶約會(huì)求“刺激”,雙雙被抓,審訊時(shí)互相甩鍋

深圳晚報(bào)
2026-04-22 10:11:17
山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

山西忻州市公務(wù)員局發(fā)布情況說(shuō)明:楊某媛(女)與自媒體貼文中所分析的楊某媛并非同一人

環(huán)球網(wǎng)資訊
2026-04-22 16:51:03
醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

醫(yī)院的專家號(hào)剛放出就瞬間“秒空”,上海三甲醫(yī)院緊急報(bào)警!警方:對(duì)倒賣醫(yī)院號(hào)源犯罪團(tuán)伙的李某、鄭某等人依法刑事拘留

大風(fēng)新聞
2026-04-22 15:12:13
深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長(zhǎng)?;??伊朗為何不領(lǐng)情?

深度 |大限到期,一日之內(nèi)極限反轉(zhuǎn),特朗普為何延長(zhǎng)停火?伊朗為何不領(lǐng)情?

上觀新聞
2026-04-22 17:19:03
烏克蘭沒(méi)錢打俄羅斯了!國(guó)庫(kù)見(jiàn)底外援青黃不接,普通人積蓄一夜縮水民不聊生

烏克蘭沒(méi)錢打俄羅斯了!國(guó)庫(kù)見(jiàn)底外援青黃不接,普通人積蓄一夜縮水民不聊生

網(wǎng)易新聞出品
2026-04-22 18:42:46
朝鮮發(fā)聲痛批日本,要求日本向中國(guó)道歉:針對(duì)中國(guó)駐日使館的連環(huán)恐怖威脅,是對(duì)國(guó)際法的粗暴違反與公然挑釁

朝鮮發(fā)聲痛批日本,要求日本向中國(guó)道歉:針對(duì)中國(guó)駐日使館的連環(huán)恐怖威脅,是對(duì)國(guó)際法的粗暴違反與公然挑釁

大風(fēng)新聞
2026-04-22 18:42:23
央視曝光:“哪吒”造車3年虧損183億,多地國(guó)資投資難追回,倒貼式招商引資傷了誰(shuí)?

央視曝光:“哪吒”造車3年虧損183億,多地國(guó)資投資難追回,倒貼式招商引資傷了誰(shuí)?

新京報(bào)政事兒
2026-04-21 23:04:31
演員王大陸一審被判刑

演員王大陸一審被判刑

極目新聞
2026-04-22 12:35:08
高99米,北京最高摩天輪歡樂(lè)谷“大眼京”預(yù)計(jì)6月28日運(yùn)營(yíng)

高99米,北京最高摩天輪歡樂(lè)谷“大眼京”預(yù)計(jì)6月28日運(yùn)營(yíng)

新京報(bào)
2026-04-22 13:06:20
2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

2032奧運(yùn)主辦地確定,結(jié)果吃驚全球,奧運(yùn)格局將重塑

天馬幸福的人生
2026-04-22 06:41:59
英雄航天員陳冬肩章已更為少將軍銜 系我國(guó)第二批航天員,在軌時(shí)長(zhǎng)超400天

英雄航天員陳冬肩章已更為少將軍銜 系我國(guó)第二批航天員,在軌時(shí)長(zhǎng)超400天

紅星新聞
2026-04-22 16:31:28
季后賽破5000分!杜蘭特復(fù)出23+6仍輸 下半場(chǎng)僅3分全場(chǎng)9失誤

季后賽破5000分!杜蘭特復(fù)出23+6仍輸 下半場(chǎng)僅3分全場(chǎng)9失誤

醉臥浮生
2026-04-22 13:17:43
爆料瘋傳!中南醫(yī)院“王護(hù)士長(zhǎng)”被扒,她到底有沒(méi)有問(wèn)題?

爆料瘋傳!中南醫(yī)院“王護(hù)士長(zhǎng)”被扒,她到底有沒(méi)有問(wèn)題?

墜入二次元的海洋
2026-04-22 10:14:47
5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

5月1日起正式嚴(yán)打!8類灰色行為直接入刑,所有人務(wù)必警惕

另子維愛(ài)讀史
2026-04-22 07:39:03
2026-04-22 19:56:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒(méi)有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

頭條要聞

朝鮮發(fā)聲痛批日本 要求日本向中國(guó)道歉

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂(lè)要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)?;鹌谙?/h3>

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

數(shù)碼
房產(chǎn)
親子
健康
公開(kāi)課

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

房產(chǎn)要聞

官宣!今年9月起,廣州中小學(xué)“重點(diǎn)班”將成歷史!

親子要聞

今起幼兒信息登記!登記后這兩樣保存好,后續(xù)報(bào)名都要用

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版