網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LG AI研究院首發(fā)開(kāi)源視覺(jué)語(yǔ)言模型EXAONE 4.5

2026-04-20 21:47:20　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由LG AI研究院主導(dǎo)開(kāi)發(fā)的研究成果以技術(shù)報(bào)告形式發(fā)布于2026年4月9日，論文編號(hào)為arXiv:2604.08644v1，有興趣深入了解的讀者可通過(guò)該編號(hào)在arXiv平臺(tái)查詢完整報(bào)告。

一個(gè)能同時(shí)看懂圖紙、讀懂說(shuō)明書、還能用六種語(yǔ)言回答問(wèn)題的AI助手，聽(tīng)起來(lái)像科幻小說(shuō)里的情節(jié)，但LG的工程師們已經(jīng)把它變成了現(xiàn)實(shí)。這就是EXAONE 4.5——LG AI研究院歷史上第一個(gè)以"開(kāi)放權(quán)重"形式對(duì)外發(fā)布的視覺(jué)語(yǔ)言模型，也是該研究院在AI技術(shù)路線上邁出的重要一步。

所謂"開(kāi)放權(quán)重"，可以理解為L(zhǎng)G把這個(gè)AI模型的內(nèi)部參數(shù)公開(kāi)分享給全世界的研究者和開(kāi)發(fā)者，有點(diǎn)像一家餐廳不僅開(kāi)放給客人用餐，還把廚師的菜譜一并公開(kāi)。這樣的做法能讓全球研究社區(qū)在此基礎(chǔ)上繼續(xù)改進(jìn)和創(chuàng)新，推動(dòng)整個(gè)行業(yè)向前發(fā)展。

一、從"只讀文字"到"既看圖又讀字"——EXAONE家族的進(jìn)化之路

要理解EXAONE 4.5的價(jià)值，先得了解它的前輩們走過(guò)了什么路。LG的EXAONE系列模型就像一個(gè)不斷成長(zhǎng)的學(xué)生：最早的EXAONE 3.0和3.5專注于文字處理，相當(dāng)于只會(huì)讀書寫字的學(xué)生；后來(lái)的EXAONE Deep專門強(qiáng)化了數(shù)學(xué)、科學(xué)、編程等領(lǐng)域的推理能力，像是參加了數(shù)理競(jìng)賽培訓(xùn)；再后來(lái)的EXAONE 4.0進(jìn)化成一個(gè)"雙模式"系統(tǒng)，既能輕松應(yīng)對(duì)日常對(duì)話，也能在面對(duì)高難度問(wèn)題時(shí)切換到深度推理狀態(tài)。

但這些前輩有一個(gè)共同的局限：它們只能理解文字，看不懂圖像。對(duì)于工廠里復(fù)雜的電路圖、醫(yī)院里的醫(yī)學(xué)影像、工程師手頭的設(shè)計(jì)藍(lán)圖，這些模型統(tǒng)統(tǒng)束手無(wú)策。EXAONE 4.5的誕生就是為了突破這道屏障——它給這個(gè)文字高手裝上了一雙"眼睛"，讓它既能讀文又能看圖。

用一個(gè)更形象的比喻：以前的EXAONE就像一個(gè)博學(xué)的盲人，能夠流利背誦百科全書，卻無(wú)法判斷面前擺的是蘋果還是橙子。EXAONE 4.5則是在這位博學(xué)者身上裝了一套精密的視覺(jué)系統(tǒng)，讓他第一次真正"看見(jiàn)"了世界。

二、架構(gòu)設(shè)計(jì)：如何給語(yǔ)言模型裝上一雙好眼睛

EXAONE 4.5的核心架構(gòu)可以用"大腦加眼睛"來(lái)理解。它的語(yǔ)言理解部分繼承自EXAONE 4.0的32億參數(shù)（準(zhǔn)確說(shuō)是320億，即32B）語(yǔ)言模型，這是模型的"大腦"，負(fù)責(zé)理解和生成語(yǔ)言。而新增的"眼睛"則是一個(gè)專門從零開(kāi)始訓(xùn)練的12億參數(shù)視覺(jué)編碼器。

為什么要特別強(qiáng)調(diào)"從零開(kāi)始訓(xùn)練"？因?yàn)槭忻嫔犀F(xiàn)有的視覺(jué)編碼器要么規(guī)模太小，要么效率不夠高，無(wú)法滿足LG工程師的具體需求。于是研究團(tuán)隊(duì)干脆自己設(shè)計(jì)并訓(xùn)練了這個(gè)12億參數(shù)的視覺(jué)編碼器，確保它能夠與整個(gè)系統(tǒng)的架構(gòu)完美契合。

視覺(jué)編碼器和語(yǔ)言模型之間，還有一個(gè)叫做"MLP投影器"的連接模塊，可以把它理解為翻譯官——它把視覺(jué)編碼器"看到"的內(nèi)容翻譯成語(yǔ)言模型能夠理解的格式，讓兩個(gè)原本說(shuō)"不同語(yǔ)言"的系統(tǒng)能夠順暢溝通。

在處理圖像時(shí)，有一個(gè)關(guān)鍵的技術(shù)挑戰(zhàn)：圖像越高清，處理它所需的計(jì)算資源就越多。以前很多模型為了省資源，會(huì)把圖像"壓縮"得很厲害，導(dǎo)致丟失大量細(xì)節(jié)。EXAONE 4.5選擇了不同的路——它用一個(gè)足夠大（12億參數(shù)）的視覺(jué)編碼器來(lái)處理高分辨率圖像，同時(shí)支持"原生分辨率"輸入，也就是說(shuō)圖像不需要被強(qiáng)制縮小，保留了原始的細(xì)節(jié)信息。這就像拍照時(shí)選擇最高畫質(zhì)，而不是為了省存儲(chǔ)空間壓縮成低畫質(zhì)。

為了在保持高質(zhì)量的同時(shí)控制計(jì)算成本，模型還用到了幾個(gè)聰明的技術(shù)。首先是"分組查詢注意力機(jī)制"，簡(jiǎn)稱GQA——這個(gè)技術(shù)可以理解為一種更高效的信息處理方式，讓模型在處理圖像時(shí)不需要重復(fù)做太多冗余計(jì)算，節(jié)省了大量算力，同時(shí)也得到了現(xiàn)代推理框架的廣泛支持，部署起來(lái)更方便。

其次是"混合注意力機(jī)制"，它幫助模型在處理長(zhǎng)文本或者多張圖片時(shí)，能夠更有效地管理注意力資源，就像一個(gè)有經(jīng)驗(yàn)的讀者在閱讀長(zhǎng)文章時(shí)會(huì)合理分配注意力，而不是死盯著每一個(gè)字。

還有一個(gè)叫做"2D旋轉(zhuǎn)位置編碼"（2D RoPE）的技術(shù)，專門用于視覺(jué)編碼器。普通的語(yǔ)言模型處理的是一維的文字序列，就像讀一行文字，從左到右依次理解。但圖像是二維的，有寬度也有高度，位置信息更復(fù)雜。2D旋轉(zhuǎn)位置編碼就專門為此設(shè)計(jì)，讓模型能夠理解"這個(gè)物體在圖像的左上角"、"那個(gè)符號(hào)在右邊第三行"這樣的空間位置關(guān)系。相比之下，語(yǔ)言模型依然使用標(biāo)準(zhǔn)的一維位置編碼，這樣既保證了圖像理解的精準(zhǔn)性，也不影響語(yǔ)言理解的性能。

此外，模型還引入了"多令牌預(yù)測(cè)"模塊，借鑒自LG此前的K-EXAONE項(xiàng)目。這個(gè)模塊可以讓模型在生成文字時(shí)一次預(yù)測(cè)多個(gè)詞，相當(dāng)于打字時(shí)不是一個(gè)字一個(gè)字地敲，而是整詞、整句地輸入，大大提升了輸出速度。不過(guò)在實(shí)際推理時(shí)，這個(gè)模塊會(huì)被關(guān)閉，以確保輸出質(zhì)量。

分詞器也做了專門優(yōu)化。EXAONE 4.5復(fù)用了K-EXAONE的分詞器，相比EXAONE 4.0的版本，它在多語(yǔ)言支持和韓語(yǔ)處理方面有顯著提升，能夠更準(zhǔn)確地理解和生成多種語(yǔ)言的文本。

三、訓(xùn)練過(guò)程：一場(chǎng)精心設(shè)計(jì)的"多階段特訓(xùn)"

訓(xùn)練EXAONE 4.5就像培養(yǎng)一名全能運(yùn)動(dòng)員，不能一上來(lái)就讓他參加奧運(yùn)會(huì)，而是要按照由淺入深的課程逐步強(qiáng)化。整個(gè)預(yù)訓(xùn)練過(guò)程分為兩個(gè)大階段，總計(jì)處理了超過(guò)6450億圖像令牌和5100億文本令牌。

在正式的雙模態(tài)聯(lián)合訓(xùn)練開(kāi)始之前，研究團(tuán)隊(duì)先單獨(dú)訓(xùn)練了視覺(jué)編碼器，讓它學(xué)會(huì)如何"看圖"，采用的是一種自回歸目標(biāo)的訓(xùn)練方式，靈感來(lái)自O(shè)penVision2的方法，確保視覺(jué)編碼器的輸出格式與整體架構(gòu)兼容。

第一階段被稱為"基礎(chǔ)模態(tài)對(duì)齊"。在這個(gè)階段，視覺(jué)編碼器、投影器和語(yǔ)言模型三者一起進(jìn)行端對(duì)端的聯(lián)合訓(xùn)練，序列長(zhǎng)度設(shè)定為8000個(gè)令牌，總計(jì)算量約為1.57×10??次浮點(diǎn)運(yùn)算。訓(xùn)練數(shù)據(jù)的組合非常多元：既有一般性的圖文配對(duì)數(shù)據(jù)，也有交錯(cuò)排布圖文的文檔數(shù)據(jù)，還有專門用于文檔理解的數(shù)據(jù)集和以O(shè)CR（光學(xué)字符識(shí)別）為核心的樣本。特別值得一提的是，為了防止加入視覺(jué)訓(xùn)練后語(yǔ)言能力退步，研究團(tuán)隊(duì)還在訓(xùn)練數(shù)據(jù)中加入了K-EXAONE流水線中的純文本數(shù)據(jù)，就像讓一個(gè)學(xué)美術(shù)的學(xué)生同時(shí)不放棄語(yǔ)文練習(xí)。

第二階段叫做"感知與知識(shí)精煉"，序列長(zhǎng)度同樣保持8000個(gè)令牌，總計(jì)算量約為6.43×10??次浮點(diǎn)運(yùn)算。這個(gè)階段的重點(diǎn)是調(diào)整數(shù)據(jù)配比：減少通用域數(shù)據(jù)的比例，轉(zhuǎn)而增加視覺(jué)定位、文檔解析和OCR相關(guān)的高密度結(jié)構(gòu)化數(shù)據(jù)。同時(shí)引入了涵蓋知識(shí)、數(shù)學(xué)和STEM領(lǐng)域的多樣化數(shù)據(jù)集，為后續(xù)處理復(fù)雜多模態(tài)任務(wù)打下基礎(chǔ)。整體策略是從"寬泛的視覺(jué)文本對(duì)齊"過(guò)渡到"對(duì)結(jié)構(gòu)化、領(lǐng)域特定數(shù)據(jù)的深度理解"。

在訓(xùn)練數(shù)據(jù)的構(gòu)成方面，研究團(tuán)隊(duì)投入了大量精力進(jìn)行精細(xì)化設(shè)計(jì)。圖像描述數(shù)據(jù)以韓英雙語(yǔ)配對(duì)為主，針對(duì)原始網(wǎng)絡(luò)抓取的圖文數(shù)據(jù)描述過(guò)于簡(jiǎn)短和噪聲多的問(wèn)題，研究團(tuán)隊(duì)構(gòu)建了一套合成描述生成流水線，專門用來(lái)豐富語(yǔ)義內(nèi)容。為了縮小通用預(yù)訓(xùn)練數(shù)據(jù)和實(shí)際下游任務(wù)之間的差距，還引入了面向任務(wù)的圖像，包括數(shù)學(xué)圖形、圖表、示意圖和文檔解析相關(guān)內(nèi)容。整個(gè)流水線以視覺(jué)信息豐富度和圖文對(duì)齊為優(yōu)化目標(biāo)，強(qiáng)調(diào)實(shí)體多樣性、視覺(jué)復(fù)雜性和細(xì)粒度細(xì)節(jié)，同時(shí)利用現(xiàn)有元數(shù)據(jù)作為合成生成的參考依據(jù)，以減少幻覺(jué)現(xiàn)象。

交錯(cuò)圖文數(shù)據(jù)方面，研究團(tuán)隊(duì)借鑒了成熟的大語(yǔ)言模型數(shù)據(jù)過(guò)濾方法，從多個(gè)開(kāi)源資源和內(nèi)部資源中提取高質(zhì)量的多模態(tài)網(wǎng)絡(luò)內(nèi)容。他們使用了一個(gè)輕量級(jí)的文本分類器，根據(jù)教育質(zhì)量分?jǐn)?shù)和STEM相關(guān)性對(duì)文本部分進(jìn)行評(píng)估，過(guò)濾掉低價(jià)值的網(wǎng)絡(luò)噪聲，同時(shí)對(duì)高信息密度文檔進(jìn)行重點(diǎn)采樣。保留圖文自然排列順序的設(shè)計(jì)使模型能夠在長(zhǎng)上下文中處理多模態(tài)信息，并將非相鄰的視覺(jué)和文本線索關(guān)聯(lián)起來(lái)。

OCR和文檔數(shù)據(jù)的構(gòu)建非常細(xì)致，涵蓋了英語(yǔ)和韓語(yǔ)，在字符、詞語(yǔ)和文檔三個(gè)層面上整合了開(kāi)源和內(nèi)部資源。合成的OCR圖像使用多樣化的背景和對(duì)比度不同的視覺(jué)混淆詞對(duì)，模擬真實(shí)場(chǎng)景中的識(shí)別難度。各類文檔解析任務(wù)還包括將圖表、表格和文檔轉(zhuǎn)換為HTML、Markdown和JSON等結(jié)構(gòu)化格式，幫助模型學(xué)習(xí)版面理解和語(yǔ)義結(jié)構(gòu)重建。

視覺(jué)定位和計(jì)數(shù)數(shù)據(jù)有一套專門的構(gòu)建流水線。所有物體位置統(tǒng)一用邊界框格式表示，坐標(biāo)經(jīng)過(guò)歸一化處理后縮放到0到1000的范圍。計(jì)數(shù)任務(wù)則以合成生成為主，避免真實(shí)世界數(shù)據(jù)中遮擋、擁擠等噪聲問(wèn)題，并通過(guò)對(duì)計(jì)數(shù)范圍和對(duì)象類型進(jìn)行顯式平衡來(lái)消除偏向少量、簡(jiǎn)單類別的偏差，隨后經(jīng)過(guò)迭代精煉增加難度和多樣性。

STEM和推理數(shù)據(jù)通過(guò)一套基于搜索的合成流水線來(lái)解決高水平學(xué)術(shù)內(nèi)容稀缺的問(wèn)題，覆蓋復(fù)雜數(shù)學(xué)圖形、工程示意圖和科學(xué)圖解。提取的元數(shù)據(jù)被用于生成長(zhǎng)鏈?zhǔn)剿季S數(shù)據(jù)，將視覺(jué)感知與深度知識(shí)推理結(jié)合起來(lái)。訓(xùn)練過(guò)程遵循漸進(jìn)式課程：先用寬泛過(guò)濾策略保證視覺(jué)多樣性，然后對(duì)專項(xiàng)數(shù)據(jù)集進(jìn)行戰(zhàn)略性上采樣，彌補(bǔ)剩余性能差距。

韓語(yǔ)專項(xiàng)數(shù)據(jù)是EXAONE 4.5的一大特色。研究團(tuán)隊(duì)專門整理了韓國(guó)旅游局的數(shù)據(jù)集，涵蓋大量韓國(guó)歷史和當(dāng)代文化的圖文描述，幫助模型積累深厚的文化知識(shí)。為了覆蓋活躍用戶群體中流行的游戲和IT內(nèi)容，還使用了IT Donga和Game Donga的數(shù)據(jù)集，讓模型能夠全面理解現(xiàn)代韓國(guó)數(shù)字文化。在推理任務(wù)方面，除了沿用英語(yǔ)STEM流水線外，還額外采用了一種"文字渲染為圖像"的策略，把基于文字的題目轉(zhuǎn)換為高分辨率渲染圖像，確保模型能夠穩(wěn)健地解析和求解格式化的韓語(yǔ)學(xué)術(shù)內(nèi)容。

四、從8K到256K：如何讓模型讀懂"超長(zhǎng)文檔"

一般的AI模型就像一個(gè)短期記憶很有限的人——你給他看的內(nèi)容太多，他就記不住前面說(shuō)了什么。EXAONE 4.5的目標(biāo)是支持最多256,000個(gè)令牌的上下文長(zhǎng)度，相當(dāng)于大約20萬(wàn)漢字的超長(zhǎng)文檔。這對(duì)于需要分析整本技術(shù)手冊(cè)或跨頁(yè)面圖表的工業(yè)應(yīng)用場(chǎng)景至關(guān)重要。

實(shí)現(xiàn)這一目標(biāo)的方式頗為巧妙。通常的做法是先把模型訓(xùn)練好，再單獨(dú)做一個(gè)"上下文擴(kuò)展"的階段，就像先造好一輛車，再專門改裝成越野車。EXAONE 4.5卻把上下文擴(kuò)展直接融入了監(jiān)督微調(diào)階段，讓模型在學(xué)習(xí)如何遵循指令的同時(shí)，一并學(xué)會(huì)處理超長(zhǎng)內(nèi)容。

這種方法奏效的一個(gè)關(guān)鍵原因是底座足夠扎實(shí)——EXAONE 4.0語(yǔ)言模型本身就已經(jīng)支持128K的上下文長(zhǎng)度。在這個(gè)高起點(diǎn)上繼續(xù)擴(kuò)展到256K，比從只支持4K的模型開(kāi)始擴(kuò)展要穩(wěn)定得多，就像已經(jīng)跑過(guò)半程馬拉松的運(yùn)動(dòng)員，再多跑幾公里比從零起跑的人容易得多。視覺(jué)編碼器此時(shí)也能發(fā)揮積極作用，因?yàn)樗呀?jīng)通過(guò)多模態(tài)預(yù)訓(xùn)練與語(yǔ)言模型良好對(duì)齊，在多模態(tài)場(chǎng)景下同樣能保持穩(wěn)定的長(zhǎng)上下文處理能力。

計(jì)算層面，處理256K長(zhǎng)度的序列對(duì)內(nèi)存和算力的需求是巨大的。為此，研究團(tuán)隊(duì)引入了"上下文并行"技術(shù)，把超長(zhǎng)序列分散到多個(gè)計(jì)算節(jié)點(diǎn)上并行處理，就像把一份超長(zhǎng)的報(bào)紙分成多段，讓多個(gè)人同時(shí)閱讀，再匯總各自的理解，從而維持了高訓(xùn)練吞吐量。

五、精細(xì)打磨：監(jiān)督微調(diào)、偏好優(yōu)化與強(qiáng)化學(xué)習(xí)三管齊下

預(yù)訓(xùn)練完成后，研究團(tuán)隊(duì)還對(duì)模型進(jìn)行了多輪精細(xì)化訓(xùn)練，就像一把刀鍛造好之后還要經(jīng)過(guò)打磨和開(kāi)刃才能真正好用。

監(jiān)督微調(diào)階段構(gòu)建了一個(gè)覆蓋多領(lǐng)域、多模態(tài)的高質(zhì)量訓(xùn)練數(shù)據(jù)集。與其用單一的數(shù)據(jù)處理流水線一刀切，研究團(tuán)隊(duì)按照不同的能力域來(lái)組織數(shù)據(jù)，并為每個(gè)領(lǐng)域定制了不同的策略。訓(xùn)練數(shù)據(jù)覆蓋了視覺(jué)理解、語(yǔ)言使用、推理和指令遵循等多種能力，既包含文檔中心型輸入，也涵蓋通用多模態(tài)輸入，讓模型形成廣泛的泛化能力。

監(jiān)督微調(diào)同時(shí)整合了"非推理模式"和"推理模式"兩種監(jiān)督信號(hào)——前者對(duì)應(yīng)日常對(duì)話型任務(wù)，后者對(duì)應(yīng)需要深入分析的復(fù)雜問(wèn)題，就像一個(gè)人既會(huì)輕松閑聊，也能在需要時(shí)切換到嚴(yán)肅思考模式。多階段的課程式訓(xùn)練設(shè)計(jì)讓模型能夠循序漸進(jìn)地強(qiáng)化各項(xiàng)能力，避免顧此失彼。語(yǔ)言支持方面，微調(diào)數(shù)據(jù)覆蓋了韓語(yǔ)、英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、日語(yǔ)和越南語(yǔ)六種語(yǔ)言的指令跟隨場(chǎng)景。

偏好優(yōu)化階段采用了"離線偏好優(yōu)化"方法，在訓(xùn)練流水線的不同位置分多個(gè)階段插入。每個(gè)階段針對(duì)特定能力，包括OCR、圖表理解、視覺(jué)識(shí)別、對(duì)話、指令遵循和安全性。對(duì)于視覺(jué)任務(wù)，使用了DPO（直接偏好優(yōu)化）方法，通過(guò)參考模型提供穩(wěn)定的優(yōu)化信號(hào)，β參數(shù)設(shè)為0.1；對(duì)于文本任務(wù)，使用了GROUPER方法，能更有效地利用包含多個(gè)拒絕回答的數(shù)據(jù)集，G參數(shù)固定為4。兩種方法分別針對(duì)視覺(jué)和文本任務(wù)的特點(diǎn)量身選用，而非一律套用同一算法。

強(qiáng)化學(xué)習(xí)階段通過(guò)跨文本和視覺(jué)的聯(lián)合多模態(tài)強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)推理能力。文本數(shù)據(jù)涵蓋數(shù)學(xué)、編程、知識(shí)和指令遵循任務(wù)；視覺(jué)數(shù)據(jù)涵蓋通用視覺(jué)理解、STEM推理、圖表、OCR、文檔理解和多圖場(chǎng)景。獎(jiǎng)勵(lì)機(jī)制上，文本任務(wù)沿用K-EXAONE的獎(jiǎng)勵(lì)系統(tǒng)，視覺(jué)任務(wù)則針對(duì)不同任務(wù)設(shè)計(jì)了專門的獎(jiǎng)勵(lì)函數(shù)。策略優(yōu)化使用了GRPO算法配合IcePop設(shè)置，并應(yīng)用了零方差過(guò)濾——即如果一組樣本中所有樣本的優(yōu)勢(shì)值都為零，就直接跳過(guò)該組。優(yōu)勢(shì)值的計(jì)算方式是每個(gè)樣本獎(jiǎng)勵(lì)減去組內(nèi)平均獎(jiǎng)勵(lì)，同時(shí)省略了標(biāo)準(zhǔn)差歸一化，以保持訓(xùn)練穩(wěn)定性。

六、評(píng)測(cè)結(jié)果：用數(shù)字說(shuō)話，它究竟有多厲害

在視覺(jué)基準(zhǔn)測(cè)試方面，研究團(tuán)隊(duì)將EXAONE 4.5（33B參數(shù)）與多個(gè)強(qiáng)勁對(duì)手進(jìn)行了比較，包括GPT-5 mini（OpenAI的強(qiáng)力閉源模型）、Qwen3-VL-32B（阿里巴巴的32B密集模型）、Qwen3-VL-235B（阿里巴巴的超大規(guī)?；旌蠈＜夷Ｐ停倕?shù)236B但每次激活約23B）以及Qwen3.5-27B（密集型推理模型）。

在STEM和推理類測(cè)試中，EXAONE 4.5的表現(xiàn)相當(dāng)亮眼。在MATH-VISION數(shù)學(xué)視覺(jué)推理測(cè)試中得分75.2，超過(guò)了參數(shù)規(guī)模是它七倍以上的Qwen3-VL-235B（74.6分）；在WE-MATH測(cè)試中得分79.1，同樣高于Qwen3-VL-235B（74.8分）。面對(duì)GPT-5 mini這個(gè)強(qiáng)勁的閉源對(duì)手，EXAONE 4.5在MMMU-PRO上取得68.6分（GPT-5 mini為67.3分），在MATH-VISION上取得75.2分（GPT-5 mini為71.9分），均有超越。MMMU（大規(guī)模多學(xué)科多模態(tài)理解）得分78.7，MATHVISTA（mini）得分85.0，LOGICVISTA得分73.8。

文檔理解是EXAONE 4.5的重點(diǎn)強(qiáng)化領(lǐng)域。在CHARXIV圖表理解測(cè)試中得分71.7，明顯高于Qwen3-VL-235B的66.1分。在AI2D圖示理解測(cè)試中得分89.0，超過(guò)GPT-5 mini的88.2分。在OMNIDOCBENCH文檔基準(zhǔn)測(cè)試中得分81.2，超過(guò)GPT-5 mini的77.0分。CHARTQAPRO圖表問(wèn)答得分62.2，OCRBENCH v2光學(xué)字符識(shí)別得分63.2。

通用視覺(jué)測(cè)試方面，在BLINK測(cè)試中得分68.8，超過(guò)Qwen3-VL-235B的67.1分；MMSTAR得分74.9，HALLUSIONBENCH得分63.7。

韓語(yǔ)視覺(jué)理解方面，KMMMU得分42.7，高于GPT-5 mini的42.6分和Qwen3-VL-235B的42.1分；K-VISCUIT得分80.1，高于GPT-5 mini和Qwen3-VL-32B的78.5分；KRETA得分91.9。

在語(yǔ)言基準(zhǔn)測(cè)試方面，對(duì)比的模型增加了LG自己的K-EXAONE-236B-A23B（更大規(guī)模的混合專家模型）。推理類測(cè)試中，EXAONE 4.5在LIVECODEBENCH V6編程能力測(cè)試上取得81.4分，超越所有對(duì)比模型，包括K-EXAONE的80.7、GPT-5 mini的78.1、Qwen3-VL-235B的70.1和Qwen3.5-27B的80.7。AIME 2026數(shù)學(xué)競(jìng)賽測(cè)試得分92.6，排名第二（僅次于Qwen3.5-27B的93.2分，但高于GPT-5 mini的92.4分和K-EXAONE的92.2分）。GPQA-DIAMOND研究生水平問(wèn)答得分80.5，MMLU-PRO得分83.3。

智能體工具使用測(cè)試（τ?-BENCH）是EXAONE 4.5的另一個(gè)亮點(diǎn)。在零售場(chǎng)景子集得分77.9，航空?qǐng)鼍暗梅?6.5，電信場(chǎng)景得分73.0，加權(quán)平均綜合得分72.0，大幅超過(guò)Qwen3-VL-235B的57.0分。指令遵循測(cè)試中，IFBENCH得分62.6，高于Qwen3-VL-235B的59.2分；IFEVAL得分89.6，高于Qwen3-VL-235B的88.2分。

長(zhǎng)上下文理解測(cè)試AA-LCR得分50.6。韓語(yǔ)語(yǔ)言測(cè)試中，KMMLU-PRO得分67.6，高于K-EXAONE的67.3分；KOBALT得分52.1，超過(guò)Qwen3-VL-235B的51.1分。多語(yǔ)言測(cè)試中，MMMLU覆蓋韓語(yǔ)、德語(yǔ)、西班牙語(yǔ)、日語(yǔ)四種語(yǔ)言，得分85.4；WMT24++翻譯測(cè)試覆蓋五種語(yǔ)言（含越南語(yǔ)），得分91.5，超過(guò)K-EXAONE的90.5分。

七、EXAONE 4.5能在工業(yè)場(chǎng)景里做什么

以工廠為例：傳統(tǒng)的質(zhì)量檢測(cè)需要人工在流水線旁盯著產(chǎn)品一個(gè)個(gè)檢查，不僅費(fèi)人力，還容易因?yàn)槠诋a(chǎn)生漏檢。有了EXAONE 4.5這樣的視覺(jué)語(yǔ)言模型，AI可以實(shí)時(shí)分析流水線攝像頭的視頻畫面，自動(dòng)識(shí)別產(chǎn)品表面的劃痕、變形、顏色異常等缺陷，同時(shí)還能用語(yǔ)言描述發(fā)現(xiàn)了什么問(wèn)題，給出處理建議，甚至生成質(zhì)檢報(bào)告。

在工程維護(hù)領(lǐng)域，工程師有時(shí)需要翻閱厚厚的技術(shù)手冊(cè)、對(duì)照復(fù)雜的管道示意圖，才能判斷某個(gè)設(shè)備的故障原因。EXAONE 4.5可以同時(shí)"看"圖紙、"讀"說(shuō)明書，把視覺(jué)信息和文字信息綜合起來(lái)，自動(dòng)完成合規(guī)檢查，生成診斷報(bào)告，大幅縮短維修響應(yīng)時(shí)間。

從更長(zhǎng)遠(yuǎn)的視角來(lái)看，EXAONE 4.5在LG的技術(shù)路線圖中承擔(dān)著"跳板"的角色。研究報(bào)告明確指出，視覺(jué)語(yǔ)言能力是邁向"視覺(jué)-語(yǔ)言-動(dòng)作"模型（VLA）的關(guān)鍵一步。VLA模型不僅能看懂圖像、理解語(yǔ)言，還能將這些理解轉(zhuǎn)化為實(shí)際的物理操作指令，指揮機(jī)器人在工廠、倉(cāng)庫(kù)、醫(yī)院等真實(shí)環(huán)境中自主完成任務(wù)。EXAONE 4.5就是這條路上不可或缺的基礎(chǔ)設(shè)施。

八、模型的局限性和使用條款

任何技術(shù)都有其邊界，LG的研究團(tuán)隊(duì)在報(bào)告中坦誠(chéng)地列出了EXAONE 4.5的局限性。模型生成的內(nèi)容基于訓(xùn)練數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律，可能會(huì)包含個(gè)人信息、有害內(nèi)容或帶有年齡、性別、種族等方面的偏見(jiàn)；也可能在語(yǔ)義或語(yǔ)法上出現(xiàn)錯(cuò)誤；由于訓(xùn)練數(shù)據(jù)有截止日期，模型不反映最新信息，可能給出過(guò)時(shí)或不準(zhǔn)確的答案。LG明確表示，模型生成的文字不代表LG AI研究院的立場(chǎng)，用戶不得將模型用于任何違反LG AI倫理原則的活動(dòng)。

使用授權(quán)方面，EXAONE 4.5采用的是EXAONE AI模型許可協(xié)議1.2版（非商業(yè)版），由LG管理發(fā)展研究院作為許可方授權(quán)。該協(xié)議允許用戶訪問(wèn)、下載、安裝和使用模型，但僅限于研究和教育目的，涵蓋評(píng)估、測(cè)試、學(xué)術(shù)研究、實(shí)驗(yàn)、學(xué)習(xí)、教學(xué)、培訓(xùn)以及非商業(yè)性質(zhì)的競(jìng)賽參與。用戶可以公開(kāi)披露基于模型或衍生品的研究結(jié)果，也可以修改模型并在研究和教育范圍內(nèi)創(chuàng)建衍生品，修改后的模型名稱必須以"EXAONE"開(kāi)頭。協(xié)議明確禁止將模型用于任何商業(yè)目的，禁止逆向工程、違法使用和不道德使用，并禁止將模型用于開(kāi)發(fā)或改進(jìn)與LG模型競(jìng)爭(zhēng)的產(chǎn)品。

說(shuō)到底，EXAONE 4.5的發(fā)布代表著LG在AI領(lǐng)域的一次重要跨越——不僅是技術(shù)上的跨越，更是開(kāi)放理念上的跨越。一個(gè)33B參數(shù)的開(kāi)放權(quán)重視覺(jué)語(yǔ)言模型，能夠在數(shù)學(xué)推理和文檔理解上挑戰(zhàn)參數(shù)規(guī)模是它七倍的競(jìng)爭(zhēng)對(duì)手，在編程能力測(cè)試上力壓一眾強(qiáng)敵，在韓語(yǔ)理解上展現(xiàn)出獨(dú)特優(yōu)勢(shì)，這樣的成績(jī)確實(shí)值得記錄。

未來(lái)EXAONE系列將繼續(xù)向更多領(lǐng)域和應(yīng)用場(chǎng)景擴(kuò)展，研究團(tuán)隊(duì)也明確了向視覺(jué)-語(yǔ)言-動(dòng)作模型演進(jìn)的方向。如果你對(duì)這個(gè)領(lǐng)域感興趣，不妨追蹤LG AI研究院的后續(xù)動(dòng)態(tài)，或者通過(guò)arXiv編號(hào)2604.08644v1查閱這份完整的技術(shù)報(bào)告，親自探索這些技術(shù)細(xì)節(jié)背后的更多可能性。

Q&A

Q1：EXAONE 4.5和普通的文字AI有什么區(qū)別？

A：EXAONE 4.5是一個(gè)視覺(jué)語(yǔ)言模型，意味著它既能理解文字，也能看懂圖像。普通的文字AI只能處理文本輸入，而EXAONE 4.5能同時(shí)分析圖片內(nèi)容和文字描述，適合工廠質(zhì)檢、工程圖紙分析、文檔解析等需要同時(shí)處理圖文信息的場(chǎng)景。

Q2：EXAONE 4.5支持哪些語(yǔ)言？

A：EXAONE 4.5支持六種語(yǔ)言，分別是韓語(yǔ)、英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、日語(yǔ)和越南語(yǔ)。其中韓語(yǔ)是重點(diǎn)優(yōu)化方向，模型在韓語(yǔ)理解和文化知識(shí)方面有專項(xiàng)數(shù)據(jù)訓(xùn)練，在多個(gè)韓語(yǔ)基準(zhǔn)測(cè)試上的表現(xiàn)超過(guò)了一些參數(shù)規(guī)模更大的競(jìng)爭(zhēng)對(duì)手。

Q3：EXAONE 4.5可以商用嗎？

A：不可以直接商用。EXAONE 4.5采用非商業(yè)許可協(xié)議，僅允許用于研究、教育、學(xué)術(shù)實(shí)驗(yàn)等非商業(yè)目的。如果企業(yè)或開(kāi)發(fā)者希望將其用于商業(yè)產(chǎn)品或服務(wù)，需要與LG管理發(fā)展研究院?jiǎn)为?dú)簽署商業(yè)許可協(xié)議。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.