網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

普林斯頓與紐約大學(xué)：?jiǎn)侮P(guān)鍵詞實(shí)現(xiàn)AI視覺感知能力補(bǔ)全提升突破

2026-04-20 21:49:48　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由普林斯頓大學(xué)與紐約大學(xué)聯(lián)合開展的研究成果以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.09531，感興趣的讀者可通過(guò)該編號(hào)檢索完整原文。

**研究概要：AI的眼睛，看了卻沒真正"看懂"**

手機(jī)里的AI助手能認(rèn)出照片里的貓，能讀懂菜單上的文字，甚至能幫你分析一張復(fù)雜的圖表。但如果你問它"照片里這把椅子是面朝你還是背朝你"，或者"這兩個(gè)杯子哪個(gè)離鏡頭更近"，很多時(shí)候它會(huì)給出令人哭笑不得的錯(cuò)誤答案。這不是個(gè)例，而是當(dāng)前幾乎所有頂尖視覺語(yǔ)言模型（也就是那種既能看圖又能對(duì)話的AI）共同面臨的頑疾。

問題的根源在哪里？研究團(tuán)隊(duì)認(rèn)為，很可能是因?yàn)橛?xùn)練這些AI用的圖片，大多是從網(wǎng)上隨機(jī)抓取的自然照片，這些照片對(duì)于"左右上下、遠(yuǎn)近深淺、朝向角度"這類基礎(chǔ)視覺能力的覆蓋，實(shí)在是太稀疏、太隨機(jī)了。網(wǎng)絡(luò)上確實(shí)有海量圖片，但要系統(tǒng)性地教會(huì)AI分辨"哪個(gè)在前哪個(gè)在后"，靠隨機(jī)抓取的圖片就像靠隨機(jī)翻字典來(lái)學(xué)一門語(yǔ)言——效率極低，效果有限。

正是帶著這個(gè)疑問，研究團(tuán)隊(duì)提出了一個(gè)大膽的解決思路：與其費(fèi)力地從網(wǎng)上篩選合適的真實(shí)圖片，不如直接"按需定制"合成圖片來(lái)專項(xiàng)訓(xùn)練AI。他們把這套系統(tǒng)命名為**VisionFoundry**，并用它制作了一個(gè)包含一萬(wàn)張圖片的專項(xiàng)訓(xùn)練數(shù)據(jù)集**VisionFoundry-10K**。實(shí)驗(yàn)結(jié)果顯示，用這批合成圖片微調(diào)過(guò)的AI，在視覺感知專項(xiàng)測(cè)試上的得分提升了7%到10%，同時(shí)在其他通用能力上并沒有明顯退步。

**一、AI的視覺短板：不是看不見，而是"看不懂"**

為了理解這個(gè)問題，可以把視覺語(yǔ)言AI比作一個(gè)剛從書堆里走出來(lái)的圖書館員。這位館員讀過(guò)無(wú)數(shù)書，對(duì)各種知識(shí)如數(shù)家珍，但對(duì)于"這扇門是開著的還是虛掩的""那本書是立著的還是斜著的"這類只需眼睛一掃就能判斷的問題，卻常常答錯(cuò)。這不是因?yàn)樗难劬床灰?，而是因?yàn)樗麖膩?lái)沒有專門練習(xí)過(guò)這種"看一眼就判斷空間關(guān)系"的本能。

研究團(tuán)隊(duì)借助幾個(gè)專門設(shè)計(jì)的測(cè)試基準(zhǔn)來(lái)揭示這種短板。其中一個(gè)叫MMVP，它的設(shè)計(jì)原理頗為巧妙：給AI看一張圖片，問一個(gè)本應(yīng)從圖片中直觀可見的問題，但這類問題恰恰無(wú)法靠猜測(cè)或語(yǔ)言常識(shí)來(lái)回答，必須真正"看懂"圖片才能答對(duì)。另一個(gè)叫CV-Bench，它專門考察AI對(duì)三維空間關(guān)系的理解，比如兩個(gè)物體誰(shuí)前誰(shuí)后、誰(shuí)遠(yuǎn)誰(shuí)近。還有RealWorldQA，它測(cè)試AI在真實(shí)場(chǎng)景照片中的幾何和空間推理能力。

多個(gè)頂尖AI模型在這些測(cè)試上的表現(xiàn)，與它們?cè)谡Z(yǔ)言理解或圖片描述上的出色表現(xiàn)形成了鮮明反差。這讓研究團(tuán)隊(duì)更加確信：這不是模型結(jié)構(gòu)的問題，而是訓(xùn)練數(shù)據(jù)的問題——現(xiàn)有數(shù)據(jù)集對(duì)這類"低層次視覺感知"的覆蓋嚴(yán)重不足。

**二、合成圖片工廠：只需一個(gè)詞，就能批量生產(chǎn)專項(xiàng)訓(xùn)練素材**

VisionFoundry的核心思路，可以用一家定制食品工廠來(lái)理解。普通超市的食品是大批量生產(chǎn)的，口味大眾、營(yíng)養(yǎng)均衡但不針對(duì)特定需求。如果你需要專門為缺鈣的人設(shè)計(jì)食品，就需要一家能夠"按需定制配方"的工廠。VisionFoundry就是這樣一家工廠——只需要告訴它你想訓(xùn)練AI的哪種能力（比如"深度排序"或"朝向判斷"），它就能自動(dòng)生產(chǎn)出一批專門針對(duì)這項(xiàng)能力的訓(xùn)練素材。

整個(gè)生產(chǎn)流程分為三個(gè)環(huán)節(jié)，環(huán)環(huán)相扣。

第一個(gè)環(huán)節(jié)是"配方設(shè)計(jì)"。研究團(tuán)隊(duì)給系統(tǒng)輸入一個(gè)任務(wù)關(guān)鍵詞，比如"物體朝向與方向"。系統(tǒng)中的大語(yǔ)言模型（可以理解為一個(gè)超級(jí)聰明的文字助手）會(huì)自動(dòng)構(gòu)建一個(gè)"概念池"，把相關(guān)的物體、屬性、場(chǎng)景、風(fēng)格等要素列出來(lái)，然后從中隨機(jī)組合，形成具體的圖片描述方案。與此同時(shí)，它還會(huì)同步生成配套的問題和答案。關(guān)鍵在于，答案所依賴的視覺信息必須完全包含在圖片描述里——這就好比食品工廠規(guī)定，你聲稱的營(yíng)養(yǎng)成分必須真實(shí)存在于食品配方中，不能靠消費(fèi)者腦補(bǔ)。

第二個(gè)環(huán)節(jié)是"生產(chǎn)制造"。系統(tǒng)把第一步生成的圖片描述交給一個(gè)文字轉(zhuǎn)圖片模型（類似于能按照文字描述畫出圖片的AI畫手），生成對(duì)應(yīng)的合成圖片。研究團(tuán)隊(duì)選用了谷歌的Gemini-2.5-Flash-Image模型來(lái)承擔(dān)這個(gè)角色，它能生成質(zhì)量較高、細(xì)節(jié)豐富的圖片，并且對(duì)文字描述的忠實(shí)度也相當(dāng)不錯(cuò)。

第三個(gè)環(huán)節(jié)是"質(zhì)量檢驗(yàn)"。生成的圖片不能直接進(jìn)入訓(xùn)練數(shù)據(jù)，而要經(jīng)過(guò)一道嚴(yán)格的審核。系統(tǒng)把生成的圖片和對(duì)應(yīng)的答案一起交給另一個(gè)強(qiáng)大的多模態(tài)模型——谷歌的Gemini-3-Pro，讓它扮演"審核員"的角色。審核員會(huì)把問題和答案轉(zhuǎn)化成一句陳述句，比如"紅色的箱子在藍(lán)色球的左側(cè)"，然后對(duì)照?qǐng)D片判斷這句話是否屬實(shí)。只有通過(guò)審核的圖片才會(huì)被保留，審核不通過(guò)的則會(huì)先嘗試修改圖片，修改后仍不通過(guò)就直接丟棄，重新抽取新的組合來(lái)生成。

這三個(gè)環(huán)節(jié)共同保證了兩件事：一是每張圖片里的視覺信息確實(shí)能支撐配套問題的正確答案；二是整個(gè)過(guò)程完全自動(dòng)化，不需要真實(shí)圖片作為參考，也不需要人工標(biāo)注。

**三、VisionFoundry-10K：一萬(wàn)個(gè)專項(xiàng)訓(xùn)練題**

用上面這套流程，研究團(tuán)隊(duì)制作了一個(gè)名為VisionFoundry-10K的數(shù)據(jù)集，共包含一萬(wàn)個(gè)"圖片+問題+答案"三元組，覆蓋十種不同的視覺感知技能，每種技能各一千個(gè)樣本。

這十種技能可以大致理解為考察AI在看圖時(shí)最基礎(chǔ)、最本能的判斷能力。第一類是朝向與方向，考察AI能否判斷一個(gè)物體面朝哪個(gè)方向，比如一輛摩托車是朝向鏡頭還是背對(duì)鏡頭。第二類是視角與透視，考察AI是否能識(shí)別出拍攝角度，比如這張照片是從高處俯拍還是從低處仰拍。第三類是位置與關(guān)系，考察AI能否判斷兩個(gè)物體的空間位置關(guān)系，比如背包在行李箱的正上方。第四類是空間關(guān)系，考察AI能否在圖紙或平面圖中識(shí)別方位，比如三腳架是否在水槽的西側(cè)。第五類是狀態(tài)與條件，考察AI能否判斷物體的狀態(tài)，比如玩具船的艙門是關(guān)著的還是虛掩的。第六類是結(jié)構(gòu)與物理特征，考察AI對(duì)物體輪廓和形態(tài)的識(shí)別，比如氣壓計(jì)的外輪廓形狀。第七類是顏色與外觀，考察AI對(duì)顏色的識(shí)別，比如沙發(fā)上的條紋是什么顏色組合。第八類是深度排序，考察AI能否判斷哪個(gè)物體離鏡頭更近，比如潛水艇和刀哪個(gè)更靠近相機(jī)。第九類是相對(duì)距離，考察AI能否判斷哪個(gè)物體離某個(gè)參照物最近。第十類是現(xiàn)實(shí)世界空間理解，考察AI在真實(shí)場(chǎng)景中的綜合空間判斷能力，比如窗臺(tái)底部是否比信箱更高。

這十類技能涵蓋了從上下左右到遠(yuǎn)近深淺、從物體狀態(tài)到拍攝角度的方方面面，形成了一套相對(duì)完整的低層次視覺感知訓(xùn)練體系。所有問題都是簡(jiǎn)短明確的，所有答案也都是簡(jiǎn)潔確定的，比如"是"或"否"、"左"或"右"、某個(gè)物體名稱，這使得數(shù)據(jù)非常適合用來(lái)微調(diào)AI模型。

**四、實(shí)驗(yàn)結(jié)果：小數(shù)據(jù)，大提升**

研究團(tuán)隊(duì)選了三個(gè)不同規(guī)模的開源視覺語(yǔ)言模型來(lái)驗(yàn)證效果，分別是Qwen2.5-VL-3B（約30億參數(shù)，屬于小型模型）、MiMo-VL-7B（約70億參數(shù)，中等規(guī)模）和Llama-3.2-11B（約110億參數(shù)，較大規(guī)模）。實(shí)驗(yàn)的核心思路是：用VisionFoundry-10K對(duì)這三個(gè)模型進(jìn)行額外訓(xùn)練，然后在一系列視覺感知和通用能力測(cè)試上對(duì)比訓(xùn)練前后的表現(xiàn)。

在視覺感知專項(xiàng)測(cè)試上，結(jié)果相當(dāng)清晰。以MiMo-VL-7B為例，在MMVP配對(duì)測(cè)試（即需要同時(shí)看兩張圖片判斷差異的最難版本）上，得分從43.3%躍升至57.3%，提升幅度達(dá)14個(gè)百分點(diǎn)。在CV-Bench三維空間測(cè)試上，同一模型的得分從72.3%上升到83.7%，提升了11.4個(gè)百分點(diǎn)。Qwen2.5-VL-3B在CV-Bench三維測(cè)試上的提升也高達(dá)10.5個(gè)百分點(diǎn)，從66.0%升至76.5%。Llama-3.2-11B雖然提升幅度相對(duì)較小，但在多項(xiàng)測(cè)試上也有穩(wěn)定的正向變化。

在通用能力測(cè)試上，結(jié)果呈現(xiàn)出"有得有失，整體無(wú)明顯退步"的格局。部分通用測(cè)試的得分有小幅提升，部分有小幅波動(dòng)，OCRBench（文字識(shí)別測(cè)試）出現(xiàn)了小幅下滑，這與訓(xùn)練數(shù)據(jù)完全不涉及文字識(shí)別任務(wù)直接相關(guān)——你沒練過(guò)的技能當(dāng)然不會(huì)因?yàn)榫殑e的而變好，但也印證了這套方法的針對(duì)性：它提升了專項(xiàng)訓(xùn)練的技能，而不會(huì)大幅損害其他能力。

MiMo模型在MMBench通用測(cè)試上出現(xiàn)了一個(gè)格外顯眼的提升——從50.5%大幅躍升至81.6%。研究團(tuán)隊(duì)經(jīng)過(guò)分析后認(rèn)為，這背后的原因是MiMo在非推理模式下本身對(duì)邏輯判斷能力依賴較強(qiáng)，而視覺感知能力的提升在一定程度上彌補(bǔ)了這方面的不足，使其在更多題目上能給出正確答案。

**五、數(shù)據(jù)越多，效果越好：一個(gè)可預(yù)期的成長(zhǎng)曲線**

研究團(tuán)隊(duì)還做了一個(gè)頗具實(shí)際意義的測(cè)試：如果不用完整的一萬(wàn)個(gè)樣本，只用一部分，效果會(huì)怎樣？他們把數(shù)據(jù)集隨機(jī)抽樣成500、1000、2000、5000和完整10000個(gè)樣本，分別訓(xùn)練模型，觀察效果隨數(shù)據(jù)量的變化趨勢(shì)。

結(jié)果呈現(xiàn)出一條整體向上的成長(zhǎng)曲線。從500個(gè)樣本到完整一萬(wàn)個(gè)樣本，各項(xiàng)視覺感知測(cè)試的得分基本上都在穩(wěn)步上升，中間偶有小幅波動(dòng)，但整體趨勢(shì)非常清晰。這意味著VisionFoundry生成的數(shù)據(jù)質(zhì)量是可靠的，不存在"越多越亂"的情況，而是真正在幫助模型積累有效經(jīng)驗(yàn)。

在訓(xùn)練輪數(shù)方面，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)實(shí)用規(guī)律：如果只用單一任務(wù)的1000個(gè)樣本訓(xùn)練，大約訓(xùn)練8輪后效果會(huì)達(dá)到峰值，繼續(xù)訓(xùn)練反而略有退步；但如果用完整的十個(gè)任務(wù)一萬(wàn)個(gè)樣本，只需較少的訓(xùn)練輪數(shù)就能達(dá)到收斂，說(shuō)明任務(wù)多樣性本身就有助于模型更快地找到穩(wěn)定的學(xué)習(xí)狀態(tài)。

**六、合成圖片與真實(shí)圖片的較量：各有千秋，混用最優(yōu)**

一個(gè)自然而然的問題是：合成圖片訓(xùn)練出來(lái)的效果，和用真實(shí)圖片訓(xùn)練相比怎么樣？研究團(tuán)隊(duì)專門設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn)來(lái)回答這個(gè)問題。

他們從LLaVA-Instruct-80K（一個(gè)常用的自然圖片問答數(shù)據(jù)集）中隨機(jī)抽取了與合成數(shù)據(jù)等量的樣本，分別測(cè)試"純自然圖片"和"合成圖片+自然圖片各一半"兩種方案。結(jié)果表明，混合方案在視覺感知測(cè)試上的表現(xiàn)一致優(yōu)于純自然圖片方案，而在通用能力測(cè)試上的表現(xiàn)也大體相當(dāng)。這說(shuō)明合成圖片提供了自然圖片難以覆蓋的視覺信號(hào)——尤其是在系統(tǒng)性覆蓋特定空間關(guān)系和朝向變化方面，自然圖片的隨機(jī)性無(wú)法與定制化合成圖片相比。

研究團(tuán)隊(duì)還做了一個(gè)更精細(xì)的控制實(shí)驗(yàn)，專門把"圖片來(lái)源"這個(gè)變量單獨(dú)隔離出來(lái)。他們從自然圖片中提取描述文字，然后用同樣的描述文字去生成合成圖片，保持問答內(nèi)容完全一致，只改變圖片本身的來(lái)源。結(jié)果依然是合成圖片組在視覺感知測(cè)試上更勝一籌，尤其是在三維空間理解方面的優(yōu)勢(shì)最為突出。這進(jìn)一步證實(shí)了合成圖片本身的價(jià)值，而不僅僅是配套的合成問答起了作用。

**七、質(zhì)量把關(guān)有多重要：驗(yàn)證環(huán)節(jié)的必要性**

驗(yàn)證環(huán)節(jié)是VisionFoundry區(qū)別于更簡(jiǎn)單合成方案的核心設(shè)計(jì)之一。為了驗(yàn)證這道"質(zhì)檢關(guān)卡"確實(shí)有意義，研究團(tuán)隊(duì)做了一個(gè)對(duì)照實(shí)驗(yàn)：用同一批數(shù)據(jù)，一組經(jīng)過(guò)Gemini-3-Pro驗(yàn)證，另一組未經(jīng)驗(yàn)證，其他一切條件相同，看兩組的訓(xùn)練效果有何差異。

結(jié)果清楚地表明，驗(yàn)證是必要的。經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)在CV-Bench二維測(cè)試上高出0.5個(gè)百分點(diǎn)，在RealWorldQA上高出0.7個(gè)百分點(diǎn)，在BLINK測(cè)試上高出1.2個(gè)百分點(diǎn)，在MathVista數(shù)學(xué)視覺測(cè)試上更是高出2.6個(gè)百分點(diǎn)。相反，未經(jīng)驗(yàn)證的數(shù)據(jù)在多項(xiàng)測(cè)試上反而低于什么都不訓(xùn)練的基線——說(shuō)明噪聲數(shù)據(jù)不只是無(wú)效，而是有害的，會(huì)讓模型學(xué)到錯(cuò)誤的模式。

研究團(tuán)隊(duì)還對(duì)驗(yàn)證環(huán)節(jié)本身進(jìn)行了一次人工抽查。他們讓人工審核員對(duì)140個(gè)生成樣本進(jìn)行逐一判斷，然后與Gemini審核員的判斷進(jìn)行對(duì)比。結(jié)果顯示，在這批樣本中，70.7%是生成正確且通過(guò)驗(yàn)證的有效樣本，約21.4%是生成錯(cuò)誤且被正確拒絕的樣本，只有約0.7%是生成錯(cuò)誤但被錯(cuò)誤放行的"漏網(wǎng)之魚"，約7.1%是生成正確但被錯(cuò)誤拒絕的"冤案"。綜合來(lái)看，驗(yàn)證器的精確度達(dá)到99%，也就是說(shuō)通過(guò)驗(yàn)證的樣本有99%確實(shí)是正確的，盡管它也會(huì)漏判約9.2%的正確樣本。驗(yàn)證器與人工審核員之間的一致性系數(shù)（Cohen's κ）為0.794，屬于"高度一致"區(qū)間。這說(shuō)明Gemini作為自動(dòng)化審核員，其可靠性已經(jīng)足夠支撐大規(guī)模的數(shù)據(jù)過(guò)濾工作。

**八、不同任務(wù)的訓(xùn)練效果：并非所有技能都能遷移到所有場(chǎng)景**

研究團(tuán)隊(duì)還做了一個(gè)細(xì)粒度的分析：如果只用某一類任務(wù)的數(shù)據(jù)來(lái)訓(xùn)練，對(duì)各種測(cè)試的影響會(huì)有什么規(guī)律？他們分別用十類任務(wù)各自的1000個(gè)樣本訓(xùn)練模型，然后全部測(cè)試，對(duì)比結(jié)果。

總體而言，大多數(shù)單任務(wù)訓(xùn)練都能在視覺感知測(cè)試上帶來(lái)正面效果，但效果的大小和方向因任務(wù)和測(cè)試的組合而異。以"深度排序"任務(wù)為例，它在空間感知相關(guān)的測(cè)試上帶來(lái)了較明顯的提升，但對(duì)于ScreenSpot-Pro（一個(gè)測(cè)試AI在電腦屏幕界面上定位元素的能力的測(cè)試）和MMMU（包含大量需要專業(yè)知識(shí)的推理題的測(cè)試）效果有限，甚至略有下降——這說(shuō)明專注于三維深度感知的訓(xùn)練，對(duì)于二維圖形界面操作和學(xué)術(shù)推理的幫助并不大，符合直覺。

從各個(gè)測(cè)試對(duì)不同任務(wù)的敏感程度來(lái)看，CV-Bench三維空間測(cè)試對(duì)訓(xùn)練任務(wù)的選擇最為敏感，不同任務(wù)帶來(lái)的提升幅度差異明顯；而RealWorldQA對(duì)任務(wù)選擇的敏感度相對(duì)較低，原因是這個(gè)測(cè)試本身更側(cè)重綜合推理能力，而非單一感知技能。這些發(fā)現(xiàn)告訴我們，合成數(shù)據(jù)的效果具有一定的特異性——選對(duì)了訓(xùn)練任務(wù)，就能精準(zhǔn)命中目標(biāo)測(cè)試；如果任務(wù)與測(cè)試的需求不對(duì)齊，效果自然會(huì)打折扣。

**結(jié)語(yǔ)：給AI補(bǔ)課，原來(lái)這么簡(jiǎn)單？**

說(shuō)到底，這項(xiàng)研究給了我們一個(gè)頗有啟發(fā)性的視角：AI在視覺理解上的短板，未必是因?yàn)槟Ｐ捅旧聿粔蚵斆?，很可能只是因?yàn)樗鼜臎]系統(tǒng)地學(xué)過(guò)這些"看似簡(jiǎn)單"的空間感知技能。就像一個(gè)從小只讀書、從不做體育運(yùn)動(dòng)的孩子，并不是天生缺乏運(yùn)動(dòng)能力，只是沒有經(jīng)過(guò)針對(duì)性的練習(xí)。

VisionFoundry的意義在于提供了一套低成本、自動(dòng)化的"專項(xiàng)補(bǔ)課"方案：只需要告訴系統(tǒng)要練什么，它就能自動(dòng)生成圖片、出題、驗(yàn)證答案，整個(gè)過(guò)程不需要人工標(biāo)注，也不需要真實(shí)圖片。用一萬(wàn)個(gè)這樣的合成訓(xùn)練樣本，就能在多個(gè)視覺感知測(cè)試上帶來(lái)顯著提升。

當(dāng)然，這項(xiàng)研究也留下了值得繼續(xù)探索的問題。目前VisionFoundry主要針對(duì)相對(duì)簡(jiǎn)單的低層次視覺感知技能，對(duì)于需要復(fù)雜推理鏈的高層次視覺理解任務(wù)是否同樣有效，還有待進(jìn)一步驗(yàn)證。合成圖片的質(zhì)量也受到文字轉(zhuǎn)圖片模型本身能力的限制，隨著生成技術(shù)的進(jìn)步，這套方法的上限也有望隨之提高。

更深層的啟示或許是：AI的能力不只取決于模型有多大、計(jì)算資源有多豐富，很大程度上也取決于訓(xùn)練數(shù)據(jù)是否覆蓋了它需要掌握的技能。有針對(duì)性地設(shè)計(jì)訓(xùn)練數(shù)據(jù)，可能是一條比單純擴(kuò)大模型規(guī)模更高效的改進(jìn)路徑。有興趣深入了解這項(xiàng)研究全貌的讀者，可以通過(guò)arXiv編號(hào)2604.09531檢索原始論文。

Q&A

Q1：VisionFoundry生成的合成圖片和普通網(wǎng)絡(luò)圖片有什么本質(zhì)區(qū)別？

A：普通網(wǎng)絡(luò)圖片是隨機(jī)抓取的，對(duì)于"哪個(gè)物體在前、物體朝向哪里"這類空間感知信息的覆蓋非常稀疏和隨機(jī)。VisionFoundry生成的合成圖片則是"按需定制"的——系統(tǒng)先確定問題和答案，再生成能夠支撐該答案的圖片，并通過(guò)AI審核驗(yàn)證圖片與答案確實(shí)一致。這種"先有答案再生成圖"的邏輯，保證了每張圖片都對(duì)應(yīng)明確、可驗(yàn)證的視覺信息，訓(xùn)練信號(hào)遠(yuǎn)比隨機(jī)圖片更精準(zhǔn)。

Q2：VisionFoundry-10K訓(xùn)練完之后，AI在文字識(shí)別等其他能力上會(huì)不會(huì)變差？

A：會(huì)有小幅波動(dòng)，但不會(huì)大幅退步。在文字識(shí)別測(cè)試OCRBench上，經(jīng)過(guò)VisionFoundry-10K訓(xùn)練的模型得分略有下降，這是正?，F(xiàn)象，因?yàn)橛?xùn)練數(shù)據(jù)里完全沒有文字識(shí)別相關(guān)的樣本。但總體來(lái)看，通用能力測(cè)試上的變化是雙向的——有些測(cè)試有小幅提升，有些略有波動(dòng)，并沒有出現(xiàn)系統(tǒng)性的全面下降，說(shuō)明這套方法在提升專項(xiàng)能力的同時(shí)，對(duì)整體能力的影響是可控的。

Q3：VisionFoundry需要人工參與標(biāo)注嗎，普通研究者能用得起嗎？

A：整個(gè)流程是完全自動(dòng)化的，不需要人工標(biāo)注任何圖片或問答對(duì)。系統(tǒng)只需要一個(gè)任務(wù)關(guān)鍵詞作為輸入，就能自動(dòng)完成概念池構(gòu)建、問答生成、圖片合成和質(zhì)量驗(yàn)證的全流程。成本主要來(lái)自調(diào)用大語(yǔ)言模型和圖片生成模型的API費(fèi)用，以及驗(yàn)證環(huán)節(jié)的計(jì)算開銷。對(duì)于有一定計(jì)算資源的研究團(tuán)隊(duì)來(lái)說(shuō)，這套方案的門檻遠(yuǎn)低于人工標(biāo)注或真實(shí)圖片采集。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.