国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

普林斯頓與紐約大學(xué):?jiǎn)侮P(guān)鍵詞實(shí)現(xiàn)AI視覺感知能力補(bǔ)全提升突破

0
分享至


這項(xiàng)由普林斯頓大學(xué)與紐約大學(xué)聯(lián)合開展的研究成果以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.09531,感興趣的讀者可通過(guò)該編號(hào)檢索完整原文。

**研究概要:AI的眼睛,看了卻沒真正"看懂"**

手機(jī)里的AI助手能認(rèn)出照片里的貓,能讀懂菜單上的文字,甚至能幫你分析一張復(fù)雜的圖表。但如果你問它"照片里這把椅子是面朝你還是背朝你",或者"這兩個(gè)杯子哪個(gè)離鏡頭更近",很多時(shí)候它會(huì)給出令人哭笑不得的錯(cuò)誤答案。這不是個(gè)例,而是當(dāng)前幾乎所有頂尖視覺語(yǔ)言模型(也就是那種既能看圖又能對(duì)話的AI)共同面臨的頑疾。

問題的根源在哪里?研究團(tuán)隊(duì)認(rèn)為,很可能是因?yàn)橛?xùn)練這些AI用的圖片,大多是從網(wǎng)上隨機(jī)抓取的自然照片,這些照片對(duì)于"左右上下、遠(yuǎn)近深淺、朝向角度"這類基礎(chǔ)視覺能力的覆蓋,實(shí)在是太稀疏、太隨機(jī)了。網(wǎng)絡(luò)上確實(shí)有海量圖片,但要系統(tǒng)性地教會(huì)AI分辨"哪個(gè)在前哪個(gè)在后",靠隨機(jī)抓取的圖片就像靠隨機(jī)翻字典來(lái)學(xué)一門語(yǔ)言——效率極低,效果有限。

正是帶著這個(gè)疑問,研究團(tuán)隊(duì)提出了一個(gè)大膽的解決思路:與其費(fèi)力地從網(wǎng)上篩選合適的真實(shí)圖片,不如直接"按需定制"合成圖片來(lái)專項(xiàng)訓(xùn)練AI。他們把這套系統(tǒng)命名為**VisionFoundry**,并用它制作了一個(gè)包含一萬(wàn)張圖片的專項(xiàng)訓(xùn)練數(shù)據(jù)集**VisionFoundry-10K**。實(shí)驗(yàn)結(jié)果顯示,用這批合成圖片微調(diào)過(guò)的AI,在視覺感知專項(xiàng)測(cè)試上的得分提升了7%到10%,同時(shí)在其他通用能力上并沒有明顯退步。

**一、AI的視覺短板:不是看不見,而是"看不懂"**

為了理解這個(gè)問題,可以把視覺語(yǔ)言AI比作一個(gè)剛從書堆里走出來(lái)的圖書館員。這位館員讀過(guò)無(wú)數(shù)書,對(duì)各種知識(shí)如數(shù)家珍,但對(duì)于"這扇門是開著的還是虛掩的""那本書是立著的還是斜著的"這類只需眼睛一掃就能判斷的問題,卻常常答錯(cuò)。這不是因?yàn)樗难劬床灰?,而是因?yàn)樗麖膩?lái)沒有專門練習(xí)過(guò)這種"看一眼就判斷空間關(guān)系"的本能。

研究團(tuán)隊(duì)借助幾個(gè)專門設(shè)計(jì)的測(cè)試基準(zhǔn)來(lái)揭示這種短板。其中一個(gè)叫MMVP,它的設(shè)計(jì)原理頗為巧妙:給AI看一張圖片,問一個(gè)本應(yīng)從圖片中直觀可見的問題,但這類問題恰恰無(wú)法靠猜測(cè)或語(yǔ)言常識(shí)來(lái)回答,必須真正"看懂"圖片才能答對(duì)。另一個(gè)叫CV-Bench,它專門考察AI對(duì)三維空間關(guān)系的理解,比如兩個(gè)物體誰(shuí)前誰(shuí)后、誰(shuí)遠(yuǎn)誰(shuí)近。還有RealWorldQA,它測(cè)試AI在真實(shí)場(chǎng)景照片中的幾何和空間推理能力。

多個(gè)頂尖AI模型在這些測(cè)試上的表現(xiàn),與它們?cè)谡Z(yǔ)言理解或圖片描述上的出色表現(xiàn)形成了鮮明反差。這讓研究團(tuán)隊(duì)更加確信:這不是模型結(jié)構(gòu)的問題,而是訓(xùn)練數(shù)據(jù)的問題——現(xiàn)有數(shù)據(jù)集對(duì)這類"低層次視覺感知"的覆蓋嚴(yán)重不足。

**二、合成圖片工廠:只需一個(gè)詞,就能批量生產(chǎn)專項(xiàng)訓(xùn)練素材**

VisionFoundry的核心思路,可以用一家定制食品工廠來(lái)理解。普通超市的食品是大批量生產(chǎn)的,口味大眾、營(yíng)養(yǎng)均衡但不針對(duì)特定需求。如果你需要專門為缺鈣的人設(shè)計(jì)食品,就需要一家能夠"按需定制配方"的工廠。VisionFoundry就是這樣一家工廠——只需要告訴它你想訓(xùn)練AI的哪種能力(比如"深度排序"或"朝向判斷"),它就能自動(dòng)生產(chǎn)出一批專門針對(duì)這項(xiàng)能力的訓(xùn)練素材。

整個(gè)生產(chǎn)流程分為三個(gè)環(huán)節(jié),環(huán)環(huán)相扣。

第一個(gè)環(huán)節(jié)是"配方設(shè)計(jì)"。研究團(tuán)隊(duì)給系統(tǒng)輸入一個(gè)任務(wù)關(guān)鍵詞,比如"物體朝向與方向"。系統(tǒng)中的大語(yǔ)言模型(可以理解為一個(gè)超級(jí)聰明的文字助手)會(huì)自動(dòng)構(gòu)建一個(gè)"概念池",把相關(guān)的物體、屬性、場(chǎng)景、風(fēng)格等要素列出來(lái),然后從中隨機(jī)組合,形成具體的圖片描述方案。與此同時(shí),它還會(huì)同步生成配套的問題和答案。關(guān)鍵在于,答案所依賴的視覺信息必須完全包含在圖片描述里——這就好比食品工廠規(guī)定,你聲稱的營(yíng)養(yǎng)成分必須真實(shí)存在于食品配方中,不能靠消費(fèi)者腦補(bǔ)。

第二個(gè)環(huán)節(jié)是"生產(chǎn)制造"。系統(tǒng)把第一步生成的圖片描述交給一個(gè)文字轉(zhuǎn)圖片模型(類似于能按照文字描述畫出圖片的AI畫手),生成對(duì)應(yīng)的合成圖片。研究團(tuán)隊(duì)選用了谷歌的Gemini-2.5-Flash-Image模型來(lái)承擔(dān)這個(gè)角色,它能生成質(zhì)量較高、細(xì)節(jié)豐富的圖片,并且對(duì)文字描述的忠實(shí)度也相當(dāng)不錯(cuò)。

第三個(gè)環(huán)節(jié)是"質(zhì)量檢驗(yàn)"。生成的圖片不能直接進(jìn)入訓(xùn)練數(shù)據(jù),而要經(jīng)過(guò)一道嚴(yán)格的審核。系統(tǒng)把生成的圖片和對(duì)應(yīng)的答案一起交給另一個(gè)強(qiáng)大的多模態(tài)模型——谷歌的Gemini-3-Pro,讓它扮演"審核員"的角色。審核員會(huì)把問題和答案轉(zhuǎn)化成一句陳述句,比如"紅色的箱子在藍(lán)色球的左側(cè)",然后對(duì)照?qǐng)D片判斷這句話是否屬實(shí)。只有通過(guò)審核的圖片才會(huì)被保留,審核不通過(guò)的則會(huì)先嘗試修改圖片,修改后仍不通過(guò)就直接丟棄,重新抽取新的組合來(lái)生成。

這三個(gè)環(huán)節(jié)共同保證了兩件事:一是每張圖片里的視覺信息確實(shí)能支撐配套問題的正確答案;二是整個(gè)過(guò)程完全自動(dòng)化,不需要真實(shí)圖片作為參考,也不需要人工標(biāo)注。

**三、VisionFoundry-10K:一萬(wàn)個(gè)專項(xiàng)訓(xùn)練題**

用上面這套流程,研究團(tuán)隊(duì)制作了一個(gè)名為VisionFoundry-10K的數(shù)據(jù)集,共包含一萬(wàn)個(gè)"圖片+問題+答案"三元組,覆蓋十種不同的視覺感知技能,每種技能各一千個(gè)樣本。

這十種技能可以大致理解為考察AI在看圖時(shí)最基礎(chǔ)、最本能的判斷能力。第一類是朝向與方向,考察AI能否判斷一個(gè)物體面朝哪個(gè)方向,比如一輛摩托車是朝向鏡頭還是背對(duì)鏡頭。第二類是視角與透視,考察AI是否能識(shí)別出拍攝角度,比如這張照片是從高處俯拍還是從低處仰拍。第三類是位置與關(guān)系,考察AI能否判斷兩個(gè)物體的空間位置關(guān)系,比如背包在行李箱的正上方。第四類是空間關(guān)系,考察AI能否在圖紙或平面圖中識(shí)別方位,比如三腳架是否在水槽的西側(cè)。第五類是狀態(tài)與條件,考察AI能否判斷物體的狀態(tài),比如玩具船的艙門是關(guān)著的還是虛掩的。第六類是結(jié)構(gòu)與物理特征,考察AI對(duì)物體輪廓和形態(tài)的識(shí)別,比如氣壓計(jì)的外輪廓形狀。第七類是顏色與外觀,考察AI對(duì)顏色的識(shí)別,比如沙發(fā)上的條紋是什么顏色組合。第八類是深度排序,考察AI能否判斷哪個(gè)物體離鏡頭更近,比如潛水艇和刀哪個(gè)更靠近相機(jī)。第九類是相對(duì)距離,考察AI能否判斷哪個(gè)物體離某個(gè)參照物最近。第十類是現(xiàn)實(shí)世界空間理解,考察AI在真實(shí)場(chǎng)景中的綜合空間判斷能力,比如窗臺(tái)底部是否比信箱更高。

這十類技能涵蓋了從上下左右到遠(yuǎn)近深淺、從物體狀態(tài)到拍攝角度的方方面面,形成了一套相對(duì)完整的低層次視覺感知訓(xùn)練體系。所有問題都是簡(jiǎn)短明確的,所有答案也都是簡(jiǎn)潔確定的,比如"是"或"否"、"左"或"右"、某個(gè)物體名稱,這使得數(shù)據(jù)非常適合用來(lái)微調(diào)AI模型。

**四、實(shí)驗(yàn)結(jié)果:小數(shù)據(jù),大提升**

研究團(tuán)隊(duì)選了三個(gè)不同規(guī)模的開源視覺語(yǔ)言模型來(lái)驗(yàn)證效果,分別是Qwen2.5-VL-3B(約30億參數(shù),屬于小型模型)、MiMo-VL-7B(約70億參數(shù),中等規(guī)模)和Llama-3.2-11B(約110億參數(shù),較大規(guī)模)。實(shí)驗(yàn)的核心思路是:用VisionFoundry-10K對(duì)這三個(gè)模型進(jìn)行額外訓(xùn)練,然后在一系列視覺感知和通用能力測(cè)試上對(duì)比訓(xùn)練前后的表現(xiàn)。

在視覺感知專項(xiàng)測(cè)試上,結(jié)果相當(dāng)清晰。以MiMo-VL-7B為例,在MMVP配對(duì)測(cè)試(即需要同時(shí)看兩張圖片判斷差異的最難版本)上,得分從43.3%躍升至57.3%,提升幅度達(dá)14個(gè)百分點(diǎn)。在CV-Bench三維空間測(cè)試上,同一模型的得分從72.3%上升到83.7%,提升了11.4個(gè)百分點(diǎn)。Qwen2.5-VL-3B在CV-Bench三維測(cè)試上的提升也高達(dá)10.5個(gè)百分點(diǎn),從66.0%升至76.5%。Llama-3.2-11B雖然提升幅度相對(duì)較小,但在多項(xiàng)測(cè)試上也有穩(wěn)定的正向變化。

在通用能力測(cè)試上,結(jié)果呈現(xiàn)出"有得有失,整體無(wú)明顯退步"的格局。部分通用測(cè)試的得分有小幅提升,部分有小幅波動(dòng),OCRBench(文字識(shí)別測(cè)試)出現(xiàn)了小幅下滑,這與訓(xùn)練數(shù)據(jù)完全不涉及文字識(shí)別任務(wù)直接相關(guān)——你沒練過(guò)的技能當(dāng)然不會(huì)因?yàn)榫殑e的而變好,但也印證了這套方法的針對(duì)性:它提升了專項(xiàng)訓(xùn)練的技能,而不會(huì)大幅損害其他能力。

MiMo模型在MMBench通用測(cè)試上出現(xiàn)了一個(gè)格外顯眼的提升——從50.5%大幅躍升至81.6%。研究團(tuán)隊(duì)經(jīng)過(guò)分析后認(rèn)為,這背后的原因是MiMo在非推理模式下本身對(duì)邏輯判斷能力依賴較強(qiáng),而視覺感知能力的提升在一定程度上彌補(bǔ)了這方面的不足,使其在更多題目上能給出正確答案。

**五、數(shù)據(jù)越多,效果越好:一個(gè)可預(yù)期的成長(zhǎng)曲線**

研究團(tuán)隊(duì)還做了一個(gè)頗具實(shí)際意義的測(cè)試:如果不用完整的一萬(wàn)個(gè)樣本,只用一部分,效果會(huì)怎樣?他們把數(shù)據(jù)集隨機(jī)抽樣成500、1000、2000、5000和完整10000個(gè)樣本,分別訓(xùn)練模型,觀察效果隨數(shù)據(jù)量的變化趨勢(shì)。

結(jié)果呈現(xiàn)出一條整體向上的成長(zhǎng)曲線。從500個(gè)樣本到完整一萬(wàn)個(gè)樣本,各項(xiàng)視覺感知測(cè)試的得分基本上都在穩(wěn)步上升,中間偶有小幅波動(dòng),但整體趨勢(shì)非常清晰。這意味著VisionFoundry生成的數(shù)據(jù)質(zhì)量是可靠的,不存在"越多越亂"的情況,而是真正在幫助模型積累有效經(jīng)驗(yàn)。

在訓(xùn)練輪數(shù)方面,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)實(shí)用規(guī)律:如果只用單一任務(wù)的1000個(gè)樣本訓(xùn)練,大約訓(xùn)練8輪后效果會(huì)達(dá)到峰值,繼續(xù)訓(xùn)練反而略有退步;但如果用完整的十個(gè)任務(wù)一萬(wàn)個(gè)樣本,只需較少的訓(xùn)練輪數(shù)就能達(dá)到收斂,說(shuō)明任務(wù)多樣性本身就有助于模型更快地找到穩(wěn)定的學(xué)習(xí)狀態(tài)。

**六、合成圖片與真實(shí)圖片的較量:各有千秋,混用最優(yōu)**

一個(gè)自然而然的問題是:合成圖片訓(xùn)練出來(lái)的效果,和用真實(shí)圖片訓(xùn)練相比怎么樣?研究團(tuán)隊(duì)專門設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn)來(lái)回答這個(gè)問題。

他們從LLaVA-Instruct-80K(一個(gè)常用的自然圖片問答數(shù)據(jù)集)中隨機(jī)抽取了與合成數(shù)據(jù)等量的樣本,分別測(cè)試"純自然圖片"和"合成圖片+自然圖片各一半"兩種方案。結(jié)果表明,混合方案在視覺感知測(cè)試上的表現(xiàn)一致優(yōu)于純自然圖片方案,而在通用能力測(cè)試上的表現(xiàn)也大體相當(dāng)。這說(shuō)明合成圖片提供了自然圖片難以覆蓋的視覺信號(hào)——尤其是在系統(tǒng)性覆蓋特定空間關(guān)系和朝向變化方面,自然圖片的隨機(jī)性無(wú)法與定制化合成圖片相比。

研究團(tuán)隊(duì)還做了一個(gè)更精細(xì)的控制實(shí)驗(yàn),專門把"圖片來(lái)源"這個(gè)變量單獨(dú)隔離出來(lái)。他們從自然圖片中提取描述文字,然后用同樣的描述文字去生成合成圖片,保持問答內(nèi)容完全一致,只改變圖片本身的來(lái)源。結(jié)果依然是合成圖片組在視覺感知測(cè)試上更勝一籌,尤其是在三維空間理解方面的優(yōu)勢(shì)最為突出。這進(jìn)一步證實(shí)了合成圖片本身的價(jià)值,而不僅僅是配套的合成問答起了作用。

**七、質(zhì)量把關(guān)有多重要:驗(yàn)證環(huán)節(jié)的必要性**

驗(yàn)證環(huán)節(jié)是VisionFoundry區(qū)別于更簡(jiǎn)單合成方案的核心設(shè)計(jì)之一。為了驗(yàn)證這道"質(zhì)檢關(guān)卡"確實(shí)有意義,研究團(tuán)隊(duì)做了一個(gè)對(duì)照實(shí)驗(yàn):用同一批數(shù)據(jù),一組經(jīng)過(guò)Gemini-3-Pro驗(yàn)證,另一組未經(jīng)驗(yàn)證,其他一切條件相同,看兩組的訓(xùn)練效果有何差異。

結(jié)果清楚地表明,驗(yàn)證是必要的。經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)在CV-Bench二維測(cè)試上高出0.5個(gè)百分點(diǎn),在RealWorldQA上高出0.7個(gè)百分點(diǎn),在BLINK測(cè)試上高出1.2個(gè)百分點(diǎn),在MathVista數(shù)學(xué)視覺測(cè)試上更是高出2.6個(gè)百分點(diǎn)。相反,未經(jīng)驗(yàn)證的數(shù)據(jù)在多項(xiàng)測(cè)試上反而低于什么都不訓(xùn)練的基線——說(shuō)明噪聲數(shù)據(jù)不只是無(wú)效,而是有害的,會(huì)讓模型學(xué)到錯(cuò)誤的模式。

研究團(tuán)隊(duì)還對(duì)驗(yàn)證環(huán)節(jié)本身進(jìn)行了一次人工抽查。他們讓人工審核員對(duì)140個(gè)生成樣本進(jìn)行逐一判斷,然后與Gemini審核員的判斷進(jìn)行對(duì)比。結(jié)果顯示,在這批樣本中,70.7%是生成正確且通過(guò)驗(yàn)證的有效樣本,約21.4%是生成錯(cuò)誤且被正確拒絕的樣本,只有約0.7%是生成錯(cuò)誤但被錯(cuò)誤放行的"漏網(wǎng)之魚",約7.1%是生成正確但被錯(cuò)誤拒絕的"冤案"。綜合來(lái)看,驗(yàn)證器的精確度達(dá)到99%,也就是說(shuō)通過(guò)驗(yàn)證的樣本有99%確實(shí)是正確的,盡管它也會(huì)漏判約9.2%的正確樣本。驗(yàn)證器與人工審核員之間的一致性系數(shù)(Cohen's κ)為0.794,屬于"高度一致"區(qū)間。這說(shuō)明Gemini作為自動(dòng)化審核員,其可靠性已經(jīng)足夠支撐大規(guī)模的數(shù)據(jù)過(guò)濾工作。

**八、不同任務(wù)的訓(xùn)練效果:并非所有技能都能遷移到所有場(chǎng)景**

研究團(tuán)隊(duì)還做了一個(gè)細(xì)粒度的分析:如果只用某一類任務(wù)的數(shù)據(jù)來(lái)訓(xùn)練,對(duì)各種測(cè)試的影響會(huì)有什么規(guī)律?他們分別用十類任務(wù)各自的1000個(gè)樣本訓(xùn)練模型,然后全部測(cè)試,對(duì)比結(jié)果。

總體而言,大多數(shù)單任務(wù)訓(xùn)練都能在視覺感知測(cè)試上帶來(lái)正面效果,但效果的大小和方向因任務(wù)和測(cè)試的組合而異。以"深度排序"任務(wù)為例,它在空間感知相關(guān)的測(cè)試上帶來(lái)了較明顯的提升,但對(duì)于ScreenSpot-Pro(一個(gè)測(cè)試AI在電腦屏幕界面上定位元素的能力的測(cè)試)和MMMU(包含大量需要專業(yè)知識(shí)的推理題的測(cè)試)效果有限,甚至略有下降——這說(shuō)明專注于三維深度感知的訓(xùn)練,對(duì)于二維圖形界面操作和學(xué)術(shù)推理的幫助并不大,符合直覺。

從各個(gè)測(cè)試對(duì)不同任務(wù)的敏感程度來(lái)看,CV-Bench三維空間測(cè)試對(duì)訓(xùn)練任務(wù)的選擇最為敏感,不同任務(wù)帶來(lái)的提升幅度差異明顯;而RealWorldQA對(duì)任務(wù)選擇的敏感度相對(duì)較低,原因是這個(gè)測(cè)試本身更側(cè)重綜合推理能力,而非單一感知技能。這些發(fā)現(xiàn)告訴我們,合成數(shù)據(jù)的效果具有一定的特異性——選對(duì)了訓(xùn)練任務(wù),就能精準(zhǔn)命中目標(biāo)測(cè)試;如果任務(wù)與測(cè)試的需求不對(duì)齊,效果自然會(huì)打折扣。

**結(jié)語(yǔ):給AI補(bǔ)課,原來(lái)這么簡(jiǎn)單?**

說(shuō)到底,這項(xiàng)研究給了我們一個(gè)頗有啟發(fā)性的視角:AI在視覺理解上的短板,未必是因?yàn)槟P捅旧聿粔蚵斆?,很可能只是因?yàn)樗鼜臎]系統(tǒng)地學(xué)過(guò)這些"看似簡(jiǎn)單"的空間感知技能。就像一個(gè)從小只讀書、從不做體育運(yùn)動(dòng)的孩子,并不是天生缺乏運(yùn)動(dòng)能力,只是沒有經(jīng)過(guò)針對(duì)性的練習(xí)。

VisionFoundry的意義在于提供了一套低成本、自動(dòng)化的"專項(xiàng)補(bǔ)課"方案:只需要告訴系統(tǒng)要練什么,它就能自動(dòng)生成圖片、出題、驗(yàn)證答案,整個(gè)過(guò)程不需要人工標(biāo)注,也不需要真實(shí)圖片。用一萬(wàn)個(gè)這樣的合成訓(xùn)練樣本,就能在多個(gè)視覺感知測(cè)試上帶來(lái)顯著提升。

當(dāng)然,這項(xiàng)研究也留下了值得繼續(xù)探索的問題。目前VisionFoundry主要針對(duì)相對(duì)簡(jiǎn)單的低層次視覺感知技能,對(duì)于需要復(fù)雜推理鏈的高層次視覺理解任務(wù)是否同樣有效,還有待進(jìn)一步驗(yàn)證。合成圖片的質(zhì)量也受到文字轉(zhuǎn)圖片模型本身能力的限制,隨著生成技術(shù)的進(jìn)步,這套方法的上限也有望隨之提高。

更深層的啟示或許是:AI的能力不只取決于模型有多大、計(jì)算資源有多豐富,很大程度上也取決于訓(xùn)練數(shù)據(jù)是否覆蓋了它需要掌握的技能。有針對(duì)性地設(shè)計(jì)訓(xùn)練數(shù)據(jù),可能是一條比單純擴(kuò)大模型規(guī)模更高效的改進(jìn)路徑。有興趣深入了解這項(xiàng)研究全貌的讀者,可以通過(guò)arXiv編號(hào)2604.09531檢索原始論文。

Q&A

Q1:VisionFoundry生成的合成圖片和普通網(wǎng)絡(luò)圖片有什么本質(zhì)區(qū)別?

A:普通網(wǎng)絡(luò)圖片是隨機(jī)抓取的,對(duì)于"哪個(gè)物體在前、物體朝向哪里"這類空間感知信息的覆蓋非常稀疏和隨機(jī)。VisionFoundry生成的合成圖片則是"按需定制"的——系統(tǒng)先確定問題和答案,再生成能夠支撐該答案的圖片,并通過(guò)AI審核驗(yàn)證圖片與答案確實(shí)一致。這種"先有答案再生成圖"的邏輯,保證了每張圖片都對(duì)應(yīng)明確、可驗(yàn)證的視覺信息,訓(xùn)練信號(hào)遠(yuǎn)比隨機(jī)圖片更精準(zhǔn)。

Q2:VisionFoundry-10K訓(xùn)練完之后,AI在文字識(shí)別等其他能力上會(huì)不會(huì)變差?

A:會(huì)有小幅波動(dòng),但不會(huì)大幅退步。在文字識(shí)別測(cè)試OCRBench上,經(jīng)過(guò)VisionFoundry-10K訓(xùn)練的模型得分略有下降,這是正?,F(xiàn)象,因?yàn)橛?xùn)練數(shù)據(jù)里完全沒有文字識(shí)別相關(guān)的樣本。但總體來(lái)看,通用能力測(cè)試上的變化是雙向的——有些測(cè)試有小幅提升,有些略有波動(dòng),并沒有出現(xiàn)系統(tǒng)性的全面下降,說(shuō)明這套方法在提升專項(xiàng)能力的同時(shí),對(duì)整體能力的影響是可控的。

Q3:VisionFoundry需要人工參與標(biāo)注嗎,普通研究者能用得起嗎?

A:整個(gè)流程是完全自動(dòng)化的,不需要人工標(biāo)注任何圖片或問答對(duì)。系統(tǒng)只需要一個(gè)任務(wù)關(guān)鍵詞作為輸入,就能自動(dòng)完成概念池構(gòu)建、問答生成、圖片合成和質(zhì)量驗(yàn)證的全流程。成本主要來(lái)自調(diào)用大語(yǔ)言模型和圖片生成模型的API費(fèi)用,以及驗(yàn)證環(huán)節(jié)的計(jì)算開銷。對(duì)于有一定計(jì)算資源的研究團(tuán)隊(duì)來(lái)說(shuō),這套方案的門檻遠(yuǎn)低于人工標(biāo)注或真實(shí)圖片采集。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
GPT-Image-2 :隨意做出可作為“證據(jù)”的圖片,強(qiáng)到讓人恐慌

GPT-Image-2 :隨意做出可作為“證據(jù)”的圖片,強(qiáng)到讓人恐慌

硅星GenAI
2026-04-22 08:51:06
生涯最佳一戰(zhàn)!4年前你可是和文班爭(zhēng)狀元的天之驕子??!

籃球大圖
2026-04-22 12:21:49

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
多位廣州市民發(fā)聲:心痛!挖成這樣!多部門介入

多位廣州市民發(fā)聲:心痛!挖成這樣!多部門介入

南方都市報(bào)
2026-04-21 09:13:29
兩場(chǎng)戰(zhàn)爭(zhēng),一個(gè)目的,美元霸權(quán)的瀕死反撲,中國(guó)才是最終目標(biāo)

兩場(chǎng)戰(zhàn)爭(zhēng),一個(gè)目的,美元霸權(quán)的瀕死反撲,中國(guó)才是最終目標(biāo)

孤痞野貓
2026-04-21 15:46:40
46歲曹格新戀情曝光!女友肚子凸起被疑懷孕,正臉超像前妻吳速玲

46歲曹格新戀情曝光!女友肚子凸起被疑懷孕,正臉超像前妻吳速玲

小彭美識(shí)
2026-04-22 14:32:57
以色列發(fā)動(dòng)襲擊!“現(xiàn)場(chǎng)如末日般慘烈”

以色列發(fā)動(dòng)襲擊!“現(xiàn)場(chǎng)如末日般慘烈”

新浪財(cái)經(jīng)
2026-04-21 23:07:44
任重夫妻倆手牽手現(xiàn)身街頭,婚后的孫驍驍變得低調(diào),不露面了

任重夫妻倆手牽手現(xiàn)身街頭,婚后的孫驍驍變得低調(diào),不露面了

喜歡歷史的阿繁
2026-04-22 17:37:20
為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

為什么2026教育突然松綁了?網(wǎng)友:過(guò)度內(nèi)卷只會(huì)影響孩子心理健康

另子維愛讀史
2026-04-21 20:14:40
603169,被證監(jiān)會(huì)立案!

603169,被證監(jiān)會(huì)立案!

證券時(shí)報(bào)e公司
2026-04-22 17:54:29
周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

周總理只是讓他去經(jīng)商,為黨賺取經(jīng)費(fèi),他卻給組織賺回個(gè)商業(yè)帝國(guó)

鶴羽說(shuō)個(gè)事
2026-04-02 23:00:01
1976年誰(shuí)為周總理致悼詞?江青推薦一人,葉劍英搖頭拒絕:不合適

1976年誰(shuí)為周總理致悼詞?江青推薦一人,葉劍英搖頭拒絕:不合適

雍親王府
2026-03-30 10:55:03
馬筱梅成立公司,疑似與婆家經(jīng)濟(jì)切割,張?zhí)m很無(wú)奈直言欲望太高

馬筱梅成立公司,疑似與婆家經(jīng)濟(jì)切割,張?zhí)m很無(wú)奈直言欲望太高

一盅情懷
2026-04-21 19:16:14
影子調(diào)查|揭秘58同城維修“幽靈訂單”:強(qiáng)行生成訂單,截胡上門服務(wù)

影子調(diào)查|揭秘58同城維修“幽靈訂單”:強(qiáng)行生成訂單,截胡上門服務(wù)

澎湃新聞
2026-04-22 09:06:29
52 歲張震岳湘江邊夜跑!黝黑絡(luò)腮胡像外國(guó)人,男人味拉滿

52 歲張震岳湘江邊夜跑!黝黑絡(luò)腮胡像外國(guó)人,男人味拉滿

南萬(wàn)說(shuō)娛26
2026-04-12 15:22:37
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

琨玉秋霜
2026-04-21 00:11:13
主帥無(wú)奈炮轟+質(zhì)疑判罰!海港爆冷輸球,穆斯卡特深陷下課危機(jī)!

主帥無(wú)奈炮轟+質(zhì)疑判罰!海港爆冷輸球,穆斯卡特深陷下課危機(jī)!

田先生籃球
2026-04-22 06:13:37
廣東60歲金融老將突然被帶走,曾任東莞銀行副行長(zhǎng)至少15年

廣東60歲金融老將突然被帶走,曾任東莞銀行副行長(zhǎng)至少15年

湘財(cái)Plus
2026-04-22 14:21:13
寧德時(shí)代回應(yīng)車企給電池廠打工說(shuō)法 去年凈利潤(rùn)722億

寧德時(shí)代回應(yīng)車企給電池廠打工說(shuō)法 去年凈利潤(rùn)722億

CNMO科技
2026-04-22 13:28:26
3萬(wàn)股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

3萬(wàn)股東踩雷,今日2家公司被st停牌,其中1家已連續(xù)兩天漲停!

丁丁鯉史紀(jì)
2026-04-22 09:56:54
2026-04-22 18:08:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8088文章數(shù) 562關(guān)注度
往期回顧 全部

科技要聞

對(duì)話梅濤:沒有視頻底座,具身智能走不遠(yuǎn)

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

頭條要聞

特朗普180°轉(zhuǎn)彎延長(zhǎng)?;?伊朗硬剛首次直接回絕談判

體育要聞

網(wǎng)易傳媒再度簽約法國(guó)隊(duì)和阿根廷隊(duì)

娛樂要聞

復(fù)婚無(wú)望!baby黃曉明陪小海綿零交流

財(cái)經(jīng)要聞

伊朗拒絕出席 特朗普宣布延長(zhǎng)停火期限

汽車要聞

純電續(xù)航301km+激光雷達(dá) 宋Pro DM-i飛馳版9.99萬(wàn)起

態(tài)度原創(chuàng)

旅游
藝術(shù)
數(shù)碼
公開課
軍事航空

旅游要聞

四月的諸城茶園,到底能帶來(lái)多少驚喜?

藝術(shù)要聞

無(wú)花不風(fēng)景

數(shù)碼要聞

Beats發(fā)布3米USB-C數(shù)據(jù)線:售229元 最高240W快充

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普宣布延長(zhǎng)?;?伊朗表態(tài)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版