国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

又一國產(chǎn)模型黑馬出世,追平Gemini 2.5 Pro,空間編輯反超視頻模型?

0
分享至


智東西
作者 江宇
編輯 漠影

大廠AI戰(zhàn)局升溫,轉(zhuǎn)型幾乎成為共識。模型在進(jìn)化,Agent在落地,但成本高、落地難、數(shù)據(jù)不夠,行業(yè)還在補(bǔ)課。

而京東在AI上的布局已然聚焦清晰:圍繞供應(yīng)鏈優(yōu)勢,推進(jìn)具身智能,讓AI真正進(jìn)入物理世界。此次推出的一體化圖像模型——JoyAI-Image-Edit,高度適用于生成電商、具身智能訓(xùn)練圖片。

近日,京東開源圖像模型JoyAI-Image-Edit,將空間智能納入圖像理解與編輯,讓AI開始處理真實(shí)世界中的空間關(guān)系,讓模型真正“理解空間,編輯空間”。

簡單解釋,這是一個(gè)以空間智能為核心的圖像生成與編輯模型,讓AI真正“看懂”三維空間,從而讓生成更合理、編輯更精準(zhǔn)。


從公開評測來看,JoyAI-Image-Edit各項(xiàng)指標(biāo)顯著領(lǐng)先,邁進(jìn)了國際第一梯隊(duì)空間理解刷新同量級開源模型SOTA,達(dá)到世界一流水平,大部分指標(biāo)媲美或超越閉源模型 Gemini 2.5 Pro。長文本生成中英文雙語領(lǐng)先,圖像編輯能力全面覆蓋,空間編輯精度甚至超過部分視頻世界模型


智東西也實(shí)測了一番,在物體位置調(diào)整這類場景中,模型能夠穩(wěn)定保持結(jié)構(gòu)一致性。

值得注意的是,此番調(diào)整的物體在畫幅中僅占據(jù)很小比例,且原物體并非形狀規(guī)則,為毛絨材質(zhì),并帶有手部細(xì)節(jié)。即便如此,模型在移動或旋轉(zhuǎn)時(shí)仍能有效減少透視錯(cuò)亂與遮擋問題,畫面整體保持自然。


▲輸入圖與指令(左)、輸出圖(右)

進(jìn)一步看,這類能力的主要落點(diǎn),在電商內(nèi)容生產(chǎn)與具身智能訓(xùn)練這兩類場景尤為適配,進(jìn)而也能延展到建筑設(shè)計(jì)、游戲開發(fā)和影視制作等場景。電商和具身,恰好與京東現(xiàn)有的AI布局形成了直接呼應(yīng)。

一、把“空間智能”寫進(jìn)模型:從“會改圖”到“會動空間”,圖像編輯能力開始分層

傳統(tǒng)圖像編輯模型的短板集中在空間層。語義能跟上,但空間關(guān)系容易崩,例如替換物體、修改姿態(tài)時(shí),常出現(xiàn)比例失真、遮擋錯(cuò)誤、光影不一致等問題,本質(zhì)是缺乏幾何層面的理解能力。

JoyAI-Image-Edit則把“空間編輯”單獨(dú)拉出來做能力核心。模型在支持15類通用編輯任務(wù)之外,進(jìn)一步支持物體移動、旋轉(zhuǎn)、視角變換等空間級操作,并可理解“移動0.3米”“旋轉(zhuǎn)45度”等具備明確幾何參數(shù)的指令,讓編輯過程具備“可控性”。


在能力結(jié)構(gòu)上,模型還采用MLLM+VAE+擴(kuò)散模型(MMDiT)的統(tǒng)一架構(gòu)。


具體來說,MLLM負(fù)責(zé)空間理解與語義建模,擴(kuò)散模型執(zhí)行生成與編輯,空間信息直接參與生成過程,形成“理解—生成—再理解”的循環(huán)。

空間能力是怎么提升起來的?答案在于數(shù)據(jù)體系的重構(gòu)——包括300萬規(guī)模的OpenSpatial-3M數(shù)據(jù)集、多視角生成數(shù)據(jù),以及可記錄精確位姿參數(shù)的空間編輯數(shù)據(jù)。這些數(shù)據(jù)引導(dǎo)模型在訓(xùn)練階段學(xué)習(xí)真實(shí)幾何關(guān)系。


得益于這種設(shè)計(jì),在2D語義感知、3D空間理解、4D時(shí)空推理三個(gè)層級共13項(xiàng)Benchmark上,JoyAI-Image-Edit在9項(xiàng)空間理解Benchmark上均取得顯著提升,平均分達(dá)到64.4,追平閉源的Gemini-2.5-Pro。


在SpatialEdit-Bench上,JoyAI-Image-Edit的空間編輯能力表現(xiàn)尤為突出:Object Overall Score為0.649、Camera Overall Score為0.571,大幅領(lǐng)先所有圖像編輯模型,空間編輯精度超越Veo3.1、ViduQ2-Turbo和Kling等視頻世界模型。

與此同時(shí),在業(yè)界權(quán)威的榜單GEdit(偏向中文指令評測和真實(shí)用戶需求)和ImgEdit(偏向全面覆蓋的能力評測,強(qiáng)調(diào)推理和精細(xì)化編輯能力)上,JoyAI-Image-Edit得分分別為8.27和4.57,刷新開源圖像編輯模型SOTA


▲在249道評測集黑盒人工評測成績:JoyAI-Image-Edit表現(xiàn)優(yōu)于Qwen-Image-Edit-2511以及Flux2.Dev


由此可見,將空間理解、生成和編輯整合在同一體系,可以使模型不僅知道“畫什么”,還知道“物體在什么位置、如何變化、是否合理”。

當(dāng)圖像可以被真正“操作”,而不只是簡單修改時(shí),圖像模型的能力邊界也隨之被重新定義。

二、電商+具身場景高可用,空間能力開始直接“變現(xiàn)”

空間能力成立以后,最先吃到紅利的,就是最依賴“真實(shí)世界”的場景

電商領(lǐng)域,商品多視角生成、虛擬試衣、商品擺位調(diào)整等任務(wù)對空間一致性要求極高。

JoyAI-Image-Edit的空間編輯能力——可以移動物體、旋轉(zhuǎn)角度、調(diào)整視角,并理解具體幾何參數(shù)——在電商場景下帶來了非常直觀的應(yīng)用價(jià)值。

比如服飾和鞋類商品,經(jīng)常需要展示不同角度、姿態(tài)或搭配組合。使用該模型,可以在原始圖片基礎(chǔ)上一鍵調(diào)整衣服折疊角度、鞋子擺放方向或包包手持位置,生成多角度素材,同時(shí)保持整體比例、光影和背景一致。


▲輸入圖(左)、輸出圖(右)、指令:Rotate the sneaker to show the front view

類似地,對于家電、家具或小型電子產(chǎn)品,空間編輯可讓商品在不同場景下“自動換位”或旋轉(zhuǎn)展示,如沙發(fā)在不同房間角度、咖啡機(jī)在不同臺面布局,無需重拍,就能生成多角度素材。


結(jié)合模型的通用編輯能力,還可以同時(shí)進(jìn)行文字標(biāo)注、色彩微調(diào)和背景修飾等“一鍵精修”式功能,實(shí)現(xiàn)一次操作完成多種需求。


這樣,電商團(tuán)隊(duì)能夠快速產(chǎn)出多角度、精修、高可用的商品圖,大幅降低拍攝成本,同時(shí)保證展示效果的統(tǒng)一。

具身智能訓(xùn)練中,這些能力同樣適用。

機(jī)器人依賴大量真實(shí)世界數(shù)據(jù),但采集成本高、周期長。該模型可以生成具備空間一致性的高質(zhì)量圖像數(shù)據(jù),用于補(bǔ)充訓(xùn)練數(shù)據(jù),與真實(shí)采集數(shù)據(jù)形成互補(bǔ),從而提高訓(xùn)練效率和模型效果,輔助解決具身行業(yè)的數(shù)據(jù)難題。

此外,通過生成新視角輔助空間推理(Thinking with Novel Views),模型不僅用于內(nèi)容生產(chǎn),也能反向提升空間理解能力,為機(jī)器人“看懂世界”提供支持


由此可見,無論是電商還是具身智能,本質(zhì)都依賴空間理解能力,而JoyAI-Image-Edit正是最直接落地的工具。

三、開源模型亮相,AI全景布局浮現(xiàn)端倪

這次開源JoyAI-Image-Edit顯然是京東聚焦于走向?qū)嶓w世界這一宏大AI布局的一部分,但通過觀察可以發(fā)現(xiàn),開源并不是它唯一的動作。

除了這一模型,京東不久前還開源了JoyAI-LLM Flash模型,能力上在同等參數(shù)規(guī)模下顯著提升了性能與效率,降低開發(fā)者使用門檻,避免單純的參數(shù)規(guī)模競爭。

與此同時(shí),京東在供應(yīng)鏈和線下場景中的動作也在悄然推進(jìn):一方面,建設(shè)全球最大的具身智能數(shù)據(jù)采集中心,結(jié)合模型生成能力進(jìn)行訓(xùn)練,為數(shù)據(jù)難題提供了新的解法;另一方面,通過JoyInside將AI能力嵌入家電、機(jī)器人、AI玩具終端,讓模型直接落地真實(shí)環(huán)境,和用戶產(chǎn)生大量深度交互。

從開源模型的應(yīng)用和這些場景動作結(jié)合來看,可以明顯感受到京東在模型、數(shù)據(jù)和終端之間嘗試形成閉環(huán)。

開源或許只是早期的一步,而京東在產(chǎn)業(yè)場景中不斷深挖AI實(shí)踐與價(jià)值,則讓我們得以觀察到其AI能力的潛在落地路徑。

結(jié)語:京東一手開源,一手落地

從JoyAI-Image-Edit這次開源動作可以看到,京東在AI上的選擇很明確:一手開源,一手落地。

在模型側(cè),持續(xù)開放能力,把門檻降下來,讓更多開發(fā)者可以直接用起來;在場景側(cè),把AI嵌入供應(yīng)鏈、物理世界、真實(shí)產(chǎn)業(yè)場景,從數(shù)據(jù)、模型到終端形成閉環(huán),讓能力在真實(shí)環(huán)境中跑通。

可見,京東的AI戰(zhàn)略更為務(wù)實(shí)。

供應(yīng)鏈?zhǔn)蔷〇|最硬的一張牌。在AI時(shí)代,這張牌的價(jià)值進(jìn)一步放大——模型可以嵌入商品、物流與設(shè)備,數(shù)據(jù)可以持續(xù)回流,能力可以不斷迭代。

在今天,AI有望成為京東的另一張“增長引擎牌”。

注:文中部分輸入圖來源于Arena

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
布倫特福德盯上蒂亞戈:34歲老將成夏窗香餑餑

布倫特福德盯上蒂亞戈:34歲老將成夏窗香餑餑

綠茵狂熱者
2026-04-10 21:39:20
山西輸球!全隊(duì)拒回更衣室!球員努力球隊(duì)掙扎,向潘江提五個(gè)問題

山西輸球!全隊(duì)拒回更衣室!球員努力球隊(duì)掙扎,向潘江提五個(gè)問題

理工男評籃球
2026-04-09 22:29:23
19歲科特迪瓦鋒線神童橫空出世,身價(jià)飛漲到1億歐,3大豪門瘋搶

19歲科特迪瓦鋒線神童橫空出世,身價(jià)飛漲到1億歐,3大豪門瘋搶

零度眼看球
2026-04-10 09:41:01
55歲上海炒股冠軍罕見發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

55歲上海炒股冠軍罕見發(fā)聲:吃透“月線+周線+日線”掙得懷疑人生

股經(jīng)縱橫談
2026-04-06 11:57:45
2-1險(xiǎn)勝19歲巴西新星,茲維列夫晉級ATP1000蒙特卡洛大師賽4強(qiáng)

2-1險(xiǎn)勝19歲巴西新星,茲維列夫晉級ATP1000蒙特卡洛大師賽4強(qiáng)

側(cè)身凌空斬
2026-04-10 20:11:39
馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

馬面女孩吳小燕:毛巾蒙面13年,手術(shù)取出2公斤異物后過得怎樣了

小熊侃史
2025-12-25 11:27:42
先導(dǎo)智能,訂單爆了!

先導(dǎo)智能,訂單爆了!

飛鯨投研
2026-04-10 18:27:40
德比慘敗張慶鵬真臥底!邊緣化張帆+孟子凱,進(jìn)攻無戰(zhàn)術(shù),防守為0

德比慘敗張慶鵬真臥底!邊緣化張帆+孟子凱,進(jìn)攻無戰(zhàn)術(shù),防守為0

籃球資訊達(dá)人
2026-04-10 22:21:36
佩斯科夫:俄總統(tǒng)代表正在訪美,就恢復(fù)雙方經(jīng)濟(jì)合作保持接觸

佩斯科夫:俄總統(tǒng)代表正在訪美,就恢復(fù)雙方經(jīng)濟(jì)合作保持接觸

界面新聞
2026-04-10 18:46:50
又開打了!阿聯(lián)酋不宣而戰(zhàn),炸伊朗煉油廠,  把波斯灣攪成一鍋粥

又開打了!阿聯(lián)酋不宣而戰(zhàn),炸伊朗煉油廠, 把波斯灣攪成一鍋粥

愛吃醋的貓咪
2026-04-10 21:34:57
鄭麗文在北京,有重大表態(tài),賴清德急了,盧秀燕蔣萬安回應(yīng)亮了

鄭麗文在北京,有重大表態(tài),賴清德急了,盧秀燕蔣萬安回應(yīng)亮了

小陸搞笑日常
2026-04-10 15:33:56
俄媒這句話直接封神,“只有把中國惹急了,世界才會安靜?!?>
    </a>
        <h3>
      <a href=流史歲月
2026-04-09 13:55:03
外賣小哥新裝備!曝美團(tuán)順豐批量入手華為暢享90系列

外賣小哥新裝備!曝美團(tuán)順豐批量入手華為暢享90系列

CNMO科技
2026-04-10 15:53:05
俄上萬億高鐵項(xiàng)目,不用中國高鐵技術(shù),采用錫納拉集團(tuán),現(xiàn)在怎樣

俄上萬億高鐵項(xiàng)目,不用中國高鐵技術(shù),采用錫納拉集團(tuán),現(xiàn)在怎樣

蜉蝣說
2026-04-10 18:08:49
卡拉格預(yù)測世界杯小組賽:巴西小組第二;日本力壓瑞典出線

卡拉格預(yù)測世界杯小組賽:巴西小組第二;日本力壓瑞典出線

懂球帝
2026-04-10 15:52:09
打爆了勇士內(nèi)線!如今湖人必須要給先發(fā)中鋒提供足夠的支持才行?

打爆了勇士內(nèi)線!如今湖人必須要給先發(fā)中鋒提供足夠的支持才行?

稻谷與小麥
2026-04-10 22:25:32
北京足協(xié):對中青賽U10組涉假球兩隊(duì)主帥進(jìn)行市內(nèi)永久禁足處罰

北京足協(xié):對中青賽U10組涉假球兩隊(duì)主帥進(jìn)行市內(nèi)永久禁足處罰

懂球帝
2026-04-10 13:02:58
古力娜扎:真空上陣是放飛自我還是資本博弈?

古力娜扎:真空上陣是放飛自我還是資本博弈?

娛樂領(lǐng)航家
2026-04-02 21:00:03
為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

古史青云啊
2026-04-07 14:52:09
荒唐!貓王一生睡遍3000女人,42歲慘死臥室,內(nèi)褲褪到大腿根

荒唐!貓王一生睡遍3000女人,42歲慘死臥室,內(nèi)褲褪到大腿根

七阿姨愛八卦
2026-04-04 18:04:16
2026-04-10 22:39:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報(bào)道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11554文章數(shù) 117026關(guān)注度
往期回顧 全部

數(shù)碼要聞

三星中國被曝大調(diào)整:黑白電、顯示器淡出市場 保留手機(jī)和存儲業(yè)務(wù)

頭條要聞

與內(nèi)塔尼亞胡通話后 特朗普改口了

頭條要聞

與內(nèi)塔尼亞胡通話后 特朗普改口了

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認(rèn)戀情!聚會細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開經(jīng)濟(jì)形勢專家和企業(yè)家座談會

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

藝術(shù)
游戲
教育
本地
健康

藝術(shù)要聞

于小冬2026年4月油畫新作《花季》

越挖越有料!玩家70小時(shí)才發(fā)現(xiàn)《紅色沙漠》驚人細(xì)節(jié)

教育要聞

北京教改風(fēng)向標(biāo)!海淀這所優(yōu)質(zhì)校正在交出“新樣本”

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

無障礙瀏覽 進(jìn)入關(guān)懷版