国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

又一國產(chǎn)模型黑馬出世,追平Gemini 2.5 Pro,空間編輯反超視頻模型?

0
分享至


智東西
作者 江宇
編輯 漠影

大廠AI戰(zhàn)局升溫,轉(zhuǎn)型幾乎成為共識。模型在進化,Agent在落地,但成本高、落地難、數(shù)據(jù)不夠,行業(yè)還在補課。

而京東在AI上的布局已然聚焦清晰:圍繞供應(yīng)鏈優(yōu)勢,推進具身智能,讓AI真正進入物理世界。此次推出的一體化圖像模型——JoyAI-Image-Edit,高度適用于生成電商、具身智能訓(xùn)練圖片。

近日,京東開源圖像模型JoyAI-Image-Edit,將空間智能納入圖像理解與編輯,讓AI開始處理真實世界中的空間關(guān)系,讓模型真正“理解空間,編輯空間”。

簡單解釋,這是一個以空間智能為核心的圖像生成與編輯模型,讓AI真正“看懂”三維空間,從而讓生成更合理、編輯更精準。


從公開評測來看,JoyAI-Image-Edit各項指標顯著領(lǐng)先,邁進了國際第一梯隊空間理解刷新同量級開源模型SOTA,達到世界一流水平,大部分指標媲美或超越閉源模型 Gemini 2.5 Pro。長文本生成中英文雙語領(lǐng)先,圖像編輯能力全面覆蓋,空間編輯精度甚至超過部分視頻世界模型。


智東西也實測了一番,在物體位置調(diào)整這類場景中,模型能夠穩(wěn)定保持結(jié)構(gòu)一致性。

值得注意的是,此番調(diào)整的物體在畫幅中僅占據(jù)很小比例,且原物體并非形狀規(guī)則,為毛絨材質(zhì),并帶有手部細節(jié)。即便如此,模型在移動或旋轉(zhuǎn)時仍能有效減少透視錯亂與遮擋問題,畫面整體保持自然。


▲輸入圖與指令(左)、輸出圖(右)

進一步看,這類能力的主要落點,在電商內(nèi)容生產(chǎn)與具身智能訓(xùn)練這兩類場景尤為適配,進而也能延展到建筑設(shè)計、游戲開發(fā)和影視制作等場景。電商和具身,恰好與京東現(xiàn)有的AI布局形成了直接呼應(yīng)。

一、把“空間智能”寫進模型:從“會改圖”到“會動空間”,圖像編輯能力開始分層

傳統(tǒng)圖像編輯模型的短板集中在空間層。語義能跟上,但空間關(guān)系容易崩,例如替換物體、修改姿態(tài)時,常出現(xiàn)比例失真、遮擋錯誤、光影不一致等問題,本質(zhì)是缺乏幾何層面的理解能力。

JoyAI-Image-Edit則把“空間編輯”單獨拉出來做能力核心。模型在支持15類通用編輯任務(wù)之外,進一步支持物體移動、旋轉(zhuǎn)、視角變換等空間級操作,并可理解“移動0.3米”“旋轉(zhuǎn)45度”等具備明確幾何參數(shù)的指令,讓編輯過程具備“可控性”。


在能力結(jié)構(gòu)上,模型還采用MLLM+VAE+擴散模型(MMDiT)的統(tǒng)一架構(gòu)。


具體來說,MLLM負責(zé)空間理解與語義建模,擴散模型執(zhí)行生成與編輯,空間信息直接參與生成過程,形成“理解—生成—再理解”的循環(huán)。

空間能力是怎么提升起來的?答案在于數(shù)據(jù)體系的重構(gòu)——包括300萬規(guī)模的OpenSpatial-3M數(shù)據(jù)集、多視角生成數(shù)據(jù),以及可記錄精確位姿參數(shù)的空間編輯數(shù)據(jù)。這些數(shù)據(jù)引導(dǎo)模型在訓(xùn)練階段學(xué)習(xí)真實幾何關(guān)系。


得益于這種設(shè)計,在2D語義感知、3D空間理解、4D時空推理三個層級共13項Benchmark上,JoyAI-Image-Edit在9項空間理解Benchmark上均取得顯著提升,平均分達到64.4,追平閉源的Gemini-2.5-Pro。


在SpatialEdit-Bench上,JoyAI-Image-Edit的空間編輯能力表現(xiàn)尤為突出:Object Overall Score為0.649、Camera Overall Score為0.571,大幅領(lǐng)先所有圖像編輯模型,空間編輯精度超越Veo3.1、ViduQ2-Turbo和Kling等視頻世界模型。

與此同時,在業(yè)界權(quán)威的榜單GEdit(偏向中文指令評測和真實用戶需求)和ImgEdit(偏向全面覆蓋的能力評測,強調(diào)推理和精細化編輯能力)上,JoyAI-Image-Edit得分分別為8.27和4.57,刷新開源圖像編輯模型SOTA。


▲在249道評測集黑盒人工評測成績:JoyAI-Image-Edit表現(xiàn)優(yōu)于Qwen-Image-Edit-2511以及Flux2.Dev


由此可見,將空間理解、生成和編輯整合在同一體系,可以使模型不僅知道“畫什么”,還知道“物體在什么位置、如何變化、是否合理”。

當圖像可以被真正“操作”,而不只是簡單修改時,圖像模型的能力邊界也隨之被重新定義。

二、電商+具身場景高可用,空間能力開始直接“變現(xiàn)”

空間能力成立以后,最先吃到紅利的,就是最依賴“真實世界”的場景。

電商領(lǐng)域,商品多視角生成、虛擬試衣、商品擺位調(diào)整等任務(wù)對空間一致性要求極高。

JoyAI-Image-Edit的空間編輯能力——可以移動物體、旋轉(zhuǎn)角度、調(diào)整視角,并理解具體幾何參數(shù)——在電商場景下帶來了非常直觀的應(yīng)用價值。

比如服飾和鞋類商品,經(jīng)常需要展示不同角度、姿態(tài)或搭配組合。使用該模型,可以在原始圖片基礎(chǔ)上一鍵調(diào)整衣服折疊角度、鞋子擺放方向或包包手持位置,生成多角度素材,同時保持整體比例、光影和背景一致。


▲輸入圖(左)、輸出圖(右)、指令:Rotate the sneaker to show the front view

類似地,對于家電、家具或小型電子產(chǎn)品,空間編輯可讓商品在不同場景下“自動換位”或旋轉(zhuǎn)展示,如沙發(fā)在不同房間角度、咖啡機在不同臺面布局,無需重拍,就能生成多角度素材。


結(jié)合模型的通用編輯能力,還可以同時進行文字標注、色彩微調(diào)和背景修飾等“一鍵精修”式功能,實現(xiàn)一次操作完成多種需求。


這樣,電商團隊能夠快速產(chǎn)出多角度、精修、高可用的商品圖,大幅降低拍攝成本,同時保證展示效果的統(tǒng)一。

具身智能訓(xùn)練中,這些能力同樣適用。

機器人依賴大量真實世界數(shù)據(jù),但采集成本高、周期長。該模型可以生成具備空間一致性的高質(zhì)量圖像數(shù)據(jù),用于補充訓(xùn)練數(shù)據(jù),與真實采集數(shù)據(jù)形成互補,從而提高訓(xùn)練效率和模型效果,輔助解決具身行業(yè)的數(shù)據(jù)難題。

此外,通過生成新視角輔助空間推理(Thinking with Novel Views),模型不僅用于內(nèi)容生產(chǎn),也能反向提升空間理解能力,為機器人“看懂世界”提供支持。


由此可見,無論是電商還是具身智能,本質(zhì)都依賴空間理解能力,而JoyAI-Image-Edit正是最直接落地的工具。

三、開源模型亮相,AI全景布局浮現(xiàn)端倪

這次開源JoyAI-Image-Edit顯然是京東聚焦于走向?qū)嶓w世界這一宏大AI布局的一部分,但通過觀察可以發(fā)現(xiàn),開源并不是它唯一的動作。

除了這一模型,京東不久前還開源了JoyAI-LLM Flash模型,能力上在同等參數(shù)規(guī)模下顯著提升了性能與效率,降低開發(fā)者使用門檻,避免單純的參數(shù)規(guī)模競爭。

與此同時,京東在供應(yīng)鏈和線下場景中的動作也在悄然推進:一方面,建設(shè)全球最大的具身智能數(shù)據(jù)采集中心,結(jié)合模型生成能力進行訓(xùn)練,為數(shù)據(jù)難題提供了新的解法;另一方面,通過JoyInside將AI能力嵌入家電、機器人、AI玩具終端,讓模型直接落地真實環(huán)境,和用戶產(chǎn)生大量深度交互。

從開源模型的應(yīng)用和這些場景動作結(jié)合來看,可以明顯感受到京東在模型、數(shù)據(jù)和終端之間嘗試形成閉環(huán)。

開源或許只是早期的一步,而京東在產(chǎn)業(yè)場景中不斷深挖AI實踐與價值,則讓我們得以觀察到其AI能力的潛在落地路徑。

結(jié)語:京東一手開源,一手落地

從JoyAI-Image-Edit這次開源動作可以看到,京東在AI上的選擇很明確:一手開源,一手落地。

在模型側(cè),持續(xù)開放能力,把門檻降下來,讓更多開發(fā)者可以直接用起來;在場景側(cè),把AI嵌入供應(yīng)鏈、物理世界、真實產(chǎn)業(yè)場景,從數(shù)據(jù)、模型到終端形成閉環(huán),讓能力在真實環(huán)境中跑通。

可見,京東的AI戰(zhàn)略更為務(wù)實。

供應(yīng)鏈是京東最硬的一張牌。在AI時代,這張牌的價值進一步放大——模型可以嵌入商品、物流與設(shè)備,數(shù)據(jù)可以持續(xù)回流,能力可以不斷迭代。

在今天,AI有望成為京東的另一張“增長引擎牌”。

注:文中部分輸入圖來源于Arena

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
巴基斯坦大批預(yù)警機升空,給以色列上了一課:中方顯然背后指點了

巴基斯坦大批預(yù)警機升空,給以色列上了一課:中方顯然背后指點了

安安說
2026-04-11 11:30:55
A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

A股:股民做好準備了,下周一,4月13日,很可能將迎來更大的轉(zhuǎn)變

虎哥閑聊
2026-04-11 09:19:16
俄軍坦言被炸得心驚膽戰(zhàn):烏克蘭啟用AI自殺無人機,自發(fā)收割目標

俄軍坦言被炸得心驚膽戰(zhàn):烏克蘭啟用AI自殺無人機,自發(fā)收割目標

日新現(xiàn)場
2026-04-09 14:50:23
賴清德收到了“參會通知”,一看身份欄那行標注當場破防:不去!

賴清德收到了“參會通知”,一看身份欄那行標注當場破防:不去!

聞識
2026-04-10 15:56:38
"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續(xù)持有價值百萬

"我不要活了!"上海一阿婆崩潰,買了近30年的保險全被退!警方:若繼續(xù)持有價值百萬

臺州交通廣播
2026-04-09 22:32:54
中國學(xué)霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

中國學(xué)霸赴美淪為妓女,嫁給白人賭鬼,說美國是世界上最棒的國家

蕭鮖記錄風(fēng)土人情
2026-04-09 19:33:39
我在朝鮮買了瓶啤酒,掏出手機那一刻,服務(wù)員看我的眼神都變了!

我在朝鮮買了瓶啤酒,掏出手機那一刻,服務(wù)員看我的眼神都變了!

天下霸奇
2026-04-10 09:06:32
福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

有范又有料
2026-04-10 18:23:21
黃景瑜王玉雯戀情被曝光?兩人被拍到進入飯局,隨后一起到酒店,直到天亮了也沒離開。

黃景瑜王玉雯戀情被曝光?兩人被拍到進入飯局,隨后一起到酒店,直到天亮了也沒離開。

貼小君
2026-04-10 13:26:42
國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

國臺辦果然沒看錯,鄭麗文真面目被徹底揭露!小算盤到此為止了

比利
2026-01-23 12:41:53
嫁富二代明星后,她住進北京豪宅,開勞斯萊斯,如今40歲又懷3胎

嫁富二代明星后,她住進北京豪宅,開勞斯萊斯,如今40歲又懷3胎

不似少年游
2026-04-10 22:23:54
怕遭中方報復(fù)?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

怕遭中方報復(fù)?巴拿馬搶在賠款前,主動放低姿態(tài),李嘉誠全面清倉

小俎娛樂
2026-04-11 06:39:16
伊朗僅用三天搶通遭美以襲擊的鐵路橋

伊朗僅用三天搶通遭美以襲擊的鐵路橋

極目新聞
2026-04-11 09:16:25
國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

國乒用人失誤!剛公布世乒賽陣容就出問題,鄧亞萍卻點出王皓無奈

三十年萊斯特城球迷
2026-04-10 21:16:39
WTT太原站最新賽程出爐,林詩棟沖冠,溫瑞博出戰(zhàn),石洵瑤一天3賽

WTT太原站最新賽程出爐,林詩棟沖冠,溫瑞博出戰(zhàn),石洵瑤一天3賽

球盲百小易
2026-04-11 00:10:50
男人開口問你要這樣?xùn)|西,證明他多半是有坑的

男人開口問你要這樣?xùn)|西,證明他多半是有坑的

冷愛
2026-04-09 15:22:19
張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬元將捐給嫣然天使基金,張雪:標哥捐了,我不捐不好意思

極目新聞
2026-04-10 20:58:02
鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

鄭麗文的婚姻:女主外男主內(nèi),不生育孩子,事業(yè)理想置于家庭之上

芳芳歷史燴
2026-04-08 16:28:15
“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

“留學(xué)回來,15次相親失敗”,杭州女孩被拆穿:連繁殖能力都沒有

千言娛樂記
2026-04-09 09:17:50
李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

李亞鵬心疼張雪拍賣獎杯:已找朋友拍下送回去

快科技
2026-04-10 11:26:09
2026-04-11 12:11:00
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
11555文章數(shù) 117026關(guān)注度
往期回顧 全部

數(shù)碼要聞

壹號本ONEXStation迷你AI工作站上架:128GB + 1TB,18999元

頭條要聞

"遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

頭條要聞

"遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

浪姐7淘汰 該走的沒走,不該走的走了

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

科技要聞

阿爾忒彌斯2號成功濺落,隔熱罩驚險過關(guān)

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

時尚
藝術(shù)
本地
教育
手機

推廣中獎名單-更新至2026年3月31日推廣

藝術(shù)要聞

17位當代青年畫家油畫欣賞

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

電氣專業(yè)直接就業(yè)還是考研?

手機要聞

橙色版OPPO Find X9 Ultra手機渲染圖曝光

無障礙瀏覽 進入關(guān)懷版