国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)硅谷轉(zhuǎn)向「世界模型」,中國視頻公司選擇先把錢賺了丨對話 Sand.ai

0
分享至


這家兩個月達成千萬美金 ARR 的團隊,認為音樂才是 AI 視頻的入口。


整理|曹思頎

采訪|張鵬 曹思頎

2026 年,在以 OpenClaw 為代表的 Agentic AI 成為整個 AI 圈「超級共識」的同時,視頻模型卻開始走向另一種分化。

在美國,OpenAI 已關(guān)閉 Sora 的獨立產(chǎn)品形態(tài),視頻生成在其當(dāng)前優(yōu)先級里明顯后撤;Runway、Luma AI 等創(chuàng)業(yè)公司也開始把敘事的中心轉(zhuǎn)向「世界模型」。

而國內(nèi)則呈現(xiàn)另一番景象:視頻模型正在成為大廠下一階段必爭的多模態(tài)能力。無論是字節(jié)旗下的即夢,還是快手旗下的可靈,這類視頻生成產(chǎn)品正在從大眾娛樂場景,進一步滲透進付費意愿更強的專業(yè)創(chuàng)作者群體。

Sand.ai 是這輪分化里一個值得觀察的創(chuàng)業(yè)樣本。他們的核心產(chǎn)品 VidMuse 主打「Music in,Video Out」的產(chǎn)品形態(tài),把音頻放到產(chǎn)品最核心的輸入位置。據(jù)了解,VidMuse 自年初上線以來,ARR(年度經(jīng)常性收入)已超千萬美金。

近期,Sand.ai 宣布完成了新一輪約 5000 萬美元的融資,極客公園也和 Sand.ai 創(chuàng)始人曹越、VidMuse 產(chǎn)品負責(zé)人張子賀 Zake 進行了當(dāng)面溝通。在 Sand.ai 看來,音樂的重要性并不因為它對應(yīng)某一類內(nèi)容或用戶,而在于它可能成為 AI 時代視頻創(chuàng)作更底層的輸入起點,也天然連接著更強的創(chuàng)作意愿。

與此同時,Sand.ai 還堅定地選擇了既做產(chǎn)品又做模型的「雙輪驅(qū)動」路徑:先用市場上效果最好的模型為產(chǎn)品找到 PMF,再用自家的模型回到關(guān)鍵節(jié)點換效果、換成本、換毛利。無論從精力、能力還是資源上看,這都不是一條輕松的路。但在曹越看來,這恰恰是創(chuàng)業(yè)公司相對巨頭的一種優(yōu)勢:在這里,模型和產(chǎn)品更容易服務(wù)于同一個目標(biāo),而不會彼此分裂。

而這條路徑真正指向的,不只是一個更強的視頻生成工具,而是一個能夠長期協(xié)作的「數(shù)字制片團隊」。在 Video Agent 這種新的產(chǎn)品形態(tài)下,用戶更像一個「出資方」:不再需要充當(dāng)導(dǎo)演反復(fù) prompt 獎戲,而是可以把創(chuàng)作目標(biāo)安心托付給一個能夠長期信賴、持續(xù)調(diào)用的創(chuàng)作伙伴。

以下是整理后的訪談內(nèi)容:

01

視頻模型生成的「中美分野」

極客公園:你們關(guān)注到最近很火那個 HappyHorse 了嗎?

曹越:看到了,還挺有意思的,好多人拿推特上一個分析的帖子來問這個是不是我們的模型。我后來發(fā)現(xiàn),是有個網(wǎng)站上面就直接把我們 Magihuman tech report(Sand.ai 最新開源的模型)內(nèi)容轉(zhuǎn)成網(wǎng)頁,名字是 HappyHorse。(笑)不過我們的新模型在訓(xùn)練中,會盡快推出,很大概率會直接開源出來,希望整個行業(yè)一起加速推動。

極客公園:所以是個 fake news。但最近你們一邊內(nèi)測新產(chǎn)品 VidMuse 2.0,一邊開源了一個基模,在外部看來是個有點反共識的決定。今天大家都在強調(diào)商業(yè)化和閉源,你們?yōu)槭裁催x擇開源?

曹越:我覺得開源的本質(zhì)之一是提升品牌價值,有的時候也能夠降低獲客成本。比如 DeepSeek-R1 那次開源,大家一開始也未必能想到帶來了那么好的效果,起到了很好的作用。

對我們來說,去年 4 月我們發(fā)布 Magi-1 的時候,就開源了那個模型,算是最早開始探索世界模型的團隊吧,Magi-1是自回歸視頻基礎(chǔ)模型。子賀當(dāng)時還在北歐讀書,也是看到這個開源模型之后找到我們的。

極客公園:今天很多投資機構(gòu)也是在 GitHub 上通過開源項目找創(chuàng)業(yè)者。所以視頻模型這個賽道,今天發(fā)展到了什么階段?

曹越:這件事已經(jīng)進入了一個「節(jié)奏分化」的階段:有些方向會先成熟,有些方向會更晚成熟。現(xiàn)在最明確已經(jīng)成立的,是用視頻模型來替代實拍。

過去如果要做一段內(nèi)容,需要租場地、燈光、演員,再進入拍攝流程;現(xiàn)在則越來越多地變成「寫好 prompt,點擊生成」。這一能力首先服務(wù)的是一群本來就在做內(nèi)容生產(chǎn)的專業(yè)創(chuàng)作者,幫助他們替代過去的實拍環(huán)節(jié)。

因此,現(xiàn)階段最成熟的不是泛娛樂消費,而是有明確目標(biāo)的內(nèi)容生產(chǎn)。隨著模型能力變強,這部分創(chuàng)作者使用 AI 的比例在持續(xù)提高,而且這類人本來就有生產(chǎn)需求、也更愿意付費。過去接近兩年里,可靈、Runway、Seedance 的增長,都是建立在這類場景之上,典型應(yīng)用包括短視頻內(nèi)容、廣告電商、短劇等泛內(nèi)容生產(chǎn)。

極客公園:中美對待視頻模型的整體態(tài)度,有什么不同?

曹越:我認為,中美團隊的差異實質(zhì)上來自過去十年的產(chǎn)業(yè)和產(chǎn)品環(huán)境不同。

在北美,過去十年 C 端的大錢更多被 Meta 這樣的巨頭拿走,真正以 C 端產(chǎn)品為核心的創(chuàng)業(yè)公司相對少,因此大量創(chuàng)業(yè)公司更習(xí)慣在 ToB SaaS 上掙錢。

而過去十年,微信、短視頻等產(chǎn)品形態(tài)是中國最熱的產(chǎn)品,因此整個市場對 ToC 場景的感知更強。所以,在視頻生成這件事上,中國公司會更重視它的價值,也更相信它能很快產(chǎn)生商業(yè)回報。

某種程度上,我理解 OpenAI 停掉 Sora,可以看成把更多算力資源傾斜到了 coding 這個方向。相較之下,中國公司看起來更重視視頻生成,因為它已經(jīng)是除 coding 之外最明確的大場景之一,而且商業(yè)價值也更容易被驗證。


Sand.ai 創(chuàng)始人曹越,此前曾任光年之外聯(lián)合創(chuàng)始人 | 圖片由受訪者提供

極客公園:具體到大公司和創(chuàng)業(yè)者,他們都做了什么?你有關(guān)注美國那邊 Runway 最近的動作嗎?

曹越:我們其實沒有特別關(guān)注 Runway。因為看起來,他們在「面向創(chuàng)作者的純視頻生成」產(chǎn)品層面,似乎沒有再進行特別大規(guī)模的投入,整體敘事越來越偏向「世界模型」,包括 Luma AI 也是這樣的。相比繼續(xù)強化產(chǎn)品,美國的創(chuàng)業(yè)者更聚焦在強化模型,以及模型繼續(xù)演進的方向。

極客公園:所以他們是「弱化產(chǎn)品、強化模型」?

曹越:對,硅谷我認為是這個趨勢。

在中國,產(chǎn)品則會更快地進入商業(yè)化階段。以 Seedance、可靈為代表,中國的視頻模型可以更快實現(xiàn)付費的閉環(huán)。不過,雖然在語言模型上,國內(nèi)和國際最領(lǐng)先水平仍有 gap,但在視頻這個方向上,我認為中國公司的模型能力已經(jīng)處在世界第一梯隊了,這也是它們更容易率先把商業(yè)場景打出來的原因。

02

為數(shù)不多的技術(shù)共識:

音畫同出、多鏡頭敘事

極客公園:視頻模型的技術(shù)路線,今天收斂了嗎?

曹越:沒有收斂。至少現(xiàn)在還沒出現(xiàn)像語言模型里 coding 那樣,所有人都必須死磕、不能落后的統(tǒng)一方向。

目前視頻模型的競爭,更像是不同團隊在不同方向上做強化選擇。例如多鏡頭敘事這件事,目前 Seedance 是處于領(lǐng)先地位的,但我們認為這并不來自不可復(fù)制的絕對技術(shù)壁壘,更是「更早選擇了這個方向,并更早把它做好」的判斷,從而獲得了大約三個月左右的領(lǐng)先周期。

其實,從過去兩三年模型能力的進展看,一家公司做出的能力,其他公司往往會在很短時間內(nèi)跟進,快則兩三個月,慢則三到六個月。所以,競爭核心不完全是長期技術(shù)壁壘,也包括階段性的判斷和選擇。

極客公園:那么過去一年,視頻模型層面最關(guān)鍵的技術(shù)突破是什么?

曹越:我認為是音畫同出和多鏡頭敘事。

Google Veo 3 是最早做出音畫同出的模型之一,我們后來也很快跟進了。它的關(guān)鍵價值在于:人物的基礎(chǔ)表演會變得更細膩、更逼真,尤其是口型、聲音、動作之間的同步,會讓人物看起來沒那么像一個 AI 合成的人,而更像真實表演。

極客公園:那多鏡頭敘事呢?

曹越:多鏡頭敘事的重要性,其實更多是在它被做出來之后,行業(yè)內(nèi)才突然意識到。因為它顯著提升了敘事型視頻的質(zhì)量和真實感。

如果只是單鏡頭生成,即便畫面本身很好,人依然會隱約覺得「不太對勁」。因為人天然生活在 3D 空間里,對空間是否真實有非常敏銳的感受。多鏡頭敘事能在一段短視頻里,讓同一個場景從不同視角被表現(xiàn)出來。比如先從一個角度拍一個人說話,再切到另一個角度拍另一個人回應(yīng)。這樣一來,觀眾會迅速建立起對這個場景的空間感,整體也就顯得更真實、更舒服。

另外,現(xiàn)實世界里本來就存在大量天然對齊的信息。畫面和聲音是對齊的;同一個空間里的不同視角也是對齊的。過去如果模型只處理單鏡頭、無聲音的內(nèi)容,其實就等于沒有利用這些現(xiàn)實中天然存在的信息。一旦把這些不同維度的信息一起灌進同一個模型里,生成效果就會顯著提高。

極客公園:聽起來是一個不斷升維的過程,從靜態(tài)畫面,到動態(tài)畫面加聲音,再到同一空間內(nèi)的多視角表達,能力是一層層往上疊加的。疊到某個臨界點后,用戶才會突然覺得「這個東西真能用了」。

曹越:這其實就是多模態(tài)的本質(zhì):把物理世界里原本已經(jīng)對齊的信息,用同一個模型統(tǒng)一起來。

極客公園:視頻模型領(lǐng)域,會不會出現(xiàn)一個類似 coding 之于語言模型那種「皇冠上的明珠」?如果會,它是什么?

曹越:如果現(xiàn)在就讓我給一個已經(jīng)完全收斂的答案,我覺得還沒有。但我認為視頻模型下一步非常關(guān)鍵的方向,很可能是更強的上下文理解、thinking,以及由此帶來的更細膩的表演能力。

今天的模型已經(jīng)能做到一部分事情。比如你給一張照片,再給一個比較具體的描述,它已經(jīng)可以讓這個人帶著某種情緒去說一段臺詞,而且畫面和聲音是一起生成的,所以對齊度會比較高,你會覺得它比較真。

但這還只是比較粗的層面。如果想要更細膩地表達一段音畫同出的內(nèi)容,我覺得模型需要的不是更簡單的一對一映射,而是 thinking。也就是它看到一整段 prompt 之后,不是直接把「憤怒地說」映射成一個表情,而是先理解上下文:這個角色是誰,之前發(fā)生了什么,這個場景是什么,他應(yīng)該怎樣表達。只有這樣,表演才會更細膩,也更貼合場景。

現(xiàn)在,還沒有模型能真正做到這一點,但我覺得這會來得很快,而且會是下一個非常關(guān)鍵的 breakthrough。

03

從創(chuàng)作者到「視頻投資人」

極客公園:聊聊你們在內(nèi)測的新產(chǎn)品 VidMuse 2.0 吧。我看了你們的介紹,交互邏輯是「Music in,Video Out」,這次核心的升級是什么?

張子賀:VidMuse 2.0 的核心,不是多了幾個功能,而是重新做了 agent 的框架。

之前市面上的很多 Video Agent,包括我們自己 1.0 的狀態(tài),都會更像一個「帶著腳鐐」的 agent:它只能按你預(yù)設(shè)好的 workflow,一步一步往下走。

但視頻創(chuàng)作本身不是一個線性的流程,它是一個很發(fā)散的過程。所以 2.0 的核心升級,就是從這種 Workflow 式、強編排的工具,轉(zhuǎn)向一個更開放的 Video Agent。我們想做的是,盡量把原來加在 AI 身上的那些手鏈、腳鏈放開,讓它自己去發(fā)揮智能,順著用戶需求和創(chuàng)作過程流動。

極客公園:現(xiàn)在大家都開始放開韁繩、少編排,更多交給 agent 創(chuàng)造好環(huán)境,VidMuse 2.0 基本就是往這個思路走的,對嗎?

張子賀:是的,因為視頻創(chuàng)作這件事本身非常社區(qū)驅(qū)動。社區(qū)里會不斷冒出新的玩法、新的創(chuàng)作習(xí)慣、新的表達方式。如果每次社區(qū)冒出一個新想法,如果我都要靠人力、物力再去迭代一個新功能,那這個產(chǎn)品是永遠追不上的。哪怕有各類 coding agent 提效,你也不可能真的 24 小時在線去手工支持所有這些變化。

所以,從產(chǎn)品角度看,把 AI 綁在固定 workflow 里,是追不上創(chuàng)作演化速度的。

極客公園:既然你認為它是一個 Video Agent,那它對標(biāo)的是什么?

張子賀:我們從一開始就不是把它當(dāng)成一個單點工具,而是把它當(dāng)成一個「完整的乙方」或者「制片團隊」。我們看到很多 AI 時代的創(chuàng)作者,為了做一個完整視頻,要在 DeepSeek、Midjourney、生圖工具、生視頻工具之間來回穿梭,自己搭管線,門檻很高。我們當(dāng)時看到的機會就是:能不能在這些工具之上架一個 agent,把它變成一個完整的制片團隊。用戶不需要再自己穿梭在各種工具里,只需要說目標(biāo),agent 去組織流程、調(diào)度 agent,最后把視頻交付出來。

極客公園:這個形態(tài)下,用戶其實就成為了制片人或者投資方?!笩筎oken,然后得到滿意的成片。

張子賀:是的。


VidMuse 產(chǎn)品負責(zé)人張子賀 Zake | 圖片由受訪者提供

04

音樂是 AI 時代的視頻創(chuàng)作起點

極客公園:我聽說有人把 VidMuse 看成一個 MV 場景的垂類產(chǎn)品?你們肯定是奔著一個通用目標(biāo)去的吧?

張子賀:我想專門澄清一下。我們內(nèi)部從來沒有說過自己只做 MV,也從來沒有把自己定位成一個 MV Video Agent。

一開始我們也走過一些彎路。最初的想法是,模型能力本來是通用的,那產(chǎn)品也應(yīng)該盡量通用,不要給模型太多預(yù)設(shè)。但真正做的時候你會發(fā)現(xiàn),如果所有場景都想覆蓋,產(chǎn)品很難跨過那個「用戶愿意付費」的閾值,所以它必須收斂。

問題在于,怎么收斂。很多人會按內(nèi)容類型去切:音樂、漫劇、廣告,分別做成不同產(chǎn)品。但我不太認同這種切法。因為如果你按內(nèi)容類型把產(chǎn)品框死,它后面一旦要輻射更多場景,往往就得重構(gòu)。我們最后選擇的不是按內(nèi)容類型切,而是按創(chuàng)作鏈路去切。也就是說,我不是先定義「我做的是 MV」,而是先定義:AI 時代的視頻創(chuàng)作,到底是沿著什么鏈路往前走的。

極客公園:所以你們是會順著「創(chuàng)作意愿」去找用戶?音樂為什么會成為更好的切入口?

張子賀:我越來越覺得,音頻是一個比圖片和文字更適合切入的連續(xù)信息。圖片和文字更像是離散的,但音頻,尤其是音樂,是連續(xù)流動的。

我們刷了很多 Twitter、YouTube 火的純 AI 生成視頻,發(fā)現(xiàn)它們有一個很明顯的共性:很多作品其實都是通過音樂或者音頻去 drive 整個創(chuàng)作鏈路。所以我當(dāng)時才會說,音樂其實像這個視頻的骨架。

所以我會覺得:AI 時代的視頻,不一定還需要傳統(tǒng)剪映式的軟件邏輯,而更可能是沿著音頻驅(qū)動的鏈路往前走。我們后來選擇從音樂切,不是因為「MV 這個品類本身」,而是因為我覺得在音頻里,音樂占了一個非常大的部分,它是最自然的入口。

極客公園:如果順著這個邏輯往外延展?MV 之外還可能是什么?

張子賀:這套理解后來又延伸到廣告。我覺得,廣告里很多真正讓人記住的東西,不只是畫面和文案,還有旋律。一個詞配上一段洗腦的音樂,再配上簡單但強記憶點的畫面,信息傳遞會被明顯放大。

極客公園:所以從更長遠的角度看,你們會認為「文字、畫面、旋律」看成一種更高維的內(nèi)容格式,而不是把音樂只當(dāng)成一個附屬元素。

張子賀:是的。


VidMuse 的產(chǎn)品界面

極客公園:選擇「Music in」,跟用戶畫像有關(guān)系嗎?

張子賀:有,而且關(guān)系很大。

我們有一個很明確的判斷:很多 Video Agent 在增長上會遇到瓶頸,因為你很難憑空創(chuàng)造用戶的「創(chuàng)作意愿」。一個人如果本來沒有生產(chǎn)視頻的意愿,你很難讓他突然開始做這件事,ROI 也很難算正。但從音樂切就不一樣。因為有音樂的人,天然已經(jīng)有創(chuàng)作意愿,讓他從音樂順理成章地過渡到視頻,投放和增長的 ROI 會更正,這也是我們增長比較快的一個原因。

所以,音樂不是隨便選的流量入口,而是和「創(chuàng)作意愿」直接相關(guān)。

極客公園:你們現(xiàn)在的用戶畫像,大概是怎樣的?

張子賀:我會把他們大致分成兩類。

第一類就是音樂相關(guān)用戶,不管是傳統(tǒng)音樂人,還是 AI 音樂人。后者其實占了很大一部分——比如 Suno 賦予了他們創(chuàng)作能力,他們從原來只是音樂愛好者,慢慢成長到會頻繁發(fā)布自己的歌,希望有更多人聽到。

但光有音樂還不夠。你把音樂發(fā)在 Spotify 或 SoundCloud 上,真正能聽到的人還是有限;流量更大的地方是 TikTok、Instagram、YouTube。這樣一來,他們就天然需要一個視頻媒介。所以我看到的第一批核心用戶,其實就是:他們很會做音樂,但不會做音樂視頻。他們本來就在音樂這個模態(tài)里很專業(yè),來到 VidMuse,是為了補上「從音樂到視頻」這一步。

極客公園:那么另一類呢?

張子賀:我們內(nèi)部把他們叫做泛生活化創(chuàng)作的人。

這類人的創(chuàng)作內(nèi)容更偏生活和個人表達,比如年會視頻、孩子成長、朋友生日、家庭紀(jì)念日,這些都算。這個方向本身就是一個新發(fā)現(xiàn),因為過去這類人其實很容易被忽視。

更讓我們印象深的是,里面還有一部分是非常強的個人情緒表達。有人會用它創(chuàng)作一些關(guān)于童年、家庭關(guān)系等等題材的視頻。他們很多時候其實已經(jīng)有一首自己的歌,然后用這個產(chǎn)品去把那首歌對應(yīng)成自己心里真正想要的畫面,一遍一遍調(diào)。這里面有些內(nèi)容甚至不會發(fā)到任何平臺上,它不是為了傳播,而是為了表達和宣泄。

這類用戶很重要的一點是:他們上傳的往往是非常隱私的照片和故事。他們未必愿意把這些內(nèi)容交給一個人類創(chuàng)作者,但愿意交給一個工具或 agent 去完成。所以我會覺得,這里已經(jīng)不只是普通的內(nèi)容生產(chǎn),它更接近一種個人紀(jì)念、情緒整理,甚至某種自我療愈式的創(chuàng)作。

05

創(chuàng)業(yè)公司更容易搞定「雙輪驅(qū)動」

極客公園:如果通過編排和加 skill 的方式,用 OpenClaw 做一個類似的產(chǎn)品,那你們自己的模型在 VidMuse 里到底扮演什么角色?你們的模型和產(chǎn)品之間,是強耦合還是弱耦合?

曹越:我們內(nèi)部從一開始就是雙輪驅(qū)動。

產(chǎn)品不應(yīng)該被模型掣肘,產(chǎn)品的目標(biāo)是服務(wù)用戶、把規(guī)模做大,所以不應(yīng)該帶著鐐銬跳舞,哪怕這個鐐銬是金的。對我們來說,哪個模型能讓產(chǎn)品跑得更快,就應(yīng)該調(diào)用哪個模型;我們從一開始就沒有要求產(chǎn)品必須用自家模型。

但換一個角度,模型團隊在很多場景下又確實要支持產(chǎn)品。比如我們做 Music Video,第一步就需要更準(zhǔn)確地分析音樂,識別節(jié)奏、卡點這些細顆粒度信息,這時候模型團隊就可以過來支持,把音樂分析做得更準(zhǔn)。再比如在視頻生成里,有些場景用我們自己的模型效果更好,或者成本更低,這些也都能直接支持產(chǎn)品。

所以這不是簡單的強耦合或者弱耦合。更準(zhǔn)確地說,產(chǎn)品先按自己的節(jié)奏跑,模型在關(guān)鍵環(huán)節(jié)提供支持:一方面提升效果,另一方面降低調(diào)用 API 的成本,提高毛利,幫助產(chǎn)品跑得更大。

極客公園:雙輪驅(qū)動肯定好,但也肯定難。

曹越:我的感受是,創(chuàng)業(yè)公司更容易把雙輪驅(qū)動搞定。原因不是團隊小本身,而是創(chuàng)業(yè)公司里更容易有一批真正處在 founder mode 的人。無論是做業(yè)務(wù)、做產(chǎn)品,還是做模型的人,只要他們心里的目標(biāo)和公司的目標(biāo)是對齊的,這件事就好推動。

反過來,如果一個做模型的人心里想的是「我要做一個特別的模型,公司好壞跟我關(guān)系不大」,那他的目標(biāo)其實只對齊在模型這條線上,這就不是雙輪驅(qū)動,而是單輪驅(qū)動。

所以真正決定雙輪驅(qū)動能不能成立的,不是形式上公司里同時有模型和產(chǎn)品,而是兩邊負責(zé)人是不是都相信:同時擁有模型和產(chǎn)品,對公司整體是更有利的。

極客公園:具體來說,你們是怎么處理「先用最好模型把產(chǎn)品跑起來,再把關(guān)鍵能力收回來」這個問題的?

曹越:從產(chǎn)品 0 到 1 去找 PMF 的階段,如果一開始就和自家模型綁得太死,驗證周期會被拉長,不利于快速驗證、快速找到 PMF。所以我們過去這段時間的做法是,先拿效果最好的模型把產(chǎn)品搭起來。

這個階段我們不會先優(yōu)先考慮成本,而是先看它能跑到什么狀態(tài),這個產(chǎn)物能不能交付,能不能形成商業(yè)閉環(huán)。等這條鏈路先跑通以后,我們再看有哪些地方值得優(yōu)化、值得收回來。

所以這件事不是一開始就要求產(chǎn)品必須用自家模型,而是先讓產(chǎn)品按自己的節(jié)奏跑起來;模型團隊在關(guān)鍵環(huán)節(jié)提供支持。一方面把效果做得更好,另一方面把調(diào)用 API 的成本降下來,提高毛利,幫助產(chǎn)品跑得更大。

06

信任關(guān)系才是最深的護城河

極客公園:你們現(xiàn)在商業(yè)收入跑到什么程度了?

張子賀:VidMuse 從 1 月中旬上線開始,大概兩個月時間,跑到了1000 萬美金的 ARR,而且還在漲?;旧鲜?strong>單周 20 多萬美金的收入,并且已經(jīng)比較穩(wěn)定。

收費方式上,我們現(xiàn)在是訂閱+加油包。注冊用戶有免費 1000 積分,可以先起一個項目。

極客公園:1000 積分是什么概念?

張子賀:大概能把一個 30 秒左右的視頻項目推進到比較后面的階段。

極客公園:付費轉(zhuǎn)化率、客單價怎么樣?

張子賀:注冊到付費的轉(zhuǎn)化大約在 5%-7%??蛦蝺r一直比較高,因為用戶需要先訂閱,再買加油包,有些人最后會直接升級到更高階版本。

極客公園:繼續(xù)往后走呢?VidMuse 3.0、4.0 還要補齊什么能力?產(chǎn)品邊界會怎么變?

曹越:3.0 或 4.0 應(yīng)該是一個更徹底釋放的狀態(tài):用戶提一個原來產(chǎn)品里沒有的功能,它也能想辦法調(diào)動自己擁有的資源,把這個問題解決掉。

這件事會越來越依賴更通用的 agent 能力,尤其是 coding agent 的能力。因為社區(qū)里會不斷冒出千奇百怪的需求。你得有一種能力,能順著用戶的需求流動,用戶給你一個鏈接、一個帖子、一個教程,你能理解里面的方法,然后把它實現(xiàn)出來。產(chǎn)品會更少依賴預(yù)設(shè)功能,而是更順著用戶需求流動。

極客公園:聽起來,未來的產(chǎn)品會越來越「無為」。從長期看,Sand.ai 的護城河是什么?怎么留住用戶、沉淀長期價值?我相信不止是模型能力吧?

曹越:現(xiàn)在 AI agent 產(chǎn)品最大的問題之一,是穩(wěn)定性很差,很難和用戶建立可信賴的關(guān)系。

所以我們的思路是:先解決各種幻覺,尤其是多輪對話里小幻覺被不斷放大的問題,讓用戶敢信你。我們希望用戶在創(chuàng)作結(jié)束時,留下的是「thank you」、「good night」這樣的情緒,而不是被激怒、被消耗。第一步先是建立信任感。

第二步,是讓用戶愿意留在這里。好的產(chǎn)品要在使用過程中不斷認識這個人、了解這個人、理解他喜歡什么。比如用戶已經(jīng)明確說過自己喜歡諾蘭,就不要再給他推別的導(dǎo)演風(fēng)格;用戶說過自己不喜歡紫色,后面的場景、分鏡、腳本設(shè)計就不該再往這個方向走。

所以,memory(長期記憶)和信任關(guān)系是我們 Video Agent 的靈魂。

*頭圖來源:Sand.ai

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你想體驗 Sand.ai 嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
女土匪向杜月笙借槍,杜月笙念及舊情答應(yīng),此舉鑄就了她傳奇一生

女土匪向杜月笙借槍,杜月笙念及舊情答應(yīng),此舉鑄就了她傳奇一生

千秋文化
2026-04-09 15:45:26
臺退役上校呼吁:只要大陸答應(yīng)2個條件,臺灣隨時都可以和平統(tǒng)一

臺退役上校呼吁:只要大陸答應(yīng)2個條件,臺灣隨時都可以和平統(tǒng)一

夢史
2026-03-27 01:05:45
16年來首次!小米舉辦首屆員工運動會 雷軍親自站臺

16年來首次!小米舉辦首屆員工運動會 雷軍親自站臺

快科技
2026-04-11 14:04:10
半決賽4勝2負,亞錦賽中韓兩隊同爭3冠!附賽程

半決賽4勝2負,亞錦賽中韓兩隊同爭3冠!附賽程

佑銘羽球
2026-04-12 02:37:51
盲目的大學(xué)擴招,正在反噬整個社會

盲目的大學(xué)擴招,正在反噬整個社會

凡人志
2026-03-25 01:34:53
5月1日新規(guī)落地:貪污受賄量刑加重,私企高管也跑不了

5月1日新規(guī)落地:貪污受賄量刑加重,私企高管也跑不了

梁濆愛玩車
2026-04-12 01:54:34
新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進入中國”。

新加坡網(wǎng)友發(fā)帖:“我接受不了自己以游客身份進入中國”。

荊楚寰宇文樞
2026-04-11 17:21:54
伊能靜自曝與秦昊首次見面時,秦昊正處在熱戀期,與當(dāng)時的女朋友“目中無人”“吃飯都是喂的”

伊能靜自曝與秦昊首次見面時,秦昊正處在熱戀期,與當(dāng)時的女朋友“目中無人”“吃飯都是喂的”

花樣TV
2026-04-11 17:41:28
華為高管喊話全行業(yè):L3這道坎,誰也繞不過去

華為高管喊話全行業(yè):L3這道坎,誰也繞不過去

全棧遛狗員
2026-04-12 08:44:47
少跟孩子生氣,因為這一世的相遇,背后藏著你看不見的因果

少跟孩子生氣,因為這一世的相遇,背后藏著你看不見的因果

杏花煙雨江南的碧園
2026-04-03 15:15:03
少打1人2-1!重慶激活申花棄將,5輪不敗11分,反超蓉城登頂中超

少打1人2-1!重慶激活申花棄將,5輪不敗11分,反超蓉城登頂中超

球場沒跑道
2026-04-11 23:07:11
女子通過中介花206萬買房,過戶后傻眼:收到《責(zé)令改正通知書》,房子里兩處承重墻被拆

女子通過中介花206萬買房,過戶后傻眼:收到《責(zé)令改正通知書》,房子里兩處承重墻被拆

環(huán)球網(wǎng)資訊
2026-04-12 07:55:12
日乒也選錯人?21歲大藤讓最強橋本三局僅8分 此前連勝王曼昱陳熠

日乒也選錯人?21歲大藤讓最強橋本三局僅8分 此前連勝王曼昱陳熠

顏小白的籃球夢
2026-04-12 08:24:04
賽力斯、余承東和友商“齊心協(xié)力” 一把把問界M6預(yù)訂20萬輛干掉了

賽力斯、余承東和友商“齊心協(xié)力” 一把把問界M6預(yù)訂20萬輛干掉了

三農(nóng)老歷
2026-04-10 03:44:46
誰能告訴蔚來,別再造旗艦了

誰能告訴蔚來,別再造旗艦了

青橙汽車
2026-04-10 16:36:45
人紅是非多!王浩然是深圳前主帥之子?長得像而已絕非父子

人紅是非多!王浩然是深圳前主帥之子?長得像而已絕非父子

大嘴爵爺侃球
2026-04-11 22:36:32
廣東男籃外援人選揭曉:CBA老熟人聯(lián)手NBL蓋帽王

廣東男籃外援人選揭曉:CBA老熟人聯(lián)手NBL蓋帽王

徐驤老表哥
2026-04-12 08:42:04
5國派兵,菲幫手一次到齊,南海爆發(fā)新爭端,解放軍被逼射信號彈

5國派兵,菲幫手一次到齊,南海爆發(fā)新爭端,解放軍被逼射信號彈

閱盡天下大事
2026-04-11 14:04:28
看哭了!!不要驕傲!!不要身段??!哈登為了奪冠怎么都行?。?>
    </a>
        <h3>
      <a href=看哭了??!不要驕傲??!不要身段!!哈登為了奪冠怎么都行??! 柚子說球
2026-04-11 18:25:04
如果當(dāng)初中國不改革開放,今天仍是全球最落后的國家之一嗎?

如果當(dāng)初中國不改革開放,今天仍是全球最落后的國家之一嗎?

掠影后有感
2026-04-10 09:58:45
2026-04-12 10:44:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11948文章數(shù) 78866關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議 將返回美國

頭條要聞

美國副總統(tǒng)萬斯:美伊談判未能達成協(xié)議 將返回美國

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

手機
健康
游戲
親子
軍事航空

手機要聞

華為暢享90 Pro Max一戰(zhàn)封神,周銷量超iPhone 17全系

干細胞抗衰4大誤區(qū),90%的人都中招

現(xiàn)實比游戲更瘋狂!萊斯特演員:GTA6或難達前作沖擊感

親子要聞

重新點燃愛的火花:產(chǎn)后如何找回那份激情與高潮?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關(guān)懷版