国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話ACE Studio:做AI音樂、月收入200萬美元,我們選了一條和Suno截然不同的路

0
分享至

內(nèi)容轉(zhuǎn)載自播客節(jié)目「Alphaist Partners」。Alphaist Partners 關(guān)注 AI、機器人和硬件領(lǐng)域的早期創(chuàng)業(yè)者。

過去一年,AI 音樂可能是生成式 AI 領(lǐng)域最出圈的 ToC 應用賽道之一。Suno 剛剛完成了 2.5 億美金的融資,年化收入超過 2 億美金,吸引了千萬級用戶。

與 Suno 不同的是,AI 音樂平臺 ACE Studio 選擇了一條截然不同的路徑,從制作人、電影配樂者等專業(yè)用戶切入 AI 音樂市場,幫助他們更快速地把 idea 變成 release ready 的作品。

不到一年的時間,ACE Studio 實現(xiàn)了超千萬美元的 ARR。25 年 12 月初,2.0 版本上線,3 個月時間月收入翻了三倍,達到 200 萬美元。

近期,Alphaist Partners 合伙人陳哲(Peter)對話了 ACE 的創(chuàng)始人 Joe(郭靖),聊了聊 7 年艱難創(chuàng)業(yè)經(jīng)歷、如何在 Suno 這座「大山」的存在下成功打入 AI 音樂市場,以及他對于 AI 音樂的一些思考。

為了方便閱讀,F(xiàn)ounder Park 對原對話內(nèi)容進行了適當調(diào)整。

??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

超 22000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應用。

邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

進群后,你有機會得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈送熱門新品的邀請碼、會員碼;

  • 最精準的 AI 產(chǎn)品曝光渠道

01ACE Studio,更像是音樂人的「Cursor」

Peter:ACE Studio 跟 Suno 最大的區(qū)別是什么?

Joe:大家如果關(guān)注 AI 可能會想,Cursor 跟 Lovart 的區(qū)別是什么?Lovart 更偏向于一句話讓你一鍵生成你想要的項目,Cursor 更多的是一個 human in the loop 的 IDE,只不過被 AI 加持了。今天的 ACE Studio 更像是 Cursor——完全基于 AI 的新能力,重新創(chuàng)造工作流、重新塑形創(chuàng)作環(huán)境的音樂人的 IDE。而 Suno 更偏向于一鍵生成的 model as a product,用戶輸入一個 prompt 就生成一首音樂,門檻很低,但很難編輯。

我們跟 Suno 正好反過來——先從 professionals 切入,用更好的對音樂創(chuàng)作工作流的理解去打造更好的模型、更好的專家反饋,再賦能 consumer 端。我們的模型也比 Suno 更輕、更快,可以在 3090 上幾秒鐘就能生成一首完整歌曲。今天世界上所有的 AI 音樂模型,開源和閉源的,都做不到我們這樣的速度,或者在同樣速度下有我們這樣的 quality。

Peter:在專業(yè)級市場,ACE Studio 發(fā)布之前其實并沒有什么競爭對手?

Joe:對,用 AI 的方式重塑專業(yè)音樂創(chuàng)作的工作流,這件事幾乎是我們首創(chuàng)的,目前也是我們比較領(lǐng)先的。

Peter:AI 在打破專業(yè)和非專業(yè)用戶之間的壁壘上,有哪些例子?

Joe:國內(nèi)有一個非常有名的頭部音樂教育機構(gòu)在用我們來教學。他的一個徒弟是三線城市的音樂老師,開了一個兩個月的培訓班讓小朋友學會寫 prompt、生成歌曲。結(jié)果很神奇——他教的初中、高中小朋友在兩個月內(nèi)創(chuàng)作出非常有趣的歌曲。然后一個震撼的事情發(fā)生了——他把其中一些比較好的作品代理到版權(quán)公司放到流媒體平臺,其中一首歌在 QQ 音樂上連續(xù)好幾周是 number one,最終版權(quán)分成接近 500 萬人民幣。

你可以想象這個震撼的程度——一個高中小朋友跟媽媽說給我報個興趣班,399 塊錢,學了兩個月后拿了 500 萬人民幣回家。這個信號已經(jīng)非常強烈。一部分人還在懷疑 AI 是不是有靈魂,但另一部分 underdog 已經(jīng)在用 AI 做的音樂系統(tǒng)性地賺到很大的錢了。

這讓我們看到 AI 音樂可能甚至是一個大于音樂本身的事情,因為它會徹底讓人類幾千年來都長期需要的內(nèi)容模式真正實現(xiàn)普惠化。音樂是一個很獨特的東西,代表人類情緒的延伸。所有人都有情緒,每個人的情緒都不一樣,但不是所有人都有能力用音樂去表達。今天主流的現(xiàn)象是人們在別人的音樂上 echo 自己的情緒,用別人的歌作為情緒抒發(fā)的代餐。如果能真的讓你用自己的音樂去表達自己的情緒,是不是一個 ten times better 的事情?是不是一個更大的市場?

Peter:做一款專業(yè)工具,最大的門檻或者困難點是什么?

Joe:我們會發(fā)現(xiàn)一個很有趣的現(xiàn)象——如果你做 C 端產(chǎn)品,想象一下今天抖音把所有功能都干掉,沒有本地生活、沒有加好友、沒有點贊評論,只有上下滑和推薦算法,抖音可能短時間內(nèi) DAU 都不會下降,因為對于 C 端產(chǎn)品,主 use case 占用戶 90% 以上的注意力和價值。

但專業(yè)產(chǎn)品正好反過來。專業(yè)產(chǎn)品要盡可能覆蓋更多的 corner case,又 somehow 整合在一個優(yōu)雅的工作流里,這需要你對專業(yè)人士創(chuàng)作的工作流有非常深刻的理解。比如我們跟 Suno Studio 有一個巨大區(qū)別——Suno Studio 是網(wǎng)頁版產(chǎn)品,因為它從 consumer 做起,天然想法是 producer 端也整合在 webapp 里。但網(wǎng)頁端產(chǎn)品有很多需求對專業(yè)用戶來講是滿足不了的,比如插件。專業(yè)創(chuàng)作者需要連接到自己的 workstation 里面,這個插件很難用網(wǎng)頁端實現(xiàn)。而 ACE Studio 雖然自己是獨立的 IDE,但同時也做了插件,可以橋接到傳統(tǒng)音樂創(chuàng)作者的 workstation 里面,讓他們可以無縫接入到已有 workflow 中。

在模型能力上,Suno 偏向于全部都是 end to end 的 generative model,我們也有一套 end to end generative 的 model 跟 Suno 能力不相上下。但同時我們有很多專家模型——可以輸入音符輸出高質(zhì)量的歌聲,輸入音符輸出高質(zhì)量的樂器。音符的語言是專業(yè)用戶經(jīng)常 speak 的語言,專業(yè)用戶最大的需求在于精準表達自己的想法。

不僅僅是質(zhì)量問題。今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?因為 AI 是一個相對黑盒的隨機事件,即使一個創(chuàng)作者把歌曲做好了,他如何保持自己獨特的個性化、獨特的風格是很難的。

02AI 音樂,是最接近可直接消費的 AI 生成內(nèi)容

Peter:ACE Studio 作為專業(yè)級工具,對音樂的基礎單元——音符有完整的控制和創(chuàng)作能力,本質(zhì)上也是一種 human in the loop 的創(chuàng)作方法?

Joe:對。音符之于代碼確實是音樂底層邏輯和技術(shù)世界底層邏輯的對應。我覺得未來音樂創(chuàng)作的顆粒度即使在專業(yè)工具之內(nèi)也會逐漸提升。為什么內(nèi)容持續(xù)有 human in the loop 的價值?因為內(nèi)容沒有標準答案,沒有 verifiable 的 reward。你喜歡什么、我喜歡什么,這很難通過確定一個目標來解決。比如搖滾樂剛被發(fā)明的時候,什么 AI 可以幫助發(fā)明搖滾樂這樣偉大的劃時代的音樂類型?沒有任何 AI 能做到,因為類型被發(fā)明之前訓練數(shù)據(jù)里沒有這個類型,AI 無法學習。而一個類型剛被發(fā)明出來的時候,用戶對它的評價也是褒貶不一、有巨大爭議的,所以強化學習也沒辦法在早期獎勵一個真正革命性的發(fā)明。

End to end 的 AI approach 可以很好地讓人 involve 到內(nèi)容創(chuàng)作里邊,但很難幫助人真正探索出劃時代的、改變?nèi)祟惖膬?nèi)容形式。所以長期來講 end to end 跟 human in the loop 是結(jié)合的——end to end 可以快速讓人進入創(chuàng)作的心流,當所有人都能幾秒鐘上手、創(chuàng)作質(zhì)量都差不多的時候,競爭的維度就變成誰能夠更可控地創(chuàng)造出自己想要表達的精確 idea、精確感覺,而不僅僅是比質(zhì)量。

Peter:所以,更獨特的、更有創(chuàng)造力的內(nèi)容一直是被獎勵和傳播的。

Joe:對。拿照相機來舉例——照相機出現(xiàn)之前,畫師最大的價值是把人畫得更真實。但照相機出來后,人們開始思考繪畫到底是什么、藝術(shù)到底是什么,開始出現(xiàn)現(xiàn)代主義、抽象主義。

Peter:你前邊提到,AI 音樂不只是效率工具升級,甚至有可能大于音樂本身。AI 音樂市場到底有多大?

Joe:這件事今天沒辦法算清楚,只能有一些定性判斷。當 AI 視頻出現(xiàn)時,所有人的想象都是每個人都可以做自己的電影——如果每個人能創(chuàng)造自己的電影,這個市場遠大于電影行業(yè)本身。但問題在于今天 AI video 離普通人可以消費的電影還有很大距離,因為電影有太多元素——鏡頭節(jié)奏、表演、劇情設計。

但你會發(fā)現(xiàn)今天 AI 音樂好像是最接近 AI 直出的內(nèi)容能夠直接讓終端消費者消費的。今天 AI 音樂的問題反而不是沒有供給,而是消費端的平臺在打壓這樣的供給——因為跟傳統(tǒng)既得利益產(chǎn)生了沖突。騰訊音樂也好、Spotify 也好,你上傳 AI 音樂它對你是歧視的,會貼上 AI 生成的標簽。但這個勢頭已經(jīng)擋不住了,AI 出來的大量作品已經(jīng)超過人類的效果,能夠批量產(chǎn)生 hit song、過億播放。

Peter:從終端消費者角度,大家并不在乎它是不是 AI 生成的?

Joe:對,消費者 always 是不在乎的。一個普通人去聽 AI 音樂平臺的 playlist,你很難區(qū)別它到底是 AI 的還是人類的。大家可以想想看這件事有多可怕——AI 直出的內(nèi)容已經(jīng)能直接讓消費者消費了,哪個領(lǐng)域今天接近這一點?

03自建專家模型矩陣,不止一個模型

Peter:Studio 2.0 發(fā)布三個月,你觀察的用戶是怎么使用和擁抱新一代產(chǎn)品的?

Joe:隨著我們給用戶在 Studio 2.0 里面開放的不同模型能力的多樣性和質(zhì)量提升,形成了一種明顯的涌現(xiàn)感——每一個能力是一個原子,用戶在這些原子中排列組合會產(chǎn)生出很多連我們自己都意想不到的 workflow。比如有人通過自己哼唱一個 idea,獲得大概的想法,然后通過我們的 vocal to MIDI 模型把哼唱變成樂譜,再把樂譜通過 AI instrument 變成小提琴的聲音,再通過 music enhancer 把音樂 idea 直接生成出品級的完整歌曲——整個 workflow 全部在 ACE Studio 里面完成。做出了好萊塢史詩級的弦樂配樂作品。

今天沒有一個 AI 工具能獨立達到這樣的效果。這里面不乏好萊塢的音樂制作人、格萊美獲獎者這些行業(yè)頂端的人,他們也在用這樣的 workflow。

Peter:在模型能力方面展開介紹下?其他通用大模型公司有辦法復現(xiàn)或超越你們的模型能力嗎?

Joe:首先我們不止一個模型。剛才的 workflow 里就有旋律識別模型、樂器合成模型、基于音頻 prompt 的端到端音樂生成模型,還有跟 Suno 類似的輸入 prompt 直接生成音樂的模型、音頻分軌的模型、對音樂進行續(xù)寫或在下面加一個軌道的 stem generation 模型。

所有這些模型,理論上在一個產(chǎn)品公司里我們不應該自己 train,但音樂領(lǐng)域第三方或開源模型很少,所以反而倒逼我們做成了自己 train 模型、自己擁有模型壁壘的產(chǎn)品公司,這是我們比較獨特的地方。大廠如果想做這件事,需要沉下心來在音樂產(chǎn)業(yè)里不斷理解和思考用戶需求,不斷構(gòu)建每一個專有模型,這些模型可能都需要專有的數(shù)據(jù)、專有的標注,是一個極耗時的成本。目前完全沒有可見的路徑是大模型會內(nèi)生地長出音樂創(chuàng)作能力,仍然需要調(diào)用外部的音樂創(chuàng)作模型。

Peter:訓練自己一系列專用模型需要什么樣的數(shù)據(jù)?

Joe:千差萬別。比如我們的歌聲模型,數(shù)據(jù)就是在錄音棚里精致采集的專業(yè)歌手的錄音級數(shù)據(jù),由專業(yè)音樂家去標注,量級可能也就 1 萬小時左右。而端到端的音樂生成模型,可能就會用到上百萬小時甚至更多的完整音樂數(shù)據(jù)。我們通過版權(quán)公司買到音樂授權(quán),加上開源社區(qū)捐贈的數(shù)據(jù),通過內(nèi)部的合成數(shù)據(jù)生成管線再排列組合,最終達到了兩三千萬首、一兩百萬小時的數(shù)據(jù)集。

我們是用 Audio LLM 做預標注,然后用人來清洗數(shù)據(jù)、調(diào)出更精的標注,再去強化學習這個 Audio LLM 讓它更精準。那么問題來了——今天如果給你聽一段音樂,上面有個描述說"這是一個典型的 drum and bass 風格的律動",普通人你是否能判斷這個標注是正確還是錯誤的?如果對一個沒有音樂 knowhow 的團隊來做這件事,就相當于瞎子在做圖片生成的模型,很難評估。

04Flux 式商業(yè)模式:免費是漏斗,閉源是變現(xiàn)

Peter:2.0 產(chǎn)品發(fā)布以來,你們在用戶群跟用戶畫像上有什么變化?

Joe:ACE Music 是 for consumer 的,ACE Studio 是 for professional 的,但即使在 ACE Studio 上,我們發(fā)現(xiàn)引入更多端到端音樂生成模型后,"professional"的定義發(fā)生了一種彌散效果。原先我們認為的 professional 是 music producer——這些人可以啟動制作軟件,有各種硬核設備。但音樂制作人和懂音樂的人之間還有巨大的人數(shù) gap。比如音樂老師,全中國幾千萬的琴童,學琴、學唱歌、會彈吉他、業(yè)余時間玩樂隊,這些人我們理解都是今天的 new professionals,但他們并不都是 music producer。

在 ACE Studio 2.0 上我們看到大量這些跟音樂相關(guān)的人——他們懂一些音樂,會彈鋼琴,也把自己當做 new professionals,已經(jīng)在認真創(chuàng)作音樂了。比如有一個在馬來西亞的用戶,他用 ACE Studio 做的歌已經(jīng)在跟劉德華的電影合作了,但他之前不是音樂制作人,也不會用傳統(tǒng)制作軟件,他只是一個從小喜歡唱歌、會彈琴、有很好音樂審美的人,就用 ACE Studio 做出了非常專業(yè)的作品。所以即使"專業(yè)"這個定義在 AI 加持下也在發(fā)生變化——當更輕的門檻和更強大的能力出現(xiàn)時,哪些人是專業(yè)人士這個定義本身也在變化。

Peter:ACE Music 作為市場后進者,怎么跟 Suno 競爭?

Joe:很多 Suno-like 的產(chǎn)品其實很難殺出血路。因為 Suno 有全世界最好的模型,你的模型接近但差一點點,這很難構(gòu)建增長——用戶花一份錢,有更好的為什么要用差一點的?所以我想了很久。

短期的答案是開源和免費。Suno 今天是云端自持的封閉生態(tài),沒有第三方 API。如果跟用戶說"我們有個類似 Suno 的產(chǎn)品,模型比他差一點但便宜",用戶不會感興趣。但如果說"我們有一個跟 Suno 差不多的模型,完全免費,且你可以下載到自己電腦上在本地運行和訓練,用自己的音樂把模型訓練成你想要的樣子和審美"——這是一個巨大的賣點。所以我們把模型做得極快,在一張 3090 GPU 上 11 秒可以生成一首完整的音樂,在 A100 上兩秒就可以。端側(cè)的運行和訓練成為了可能性,這是我們短期去跟 Suno 競爭、撕開口子的手段。

但長期來講開源只是手段,真正在戰(zhàn)略上有可能讓我們?nèi)俚牟皇情_源,而是開放生態(tài)。這就是為什么我說 ACE 是全球首個開放生態(tài)的 AI 音樂平臺——我們應該不遺余力地利用這個世界上現(xiàn)存的所有音樂相關(guān)模型:我們自己的開源模型、別的開源模型、甚至閉源但可以提供 API 的音樂模型。比如 OpenAI 在做 AI 音樂模型,ElevenLabs 已經(jīng)做了,千問也在做,MiniMax 的音樂模型效果也非常好。

Suno 一直在走封閉生態(tài)的路線,它跟版權(quán)公司的和解造成了平臺上只允許它自己的模型存在。但你看任何一個領(lǐng)域,哪怕是資源集中度大到像大語言模型這樣的領(lǐng)域,今天都已經(jīng)出現(xiàn)了百花齊放的趨勢——開源跟閉源很接近,不同廠商的模型各有千秋,在此之上構(gòu)建 agent 的產(chǎn)品才能受到系統(tǒng)性賦能。我們想做的事情完全一樣:我們相信所有音樂模型加在一起肯定能打敗 Suno。

Peter:過去兩三年在 Studio 產(chǎn)品上的工作,對今天推出 Music 有什么直接幫助?

Joe:因為我們先從專業(yè)用戶切入,專業(yè)用戶在創(chuàng)作過程中給了很多對模型、對音樂質(zhì)量的反饋和洞見。就像 Midjourney 在強化學習過程中有一個 300 人的頂端 artist 用戶池,只用這些人的反饋來進行強化學習,所以它能打造出全世界審美最好的圖片社區(qū)。同樣,ACE Studio 的切入點就是跟最頂級音樂人提供工具,這些人的反饋無論對模型還是對 feature 的建議,都幫助我們構(gòu)建更好的 AI 音樂平臺。

Peter:ACE Music 使用開源和免費模型的模式,靠什么賺錢?

Joe:我在開源這件事上研究了挺多,發(fā)現(xiàn)一個很有趣的現(xiàn)象——Flux 在圖片領(lǐng)域的開源上建構(gòu)了很好的商業(yè)模式。首先開源一個小模型,然后半開源一個中模型——效果更好也是開源但商用需要授權(quán)許可,再做一個閉源的大模型提供 API。小模型因為開源,大量開發(fā)者會替你傳播,在各種場景里構(gòu)建用戶習慣。當用戶習慣和模型的聲量被構(gòu)建起來后,真正有付費能力的用戶不介意花更多錢使用更好的閉源版本。

在 ACE Music 上直接使用這一版模型還是免費的——這是漏斗最上層,讓更多人被 involve 進來、對這事情感興趣,最終形成付費轉(zhuǎn)化。

Peter:按照 Studio 現(xiàn)在的增長趨勢,今年全年可能做到 3000 萬美元的收入?,F(xiàn)在 Studio 的毛利是什么情況?

Joe:推理成本很低,因為模型都是自建的,有很好的推理優(yōu)化框架——每掙 100 塊錢大概花五六塊錢做推理。營銷上大概花 20 塊錢,因為要持續(xù)找到用戶來 onboard,也是持續(xù)教育用戶的過程。年費是 200 美金,還有一檔 264 美金。我們還會賣兩年訂閱,因為這個領(lǐng)域用戶的消費習慣更傾向于買更長周期的產(chǎn)品。

Peter:專業(yè)市場天花板在什么高度?

Joe:24 年整個音樂專業(yè)市場的軟硬件售賣加在一起是 150 億美金,單說軟件將近 80 億美金——各種效果器、音源、插件,加在一起就干一件事:讓創(chuàng)作者最終創(chuàng)作出那個 3 分 45 秒的 MP3 音頻。而這個過程為什么需要這么復雜的工具鏈?比如今天用傳統(tǒng)數(shù)字音樂工作站,光環(huán)境 setup 對一個小白來講可能就花一周時間。這些所有東西加在一起一年能賣 150 億美金,ACE Studio 未來是否至少可以吃下這個市場的 10%、20%?這是我們看到專業(yè)市場的保底天花板。

05在創(chuàng)業(yè)最艱難時,看著 Suno 從 day one 做到了世界級水平

Peter:我們認識快 7 年了,從 19 年天使輪剛開始做 ACE 虛擬歌姬的時候就認識。這些年看到你經(jīng)歷了非常多,是什么讓你一直在做這件事情?

Joe:一種畫面感。從 day one 我就看到了——音樂不應該是少數(shù)人壟斷的高級形式,而應該是每一個人表達自己的方式,自古以來就是這樣。原始人在發(fā)明語言之前就已經(jīng)發(fā)明了音樂了,創(chuàng)作音樂本質(zhì)上就是自己情緒的表達,是根植在人的基因里的本能。

那是什么讓音樂創(chuàng)作變成高門檻的事情?不是音樂本身,而是技術(shù)發(fā)展的形態(tài)——以數(shù)字信號處理為基礎的技術(shù)底層建構(gòu)出來的軟硬件生態(tài),倒逼創(chuàng)作者必須先學幾年的音樂制作技術(shù)和樂理。如果能發(fā)明一種全新的方式,讓普通人把自己的情緒注入進去,創(chuàng)造出其他人也能欣賞和消費的音樂,這就是會徹底改變的正確的事情。這句話一直在我心里,從來沒有變過。

Peter:過往創(chuàng)業(yè)經(jīng)歷中有哪些特別痛苦或至暗的時刻?

Joe:我們在 22 年初完成了一筆融資,那時候整個 AIGC 的勢頭還沒有起來。我們有一段時間不夠 focus——也做過 agent 項目、聲音的語音生成、聲音陪伴。事后反思,我們做的所有其他決定本質(zhì)上都是在回避 AI 音樂這個核心問題——是否能用 AI 真正創(chuàng)作出可消費性的音樂。做到 22 年的時候我們已經(jīng)開始自我懷疑,因為一直做一直沒做出來。但那個時候恰恰是這件事情開始 work 的時候——22 年 Suno 第一個版本發(fā)布了。

但在那個過程中我們被太多東西分散精力,被牽扯在國內(nèi)一個相對井底之蛙的狀態(tài)里,技術(shù) vision 不夠豐富。我們既誤判了 Suno 訓練的成本,又誤判了這件事的潛力——看著它一路從名不見經(jīng)傳慢慢一點點突破,變成今天這個樣子。那個時候?qū)ξ襾碇v極度痛苦——我看到公司有好幾個項目在同時做,每一個都很難 100% 投入。同時我反過來問自己到底相信什么,conviction 到底是什么,為什么在做這些事情。我發(fā)現(xiàn)它其實是一種恐懼或回避。

在 24 年初,我跟兩個合伙人第一次去美國參加一個音樂展,在飛機上討論了十幾個小時,得到一個結(jié)論——我們應該把所有項目都砍掉,all in AI music。那個對話和決定非常重要也非常艱難,但做完之后坦白講從 24 年中開始我們才進入了增長軌道。

這是我最大的成長——可能出發(fā)過早、長期沒有技術(shù)變量、長期做不出 traction,從其他路徑找出路,但最終發(fā)現(xiàn)只是沒等到那個技術(shù)變量,而別人在你眼前把你的愿景、夢想做到了世界級水平。我們在 24 年才開始反應過來要追趕模型,開始訓練自己的音樂大模型。25 年初做了第一次開源,那個模型當時是開源領(lǐng)域的 SOTA,但跟 Suno 最好的模型還有巨大差距。再到今天 26 年初我們第二版開源模型達到了很接近 Suno 的水平。

Peter:如果回到兩年前,你會對當時的自己或者想做同樣事情的人有什么建議?

Joe:第一盡快出海,第二盡快跟世界上最優(yōu)秀、最前沿的一幫人混在一起。跟你的用戶、跟你的技術(shù)領(lǐng)先者離得越快越近越好。

06對于 AI 音樂來說,個性化才是最重要的競爭要素

Joe:今天大家能看到 AI 生成的音樂在質(zhì)量上對普通人來講已經(jīng)跟專業(yè)人士做出來的沒有區(qū)別了,但為什么今天 Suno 或者所有 AI 生成的音樂在互聯(lián)網(wǎng)上還沒有打造出一個超級明星、一個創(chuàng)作者為中心的 IP?

Joe:比如像土搖滾 94 年紅磡那種風格——竇唯、張楚、唐朝樂隊的那種感覺,今天用 AI 能生成嗎?生成不了。生成出來的東西可能過于完美和統(tǒng)一了,一個模型它最終會去擬合一個分布,但人類喜歡的東西的分布是極度多樣性的。

我前段時間刷 Instagram,看到一個很火的網(wǎng)紅歌手參加美國達人秀。他的歌是一個非常機器、有點 hiphop 的 beat,然后唱的就是說話一樣的念詞——非常尷尬地站在舞臺上說話,也不是激昂的 rap。但他在 Instagram 上有幾百萬粉絲,內(nèi)容在 Spotify 上銷量都非常好。這就是典型的個性化內(nèi)容,今天讓任何一個 AI 音樂模型不去進行專門的微調(diào)都很難生成出來。

所以我們想在基模型上構(gòu)建大量 Lora,每個人可以把自己的個性引入進來。長期來講 AI 賦能音樂一定走向 personalized,而不是所有人都統(tǒng)一聽 Suno 生成出來的那種全部很華麗的東西。

Peter:對于傳統(tǒng)音樂分發(fā)渠道,核心價值會不會因為 AI 音樂的普及而被顛覆?

Joe:一定會的。音樂流媒體平臺的巨大成本來自版權(quán),而這個版權(quán)是存量市場——人類的心智面積就這么多,占領(lǐng)了心智面積就可以持續(xù)產(chǎn)生收入。但這也意味著行業(yè)迭代更新相對緩慢、創(chuàng)新更難、普通人參與方式更少。AI 完全可以打破這一點——比如它可以讓老 IP 被重演。今天 AI Remix,你可以把任何一個名人的歌送進去模型 Remix 成你喜歡的樣子,消費音樂的方式已經(jīng)變了,創(chuàng)作也是一種消費了。傳統(tǒng)流媒體平臺要不要重新定義人跟音樂的交互方式?要不要重塑產(chǎn)品形態(tài)或商業(yè)模式?如果重塑了,是否會得罪已有的版權(quán)方?這就是老商業(yè)模式很難轉(zhuǎn)型的原因。

Peter:你自己會去涉及內(nèi)容分發(fā)環(huán)節(jié)嗎?

Joe:一定會的。ACE Music day one 就是一個創(chuàng)作跟消費的社區(qū),會逐漸跟 ACE Studio 打通。我們認為未來的 AI 音樂創(chuàng)作跟消費是一體化的,從 day one 就應該做在一起。

Peter:對于 AI 音樂來說,長期來看最重要的競爭要素是什么?

Joe:我覺得是某種形式的用戶 IP 或用戶的個性化資產(chǎn)。比如聲音——我們聽了那么多歌,問周圍普通人最喜歡的音樂為什么喜歡,可能 90% 是關(guān)注歌手的演唱,聲音構(gòu)建了音樂一致性的個性或風格。如何保有音樂里的個性化資產(chǎn)——保有聲音、vocal,持續(xù)創(chuàng)造統(tǒng)一唱腔、統(tǒng)一風格的內(nèi)容,在互聯(lián)網(wǎng)上構(gòu)建長期 IP 和粉絲忠誠度——這件事長期來講肯定是最重要的競爭要素。

Peter:你們?yōu)槭裁催x擇在 LA 而不是硅谷?

Joe:首先市場在美國或歐洲,所以我們一定要跟市場離得更近。當時在選灣區(qū)還是洛杉磯,其實就是靠近資本更多還是靠近用戶更多。對我們來講,靠近用戶這件事更本質(zhì)。洛杉磯是全球音樂制作的中心,格萊美在這里,我們所在的位置名字就叫 Studio City——大量的影視、音樂 studio 都在這。搬過來后在這個房子里接待用戶,很多格萊美獲獎者都已經(jīng)接待了不下十次,他們過來坐坐聊一下,我們給他看新功能、問他使用體驗,大家非常近。

Peter:在 2026 年,對于 ACE 來說最重要的幾件事情是什么?

Joe:最重要的事情是把 ACE Music 跟 ACE Studio 的完整生態(tài)打通,變成一個統(tǒng)一的開放的 AI 音樂生產(chǎn)平臺——真正形成每個人都能創(chuàng)造出自己個性化音樂的產(chǎn)品,而不僅僅是所有人都創(chuàng)作統(tǒng)一的、好聽但沒有個性的音樂。

這里面有很多手段——比如用 agent 去創(chuàng)作音樂,用 agent 幫你 plan 創(chuàng)作 idea,到每一個環(huán)節(jié)應該用什么模型去排列組合;比如模型的自主訓練,每個人都可以 fine tune 自己的模型,host 自己的模型甚至分享;比如音樂的多模態(tài)化——我們認為未來的音樂一定是視頻的,每個音樂都應該有一個對應的視頻,對已有視頻配上合理的音樂也是目前沒被解決的問題。

Peter:如果 ACE 成功了,10 年以后行業(yè)會是什么樣子?

Joe:AI 會徹頭徹尾地改變音樂產(chǎn)業(yè)——音樂如何被消費、如何被生產(chǎn)、如何在線下場景里跟人互動、你和偶像如何互動、如何社交——所有方方面面都會被 AI 全部重構(gòu)。如果 ACE 有幸成為這里面最重要的生態(tài)系統(tǒng),來接管音樂的產(chǎn)生、分發(fā)、消費甚至線下演藝,那么它將是一個至少幾千億美金以上的基礎設施。


轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運動嗎?醫(yī)生提醒

張雪峰家屬:周六舉行追悼會!平時沒胸悶、沒心臟病,能放心運動嗎?醫(yī)生提醒

上觀新聞
2026-03-26 14:45:10
張雪峰的影響力,被嚴重低估了

張雪峰的影響力,被嚴重低估了

黔有虎
2026-03-26 14:32:34
4.0 英寸 4050mAh 還有實體鍵盤!這絕對是今年最酷的新機了

4.0 英寸 4050mAh 還有實體鍵盤!這絕對是今年最酷的新機了

科技狐
2026-03-25 22:34:58
網(wǎng)友莫斯科遇見58歲伊能靜與47歲秦昊,女方臉型緊致比男方還年輕

網(wǎng)友莫斯科遇見58歲伊能靜與47歲秦昊,女方臉型緊致比男方還年輕

明星私服穿搭daily
2026-03-21 14:25:06
裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰(zhàn)爭,一朝回血

裝錢的麻袋都不夠了!俄羅斯每天多掙500億,四年戰(zhàn)爭,一朝回血

泠泠說史
2026-03-20 18:31:09
山西太原一學校職工舉報自己吃空餉6年,多方回應

山西太原一學校職工舉報自己吃空餉6年,多方回應

大風新聞
2026-03-26 15:41:15
張雪峰:如果你不好好學習,一旦掉入社會底層,和一群沒有素質(zhì)的人混在一起.....

張雪峰:如果你不好好學習,一旦掉入社會底層,和一群沒有素質(zhì)的人混在一起.....

山東教育
2026-01-27 11:38:18
“重大轉(zhuǎn)變”!外媒:特朗普改變立場,將接受民主黨提議重啟美國土安全部部分部門

“重大轉(zhuǎn)變”!外媒:特朗普改變立場,將接受民主黨提議重啟美國土安全部部分部門

環(huán)球網(wǎng)資訊
2026-03-25 23:13:02
49歲翁帆突傳“喜訊”!喪夫5個月后高調(diào)露面,狀態(tài)好到出人意料

49歲翁帆突傳“喜訊”!喪夫5個月后高調(diào)露面,狀態(tài)好到出人意料

查爾菲的筆記
2026-03-16 19:12:07
中東大戰(zhàn),真正讓特朗普害怕的是:中國的已讀不回!

中東大戰(zhàn),真正讓特朗普害怕的是:中國的已讀不回!

閱識
2026-03-26 17:33:54
從歐爾班行為,看北約當年拒絕俄羅斯的遠見

從歐爾班行為,看北約當年拒絕俄羅斯的遠見

民間胡扯老哥
2026-03-23 18:53:38
放棄阿隆索!利物浦新帥目標敲定,他是下一個克洛普

放棄阿隆索!利物浦新帥目標敲定,他是下一個克洛普

奶蓋熊本熊
2026-03-26 04:28:59
加時被逆轉(zhuǎn)!申京:一切發(fā)生太快!杜蘭特:在胡打,我該果斷出手

加時被逆轉(zhuǎn)!申京:一切發(fā)生太快!杜蘭特:在胡打,我該果斷出手

籃球資訊達人
2026-03-26 15:28:40
2大勢力聯(lián)手、布局圍剿鄭麗文,恐遭滅頂之災,“內(nèi)鬼”已經(jīng)露餡

2大勢力聯(lián)手、布局圍剿鄭麗文,恐遭滅頂之災,“內(nèi)鬼”已經(jīng)露餡

忠于法紀
2026-03-26 13:28:20
白宮不裝了,承認伊朗拒絕談判,特朗普準備“釋放地獄”

白宮不裝了,承認伊朗拒絕談判,特朗普準備“釋放地獄”

書紀文譚
2026-03-26 16:28:13
現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

現(xiàn)實中的大齡剩女最后妥協(xié)了嗎?網(wǎng)友爆笑評論,真是一言難盡。

侃神評故事
2026-03-25 11:30:09
哪一年退休的人員,享有退休金補發(fā)?趕緊看看你符合條件嗎?

哪一年退休的人員,享有退休金補發(fā)?趕緊看看你符合條件嗎?

娛樂洞察點點
2026-03-26 16:11:56
吃相難看!張雪峰去世不到24小時,惡心的事情發(fā)生,官方出手整治

吃相難看!張雪峰去世不到24小時,惡心的事情發(fā)生,官方出手整治

阿鳧愛吐槽
2026-03-25 18:57:39
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

浙江男老師意外發(fā)現(xiàn)女學生長相酷似亡妻,鑒定后,結(jié)果讓他當場愣住

紅豆講堂
2024-09-13 09:35:43
2026-03-26 20:39:00
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
1183文章數(shù) 160關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
時尚
家居
健康
公開課

本地新聞

救命,這只醬板鴨已經(jīng)在我手機復仇了一萬遍

皮衣+裙,高級到炸

家居要聞

傍海而居 靜觀蝴蝶海

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版