国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Token的成本下降10倍,但大模型公司卻離盈利越來越遠(yuǎn)

0
分享至

這篇文章的作者Ethan Ding,系統(tǒng)性地闡明了如今正在AI行業(yè)發(fā)生的一個“詭異”現(xiàn)象:雖然Token的單位成本下降了,但是由于AI能做的事越來越多,越來越被更多的人自動化地執(zhí)行更大的任務(wù), Token的消耗爆炸了,大模型公司的虧損率都在不斷提高。

不過,這對經(jīng)歷過多次互聯(lián)網(wǎng)補貼大戰(zhàn)的中國用戶來說,卻也遠(yuǎn)不算什么新鮮事了:業(yè)務(wù)發(fā)展越來越紅火,虧損額度越來越大,公司估值節(jié)節(jié)走高,直到......

未來,大語言模型的單位成本,也許還會一次又一次地便宜10倍,但AI付費訂閱服務(wù)依然會被榨干。

token可以理解為詞元,在大模型里,token 是分詞器把文本切分后的最小處理/計費單位,它可能是一個字、一個詞或一個標(biāo)點。模型的上下文長度、生成長度、速度與費用,都按token計量。

但是,要注意它不直接等同于“字”或“詞”,拆分規(guī)則要由具體分詞器決定。

如若要了解token和大語言模型的具體工作原理,可參考這篇:

如下為《ai subscriptions get short squeezed》的正文,enjoy,歡迎點贊、轉(zhuǎn)發(fā)和收藏。

想象一下:你創(chuàng)立了一家公司,但你心里清楚,消費者每月最多只愿意付20美金(如今大部分AI大模型服務(wù)的月費價格)。

沒關(guān)系,你心想,典型的VC打法——按成本價收費,為增長犧牲利潤率,CAC、LTV 之類的賬,你也都算過了。

不過接下來就有意思了,你看過 a16z 的那張圖,顯示 LLM 的成本每年下降 10 倍。

于是你心里盤算,今天每月20美金,可以做到收支平衡,等模型明年成本降低10 倍:砰的一下,利潤率就有 90% 了。

虧損只是暫時的,利潤終將到來!

這個策略,簡單到連 VC 公司新人都能懂

  • 第一年:每月20美金 實現(xiàn)收支平衡

  • 第二年:算力成本降低 10 倍,利潤率達(dá)到 90%

  • 第三年:買個豪華大游艇!

這個策略,確實也說得通,因為大家都在念叨:“大模型推理的成本,每 6 個月就降至原來的三分之一,我們會沒事的。”

但是,18個月后,你的利潤率依然負(fù)得不能再負(fù)。

Windsurf 公司最終被拆解變賣,Claude Code 本周(25年8月初)也不得不下架了后來推出的每月200 美元但不限量的套餐。

公司們?nèi)栽诔掷m(xù)流血。

模型確實更便宜了,GPT-3.5 的調(diào)用費用,已經(jīng)只有原來的十分之一。但不知為何,利潤率反而更糟了。

這是不是有哪里不對?

一、沒人想要前天的報紙

GPT-3.5 現(xiàn)在雖然便宜了 10 倍,但它的吸引力也和在 iPhone 發(fā)布會上亮相的翻蓋手機(jī)一樣低。

當(dāng)一款新模型作為 SOTA 問世時,99% 的用戶需求會立刻轉(zhuǎn)向它,消費者對所有產(chǎn)品都是這么做的。

現(xiàn)在來看看那些前沿模型的實際定價歷史,也就是任何時候都占據(jù) 99%用戶需求的那些模型:

看看上圖,發(fā)現(xiàn)什么了嗎?

當(dāng) GPT-4 以 $60 的價格推出時,盡管 GPT-3.5(之前的SOTA)便宜 26 倍,所有人還是一窩蜂地改用 GPT-4。

當(dāng) Claude 3 Opus 以 $60 推出時,哪怕 GPT-4 已經(jīng)降價,人們還是轉(zhuǎn)向了 Claude 3 Opus。

10 倍降成本確實存在,但體現(xiàn)在上一代的模型上。

所以,這就是“成本會下降”戰(zhàn)略站不住腳的第一個原因:市場對“最好的語言模型”有需求,就是這么簡單。

然而,最好的模型價格始終都差不多貴,因為那代表了當(dāng)下推理所需的最大成本。

當(dāng)你和 AI 相處時——無論是在編程、寫作還是思考——你總是追求最高的質(zhì)量。

沒有人會打開 Claude 想:“嗯,要不我用那個老版本幫老板省點錢。”

我們在認(rèn)知上都是貪婪的生物,想要能獲得的最強大腦,特別是當(dāng)我們拿自己的寶貴時間去換取它的時候。

二、Tokens的消耗,比我們想象中還要多

“好吧,但這仍然可控,對吧?我們就一直保持收支平衡不就行了?”

哎,天真的孩子。

的確,每一代前沿模型的單個Token 成本,確實也沒有變貴。

然而,出現(xiàn)更糟糕的情況:模型消耗的 Token 數(shù)量,呈現(xiàn)了爆炸式增長

以前,ChatGPT 對一句話的問題,只回復(fù)一句話。

現(xiàn)在,Deep Research模式要花 3 分鐘來規(guī)劃,20 分鐘來閱讀,再用 5 分鐘為你重寫一份報告。

推理階段計算量的激增,導(dǎo)致了一個誰也沒預(yù)料到的結(jié)果:AI 能夠完成的單次任務(wù)長度,每六個月翻一番。

過去返回1000 個 Token 的任務(wù),現(xiàn)在返回10萬個。

當(dāng)你把趨勢往后推算,數(shù)字瘋狂得離譜。

目前,一次 20分鐘的“深度研究”運行成本大約是1美金。

到了 2027 年,我們將有 Agent 可以連續(xù)運行 24 小時,而不丟失上下文,再考慮前沿模型的單價并未下降,那就是一次運行要燒掉72美金。

也就是每位用戶每天72美金,而且用戶還可以同時并行運行多個這樣的任務(wù)。

一旦我們能部署 Agent 異步執(zhí)行連續(xù) 24 小時的任務(wù),我們就不會再一次只給它一條指令然后等反饋了。

我們會批量調(diào)度它們,整個 AI 艦隊們并行地攻克問題,燒起Token來就跟不要錢似的。

顯然,這一點怎么強調(diào)都不為過:每月20美金的付費訂閱,連支撐一個用戶每天跑一次成本1美金的深度研究模式都做不到。

但,這恰恰是我們正在面對的局面。

模型能力每提高一次,都意味著它們一次能夠有效利用的算力上限又升高了。

這就像造出了一臺更省油的發(fā)動機(jī),然后用省下的油去造了一輛巨型卡車。

沒錯,你每加侖油是能跑得更遠(yuǎn)了,但你也會一次燒掉 50 倍的油。

這種局面,逼得Windsurf 不得不賣身,任何采用“固定費用套餐 + 高強度 Token 消耗”模式的創(chuàng)業(yè)公司,如今都正處于槍口之下。

三、Anthropic奮力應(yīng)對這場逼空

Claude Code 推出的Max-Unlimited套餐,可以說是我們見過的、為抵御這場風(fēng)暴所做的最精密嘗試。然而,他們用盡了一切招數(shù),但最后仍然被擊潰了。

他們的策略確實很巧妙:

1、價格定高 10 倍:當(dāng) Cursor 收 $20/月 時,它定 $200/月。先留出更大的緩沖區(qū),好讓出血開始前能多撐一陣子;

2、按負(fù)載自動切換模型:負(fù)載高時就從 Opus 模型($75/百萬 Token)切換到 Sonnet 模型($15/百萬),閱讀時用 Haiku 模型優(yōu)化。

就像 AWS 的彈性擴(kuò)容,只不過更加用在“刀刃”上。

他們肯定把這種行為,直接寫進(jìn)了模型權(quán)重里。這是一種范式轉(zhuǎn)變,后面我們大概率會更常見到。

3、把計算量轉(zhuǎn)給用戶的機(jī)器:如果用戶的 CPU 都閑著,為什么還要自己開沙箱sandboxes呢?

盡管用了這些高明的工程手段,Token的消耗仍然像超新星一樣爆炸了。

排名第一的用戶,消耗了100億個 Token,相當(dāng)于在一個月里輸出了1.25萬本《戰(zhàn)爭與和平》的內(nèi)容。

怎么做到的?就算每次連續(xù)運行 10 分鐘,一個用戶又怎么能燒掉 100 億個Token呢?

結(jié)果發(fā)現(xiàn),連續(xù)運行 10~20 分鐘,剛好足夠卡詩“for loop”的妙用。

一旦將 Token 消耗與用戶在應(yīng)用中的時間解耦decouple,物理規(guī)律就接管了一切:把 Claude 丟去執(zhí)行一個任務(wù),讓它自己檢查結(jié)果、重構(gòu)、優(yōu)化,如此循環(huán),直到破產(chǎn)為止。

用戶變成了 API 編排者,在 Anthropic 買單的情況下,7×24 小時地運行代碼轉(zhuǎn)換引擎。

從聊天到 Agent 的演化,一夜之間就發(fā)生了,消耗量暴增了 1000 倍。

這是一次相變,而不是漸變。

于是, Anthropic 下架了無限量套餐。

他們本可以嘗試每月2000美金的訂價,但教訓(xùn)不在于價格夠不夠高,而在于在這個新世界中,無論哪種訂閱模式,都不可能撐得起無限使用。

換言之,在這個新環(huán)境下,不存在行得通的固定訂閱價。

這筆賬已經(jīng)從根本上算不平了

四、其他人的囚徒困境
這讓其他所有公司都陷入了一個進(jìn)退兩難的處境。
每家AI公司都知道按用量計費(而不是固定價格),就能救自己,但他們也知道那么做會要了自己的命。
你在老老實實按 $0.01/1000Token收費,你那靠風(fēng)投資金支持的競爭對手卻提供每月只需$20的無限量套餐。
用戶會選誰,還用猜嗎?

典型的囚徒困境:

  • 大家都按用量收費 → 行業(yè)可持續(xù)發(fā)展

  • 大家都按包月收費 → 一起卷到死

  • 你按用量收,別人包月 → 你先死

  • 你包月收,別人按用量 → 你贏了,但遲早也得死

結(jié)果就是,人人都選擇了背叛。

大家都去補貼重度用戶,所有人都在曬高斜率的增長曲線,但最終大家都不得不發(fā)布“重要定價更新”的公告。

Cursor、Lovable、Replit,他們心里都清楚賬怎么回事。他們選擇了今天先拼增長、明天再談盈利,最終難免破產(chǎn),但那是下任 CEO 才要操心的問題。

老實說,也許他們最終是對的。

在跑馬圈地階段,市場份額確實比利潤率更重要。只要 VC 們還在不斷掏錢,填補單位經(jīng)濟(jì)的虧空。

但去問問 Jasper,當(dāng)音樂停止時會發(fā)生什么吧。

五、避免死局?
難道真的有辦法,避免這場“死局”嗎?
據(jù)傳,Cognition 最近正以150 億美元估值融資,而它對外公布的 ARR ,還不到1 億美元(我猜也就 5000 萬左右)。
對比之下,Cursor 在 ARR5 億美元時,融到了100 億美元的估值,增長曲線要陡峭得多。
前者收入不到后者的八分之一,估值卻達(dá)到了后者的三分之二。
風(fēng)投們知道關(guān)于 Cognition 的什么秘密,是我們所不知道的嗎?兩家公司做的都是寫代碼的 AI Agent。
難道 Cognition 找到了擺脫死亡螺旋的辦法?

從邏輯上看,避開死局有三條出路:

1、從第一天起就按使用量計費

不補貼用戶,不搞「先拉用戶、以后再變現(xiàn)」,而是老老實實按經(jīng)濟(jì)賬來,理論上這聽上去很不錯。

可是,有按量計費且大獲成功的面向消費者的 AI 公司嗎?

消費者討厭分段計費!

他們寧愿多花錢買不限量,也不想事后收到賬單時被嚇一跳。

每一家成功的 to C 訂閱服務(wù)——Netflix、Spotify、ChatGPT——用的都是統(tǒng)一套餐。

你只要一加上計量表,增長立馬死掉。

2、極高的切換成本 ,然后帶來高利潤率

Devin 正是all in在這條路上。

他們最近宣布了和花旗銀行及高盛的合作:在每家讓 4 萬名軟件工程師上手 Devin。按每人每月20美金算,這是個年收入近1000萬美金的項目。

但問題來了:你是愿意有來自高盛的1000萬美金的ARR,還是愿意有來自發(fā)燒級開發(fā)者們的5億美金ARR?

答案顯而易見:6 個月的部署實施、合規(guī)審核、安全審計、采購地獄……這意味著拿下高盛的單子非常困難,雖然一旦拿下,就幾乎不可能被撼動。只有當(dāng)銀行里那個拍板的人,把自己的聲譽都押在你身上時,你才能簽下這些合同。而簽了約后,每個人都會想方設(shè)法把項目做成。

這也是為什么在超大規(guī)模云廠商之外,最大的那些軟件公司全都是賣比如 CRM/ERP/EHR等系統(tǒng)的,它們面向的正是這些客戶。這類公司通常能做到 80-90% 的利潤率,因為客戶越是不容易走,你的買家對價格就越不敏感。

當(dāng)競爭對手趕到時,你已經(jīng)在客戶的體系中扎根很深,想切換得再耗一個 6 個月的銷售周期。他們并非走不了,而是你客戶的 CFO寧死也不想再經(jīng)歷一次選擇過程了。

3、垂直整合,靠基礎(chǔ)架構(gòu)賺錢

這是 Replit 的游戲:把編碼 Agent 和應(yīng)用托管、數(shù)據(jù)庫管理、部署監(jiān)控、日志等打包提供。

每個 Token 都在虧錢,但你在這代新開發(fā)者的技術(shù)棧中每一層其他地方都攫取了價值,以下是 Replit 是如何做到高度垂直整合的。

把 AI 虧本賣,然后引流,來帶動那些與 AWS 競爭的服務(wù)消費。你賣的不是推理本身,你賣的是其余的一切,而推理部分只是營銷開支。

絕妙之處在于,代碼生成,自然而然會催生托管的需求。

每個應(yīng)用都需要運行的地方,每個數(shù)據(jù)庫都需要維護(hù),每次部署都需要監(jiān)控。

就讓 OpenAI 和 Anthropic 去把推理價格卷到歸零吧,而你擁有其余所有部分。

那些還在玩“固定套餐、不計成本增長”的公司,都是行尸走肉,它們不過是把昂貴的葬禮安排在了第四季度而已。

六、前路和未來

我總是看到一些創(chuàng)始人,指望著“模型明年會便宜 10 倍”,把它當(dāng)成救命稻草。

沒錯,模型會更便宜,但你的用戶會期待它們多干出 20 倍的活。

Cursor 對Windsurf 損益的壓力,讓他們找不到脫身之策。

就連擁有地球上最垂直整合應(yīng)用層的 Anthropic ,也無法讓無限量的固定訂閱模式跑通。

雖然我常說,先發(fā)制人勝過策略聰明being early beats being smart,但是,如果只是搶先,卻沒有計劃,也意味著你只是第一個進(jìn)墓地的人。

如今,不會有 Google 給負(fù)利潤業(yè)務(wù)開出 24 億美元的支票。

當(dāng)“以后再說”意味著你的AWS 賬單已經(jīng)比營收還高時,也就沒什么“以后再說”的余地了。

完。

歡迎關(guān)注、收藏和分享,點贊代表催稿下一篇,嘻嘻,之后我會發(fā)布黃仁勛出道以來推薦過的書,這位老哥非常神奇,現(xiàn)年62歲、創(chuàng)業(yè)32年的他,似乎一共只推薦過7本書,但是本本經(jīng)典,敬請期待。)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
伊朗媒體稱霍爾木茲海峽再關(guān)閉

伊朗媒體稱霍爾木茲海峽再關(guān)閉

財聯(lián)社
2026-04-09 04:09:04
繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標(biāo)語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

小鹿姐姐情感說
2026-04-09 04:17:27
看到了魯比奧的對華發(fā)言,才愕然發(fā)現(xiàn),原來中國已經(jīng)這么牛了

看到了魯比奧的對華發(fā)言,才愕然發(fā)現(xiàn),原來中國已經(jīng)這么牛了

娛樂小可愛蛙
2026-04-08 03:05:57
當(dāng)你有了存款會瞞著身邊人嗎?網(wǎng)友:存錢就連親爹媽都別告訴

當(dāng)你有了存款會瞞著身邊人嗎?網(wǎng)友:存錢就連親爹媽都別告訴

帶你感受人間冷暖
2026-02-23 00:30:12
60年代毛澤東指示急電臺灣,蔣介石閱完電報心中一顫:把經(jīng)國叫來

60年代毛澤東指示急電臺灣,蔣介石閱完電報心中一顫:把經(jīng)國叫來

楚風(fēng)說歷史
2026-04-08 17:30:03
國民黨由盛轉(zhuǎn)衰五大關(guān)鍵推手,李登輝只能排第二,第一實至名歸!

國民黨由盛轉(zhuǎn)衰五大關(guān)鍵推手,李登輝只能排第二,第一實至名歸!

夢史
2026-03-25 04:13:02
A股十大“分紅王”股票

A股十大“分紅王”股票

風(fēng)風(fēng)順
2026-04-05 03:05:03
孫中山遺體,為何從開始的永久保存供人瞻仰,轉(zhuǎn)變?yōu)榛炷练夤?>
    </a>
        <h3>
      <a href=云霄紀(jì)史觀
2026-03-31 16:47:50
歐冠1/4決賽首回合:大巴黎2-0利物浦,10人巴薩0-2不敵馬競

歐冠1/4決賽首回合:大巴黎2-0利物浦,10人巴薩0-2不敵馬競

全景體育V
2026-04-09 06:24:10
每秒飛1光年也沒用!殘酷的事實證明,人類永遠(yuǎn)也飛不出宇宙

每秒飛1光年也沒用!殘酷的事實證明,人類永遠(yuǎn)也飛不出宇宙

觀察宇宙
2026-04-06 11:31:01
反轉(zhuǎn)!2026油電新政實錘,曾經(jīng)省錢的電車,如今成本反超油車?

反轉(zhuǎn)!2026油電新政實錘,曾經(jīng)省錢的電車,如今成本反超油車?

小李子體育
2026-04-09 04:29:12
1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

磊子講史
2025-12-23 20:04:20
X熱議:女性喜歡的臉 vs 男性喜歡的臉

X熱議:女性喜歡的臉 vs 男性喜歡的臉

東京新青年
2026-03-28 11:02:30
他到底還要毀多少部劇啊?!

他到底還要毀多少部劇?。?!

毒舌一姐
2026-04-07 17:05:23
涼透了的專業(yè),頂級碩士也在網(wǎng)絡(luò)哭訴:月薪4500!

涼透了的專業(yè),頂級碩士也在網(wǎng)絡(luò)哭訴:月薪4500!

黯泉
2026-04-07 22:03:00
萊斯特城慘遭雙殺!扣6分上訴被無情駁回,昔日冠軍深陷保級區(qū)

萊斯特城慘遭雙殺!扣6分上訴被無情駁回,昔日冠軍深陷保級區(qū)

仰臥撐FTUer
2026-04-09 07:29:01
血賺!曼聯(lián)省下 1 億不簽安德森,租借小將竟是下一個卡塞米羅

血賺!曼聯(lián)省下 1 億不簽安德森,租借小將竟是下一個卡塞米羅

瀾歸序
2026-04-09 05:39:35
本周末,北京這些路段交通管制,公交采取臨時運營措施

本周末,北京這些路段交通管制,公交采取臨時運營措施

趣味萌寵的日常
2026-04-09 06:33:31
全新一代奧迪A6L銷量大跌!2.0T最新發(fā)動機(jī)8秒多才破百,減配減料

全新一代奧迪A6L銷量大跌!2.0T最新發(fā)動機(jī)8秒多才破百,減配減料

趣味萌寵的日常
2026-04-08 17:05:35
2026-04-09 08:48:49
柳胖胖 incentive-icons
柳胖胖
36氪、虎嗅、鈦媒體專欄作者
221文章數(shù) 387關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

頭條要聞

一天之內(nèi) 以軍空襲黎巴嫩致254死1165傷

體育要聞

40歲,但實力倒退12年

娛樂要聞

侯佩岑全家悉尼度假,一家四口幸福滿溢

財經(jīng)要聞

局勢再升級!霍爾木茲海峽關(guān)閉

汽車要聞

20萬級滿配華為全家桶 華境S是懂家庭的大六座

態(tài)度原創(chuàng)

時尚
本地
親子
手機(jī)
軍事航空

ED網(wǎng)紅病,正在掏空年輕女性

本地新聞

跟著歌聲游安徽,聽古村回響

親子要聞

深圳婦幼救治孕期22周超早產(chǎn)兒,出生體重僅550克

手機(jī)要聞

從三足鼎立到四分天下,榮耀入局強勢改變格局

軍事要聞

霍爾木茲海峽已再次關(guān)閉

無障礙瀏覽 進(jìn)入關(guān)懷版