国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

悶聲賺錢的 RL 生意:每個(gè)任務(wù),200-20000 美元

0
分享至

2025 年 9 月,The Information 報(bào)道 Anthropic 曾討論在接下來一年內(nèi)投入超過 10 億美元用于 RL 環(huán)境建設(shè)


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

10 億美元,只買一樣?xùn)|西:讓模型「練習(xí)」的場地和題目

Epoch AI 最近發(fā)了一篇報(bào)告,采訪了 18 位來自 RL 環(huán)境初創(chuàng)公司、neolab(Cursor 這類應(yīng)用型 AI 公司)和前沿實(shí)驗(yàn)室的從業(yè)者


https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

通過這份報(bào)告,讓我們看一下這個(gè)正在快速成長的隱秘市場

為什么 RL 環(huán)境突然重要了

o1 證明了一件事:在有明確答案的任務(wù)上做強(qiáng)化學(xué)習(xí),能顯著提升模型的推理能力

Andrej Karpathy 在 2025 年度總結(jié)里說:通過在大量可驗(yàn)證任務(wù)和不同環(huán)境上訓(xùn)練大模型,大模型會(huì)自發(fā)涌現(xiàn)出在人類看來像是推理的策略


各家實(shí)驗(yàn)室現(xiàn)在瘋狂擴(kuò)展訓(xùn)練任務(wù)的類型和數(shù)量,同時(shí)持續(xù)加大 RL 訓(xùn)練的算力投入

但問題來了,沒有多樣化、高質(zhì)量的環(huán)境和任務(wù),盲目堆算力做 RL 很可能是在燒錢。Mechanize 估計(jì) RL 訓(xùn)練期間每個(gè)任務(wù)大約消耗 2400 美元的算力。如果任務(wù)質(zhì)量不行,這些算力就浪費(fèi)了

創(chuàng)建高質(zhì)量的環(huán)境和任務(wù),已經(jīng)成為擴(kuò)展模型能力的關(guān)鍵瓶頸

什么是 RL 環(huán)境

對于 RL 環(huán)境,這里有三個(gè)組件:環(huán)境、任務(wù)、評分器

環(huán)境
模型可以執(zhí)行動(dòng)作的沙盒??赡苁且粋€(gè) Docker 容器里跑著的代碼倉庫,可能是一個(gè)模擬的網(wǎng)站,可能是一個(gè) Excel 克隆。定義了模型能做什么(寫代碼、點(diǎn)按鈕、搜文檔)以及這些動(dòng)作會(huì)產(chǎn)生什么效果

任務(wù)
一個(gè)具體的目標(biāo)。比如「修復(fù)這個(gè) bug 讓測試通過」「在這個(gè) Airbnb 克隆里找到最便宜的兩居室」「用這份數(shù)據(jù)做個(gè)數(shù)據(jù)透視表」

評分器
判斷模型做得對不對、好不好??梢允菃卧獪y試,可以是另一個(gè)大模型按標(biāo)準(zhǔn)打分

三者組合起來,模型反復(fù)嘗試任務(wù),評分器給反饋,模型根據(jù)反饋調(diào)整策略


RL 環(huán)境示意

幾個(gè)具體的例子:

Git 倉庫環(huán)境:任務(wù)是修復(fù) bug 使單元測試通過,類似 SWE-bench。評分器運(yùn)行測試,檢查是否通過


Airbnb 克隆環(huán)境:任務(wù)是在指定城市和日期找最便宜的兩居室。環(huán)境是帶有真實(shí)房源、價(jià)格和篩選器的模擬網(wǎng)站。評分器驗(yàn)證最終答案是否正確


Bloomberg 終端克隆環(huán)境:任務(wù)是查找一批公司的 5 年復(fù)合年增長率。評分器檢查返回的數(shù)字是否正確


Excel 克隆環(huán)境:任務(wù)是根據(jù)原始數(shù)據(jù)創(chuàng)建數(shù)據(jù)透視表。評分器將輸出與參考答案對比


對于 Excel 這類電腦操作環(huán)境,單個(gè)環(huán)境可能支持?jǐn)?shù)百個(gè)不同任務(wù)。對于編程環(huán)境,更常見的是每個(gè)環(huán)境只包含一個(gè)任務(wù),因?yàn)樵O(shè)置倉庫狀態(tài)相對便宜

誰在做,多少錢

四類玩家:

專業(yè)初創(chuàng)公司
專注于構(gòu)建 RL 環(huán)境,覆蓋軟件工程、電腦操作、數(shù)學(xué)、金融等領(lǐng)域。Chris Barber 整理了一份名單:pavlovslist.com

傳統(tǒng)數(shù)據(jù)供應(yīng)商
Mercor、Surge、Handshake、Turing 這些過去主要提供人工標(biāo)注數(shù)據(jù)的公司,現(xiàn)在也開始賣 RL 環(huán)境。一位創(chuàng)始人說,主要價(jià)值是「他們有人」:如果需要快速擴(kuò)大任務(wù)創(chuàng)建規(guī)模,他們能比自己招人更快地配置項(xiàng)目

實(shí)驗(yàn)室內(nèi)部團(tuán)隊(duì)
xAI、Anthropic 都在招 RL 環(huán)境相關(guān)崗位。Cursor 這類 neolab 可以利用用戶數(shù)據(jù)來構(gòu)建訓(xùn)練任務(wù)。一位創(chuàng)始人指出,最近「內(nèi)部化的趨勢明顯增加」

產(chǎn)品公司
Salesforce、Slack 這類公司比任何人都更了解自己產(chǎn)品的界面和邊界情況。我們正在看到實(shí)驗(yàn)室與產(chǎn)品公司之間的合作:Benchling 與 Anthropic 合作生物工作流,OpenAI 與 Shopify、Stripe 合作購物場景


成本方面:

合同規(guī)模通常是每季度六到七位數(shù)。一位創(chuàng)始人說合同經(jīng)常是每季度七位數(shù)或更多

環(huán)境成本取決于保真度。SemiAnalysis 報(bào)道網(wǎng)站復(fù)刻品(UI 健身房)每個(gè)約 2 萬美元。但像 Slack 這樣復(fù)雜產(chǎn)品的高質(zhì)量復(fù)刻可能要 30 萬美元

任務(wù)成本多位受訪者認(rèn)同每個(gè) 2002000 美元的范圍。特別復(fù)雜的軟件工程任務(wù)可能到 2 萬美元,但很少見

獨(dú)占權(quán)顯著影響定價(jià)。兩位創(chuàng)始人獨(dú)立表示,獨(dú)家交易大約是非獨(dú)家的 45


整體支出在快速增長,但仍然只是算力成本的一小部分。OpenAI 2026 年的研發(fā)算力支出預(yù)計(jì)約 190 億美元。即使 Anthropic 花 10 億美元買 RL 環(huán)境,相比算力支出仍然是零頭

領(lǐng)域演變

最早是數(shù)學(xué)和編程

數(shù)學(xué)任務(wù)容易產(chǎn)出,不需要構(gòu)建復(fù)雜環(huán)境,只需要有可驗(yàn)證答案的任務(wù)。但一位創(chuàng)始人觀察到,數(shù)學(xué)任務(wù)容易創(chuàng)建,遷移到其他能力的效果不太好。一位受訪者說「數(shù)學(xué)可能在萎縮」

編程仍是主要需求來源

而且正在超越 SWE-bench 風(fēng)格的任務(wù)。一位創(chuàng)始人說:「我看到代碼環(huán)境從簡單的 PASS_TO_PASS 和 FAIL_TO_PASS 類型任務(wù),轉(zhuǎn)向更加產(chǎn)品化。軟件工程師實(shí)際上是怎么工作的?他們有 GitHub、有 Linear、有代碼 IDE」


主要增長領(lǐng)域是企業(yè)工作流

提交費(fèi)用報(bào)告、在電子表格中創(chuàng)建數(shù)據(jù)透視表、根據(jù)簡報(bào)生成幻燈片、在 CRM 中更新客戶記錄

一位創(chuàng)始人說:「我認(rèn)為企業(yè)工作流今年會(huì)爆發(fā)。實(shí)驗(yàn)室非??粗赜袃r(jià)值且可量化的東西,企業(yè)工作流正好符合這兩點(diǎn)」

環(huán)境形式多樣:MCP 風(fēng)格的工具集成、Playwright 風(fēng)格的瀏覽器交互、基于截圖的電腦操作。很多依賴于 Slack 或 SAP 等應(yīng)用的克隆

一位實(shí)驗(yàn)室研究員警告:「使用網(wǎng)站克隆有很多好的理由,但大家都在 vibe code 出有 bug 的網(wǎng)站,這沒什么用。存在大量沒用的爛環(huán)境」

兩個(gè)領(lǐng)域都在往長時(shí)間跨度任務(wù)發(fā)展。一位創(chuàng)始人說:「長時(shí)間跨度是未來方向。讓智能體執(zhí)行完整的端到端任務(wù),涉及在多個(gè)標(biāo)簽頁、瀏覽器之間導(dǎo)航,然后提交涉及多跳步驟的東西」

什么才是好的 RL 環(huán)境

獎(jiǎng)勵(lì)黑客是頭號(hào)顧慮

受訪者一致認(rèn)為,防止獎(jiǎng)勵(lì)黑客(reward hacking)是最重要的質(zhì)量標(biāo)準(zhǔn)


一位 neolab 研究員說:「獎(jiǎng)勵(lì)黑客是個(gè)大問題。模型可能通過搜索答案來作弊,或者如果你在腳本化倉庫時(shí)不小心,它可能會(huì)檢出未來的 commit。必須要魯棒。這是底線」

另一位說:「可靠性最重要:高獎(jiǎng)勵(lì)必須意味著任務(wù)確實(shí)被解決了,而不是被黑掉了」

創(chuàng)建魯棒的評分器很少能一次成功。一位創(chuàng)始人說:「需要很多很多次迭代來檢查獎(jiǎng)勵(lì)黑客」

難度校準(zhǔn)

任務(wù)需要有挑戰(zhàn)性但不能不可能完成。如果通過率是 0%100%,模型就學(xué)不到東西


多位受訪者提到希望最低通過率在 2%3%,或者在 64128 次嘗試中至少成功一次

整體分布也很重要。一位研究員說:「RL 環(huán)境的一個(gè)非常重要的特性是平滑的梯度:任務(wù)難度的多樣性」。可能需要混合搭配:一些任務(wù) 0%,一些 5%,一些 30%。訓(xùn)練一段時(shí)間后,0% 的任務(wù)變得可學(xué)習(xí)。一旦任務(wù)達(dá)到約 70% 的通過率,可能會(huì)丟棄它轉(zhuǎn)向更難的任務(wù)

保質(zhì)擴(kuò)量是核心瓶頸

一位創(chuàng)始人說:「保質(zhì)擴(kuò)量是大家看到的頭號(hào)瓶頸。找到專家并不難,但管理他們和做質(zhì)量控制很難」

一位 neolab 研究員說:「不容易找到人來監(jiān)督這個(gè)數(shù)據(jù)構(gòu)建、RL 環(huán)境構(gòu)建的過程。承包商,你需要激勵(lì)他們。當(dāng)然,你在付錢給他們。但你怎么確保他們不是只在用大模型?你怎么確保他們是真的驗(yàn)證過的?激勵(lì)承包商和做質(zhì)量控制是苦活」


一位創(chuàng)始人說,他們增加收入的限制因素就是在保持質(zhì)量的前提下擴(kuò)大任務(wù)創(chuàng)建的難度

需要什么技能

構(gòu)建環(huán)境主要是工程技能。創(chuàng)建好的任務(wù)需要不同的東西

一位創(chuàng)始人說:「領(lǐng)域知識(shí)和專家級的提示詞能力比 ML 技能對創(chuàng)建任務(wù)更重要」

一位研究員補(bǔ)充說產(chǎn)品感覺也很重要:「你需要知道人們實(shí)際上是怎么使用這些工具的」

一位研究員說:「你不一定需要是 AI 研究員,但也許一個(gè)重度 Claude Code 用戶、一個(gè)像 Riley Goodside 那樣的提示詞密語者,可能比 AI 研究員更擅長判斷前沿在哪里」

另一位簡單總結(jié):「最擅長這個(gè)的人可能是那些創(chuàng)建了真正被使用的基準(zhǔn)測試的人」

最后

RL 環(huán)境已經(jīng)從一個(gè)技術(shù)細(xì)節(jié),變成了前沿 AI 訓(xùn)練的關(guān)鍵一環(huán)

目前來看,這個(gè)領(lǐng)域還在快速變化,一年后的情況可能會(huì)大不相同

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
韓國:70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略儲(chǔ)備

韓國:70%的石油和20%的天然氣由中東進(jìn)口 危機(jī)時(shí)將動(dòng)用戰(zhàn)略儲(chǔ)備

財(cái)聯(lián)社
2026-03-02 19:02:07
外媒:特朗普對伊朗發(fā)出新威脅

外媒:特朗普對伊朗發(fā)出新威脅

參考消息
2026-03-01 15:52:28
現(xiàn)實(shí)教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

現(xiàn)實(shí)教訓(xùn)!重慶女子離婚無家可歸,抱娃跪求前任接盤,被連趕3次

今朝牛馬
2026-03-02 21:27:47
上海某電影院事件:81秒視頻流出,主角社交媒體曝光

上海某電影院事件:81秒視頻流出,主角社交媒體曝光

溫柔看世界
2026-03-02 16:33:22
伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

伊朗指揮中樞遭團(tuán)滅,數(shù)千名軍官正排隊(duì)投降

西樓飲月
2026-03-02 16:30:15
中國與伊朗接近達(dá)成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實(shí)!

中國與伊朗接近達(dá)成超音速導(dǎo)彈采購協(xié)議?外交部:不屬實(shí)!

澎湃新聞
2026-03-02 15:36:40
伊朗再對美以基地發(fā)動(dòng)大規(guī)模襲擊

伊朗再對美以基地發(fā)動(dòng)大規(guī)模襲擊

財(cái)聯(lián)社
2026-03-01 12:32:05
涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

涉美伊局勢,復(fù)旦教授、人大教授雙雙發(fā)聲,“外網(wǎng)和國內(nèi)的一些自媒體造謠,這些人臉都不要了”

都市快報(bào)橙柿互動(dòng)
2026-03-02 15:33:41
巴拿馬運(yùn)河兩端港口運(yùn)營恢復(fù),MSC完成首船裝卸

巴拿馬運(yùn)河兩端港口運(yùn)營恢復(fù),MSC完成首船裝卸

海事服務(wù)網(wǎng)CNSS
2026-03-02 19:58:04
A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

A股:剛剛,中央四部門聯(lián)合發(fā)布,不出意外,周二將迎來新的轉(zhuǎn)變

另子維愛讀史
2026-03-02 19:31:01
伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

伊朗生死關(guān)頭,一個(gè)關(guān)鍵人物走向前臺(tái)……

補(bǔ)壹刀
2026-03-02 16:08:19
參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開燈了

參宿四爆炸后,地球夜空會(huì)亮如白晝,至少半年不用開燈了

觀察宇宙
2026-03-02 19:09:35
突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

突發(fā)! 內(nèi)賈德沒死? 親信稱: 他一切安好

每日經(jīng)濟(jì)新聞
2026-03-02 12:32:06
伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

伊朗4枚彈道導(dǎo)彈“突襲”美軍航母,卻變成一場“昂貴的煙花秀”

矚望云霄
2026-03-02 10:49:12
暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動(dòng)了

暴跌40%,關(guān)店4000家!曾創(chuàng)神話的“零食界愛馬仕”,賣不動(dòng)了

好賢觀史記
2026-03-02 20:17:10
加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

加水加糖加廢料,椰子水系統(tǒng)性摻假翻車!網(wǎng)友:真夠歹毒……

柴狗夫斯基
2026-03-02 10:46:05
上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

上海影院現(xiàn)場意外捉奸,女子露面身材姣好,丈夫目睹后聲音都變了

離離言幾許
2026-03-02 12:52:58
36歲副鎮(zhèn)長開會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

36歲副鎮(zhèn)長開會(huì)時(shí)腦出血暈倒,除夕當(dāng)天不幸離世:上任僅10余天,最后一條動(dòng)態(tài)為督促社火排練,留下3個(gè)孩子

極目新聞
2026-03-02 15:45:15
不到48小時(shí),3大名人禁言被封,160萬粉賬號(hào)涼涼,不值得同情

不到48小時(shí),3大名人禁言被封,160萬粉賬號(hào)涼涼,不值得同情

青橘罐頭
2026-03-02 17:26:53
伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國和以色列

伊朗發(fā)射近1200枚導(dǎo)彈報(bào)復(fù)美國和以色列

中國網(wǎng)
2026-03-01 16:43:10
2026-03-03 02:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果中國官網(wǎng)上線iPhone 17e,4499元起

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

頭條要聞

中國留學(xué)生:很多人得知哈梅內(nèi)伊身亡后 決定盡快撤離

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

油價(jià)飆升 美伊沖突將如何攪動(dòng)全球經(jīng)濟(jì)

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

親子
本地
旅游
家居
公開課

親子要聞

45歲這年,我這個(gè)二胎媽媽決定做一件“瘋狂”的事

本地新聞

津南好·四時(shí)總相宜

旅游要聞

熱度飆升!非遺、冰雪…禹州元宵“文旅大餐”承包圓滿佳節(jié)!

家居要聞

萬物互聯(lián) 享科技福祉

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版