国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI能自己賺錢了:100美元狂賺50萬(wàn)美金!

0
分享至


$OneMillion-Bench:價(jià)值百萬(wàn)美金的專家級(jí)白領(lǐng)任務(wù),AI已經(jīng)能做大半了

如果有價(jià)值$100萬(wàn)美金的頂級(jí)專家任務(wù),AI能完成其中多少?

答案是48萬(wàn)美金,而只需要100美元的Token費(fèi)用。

這個(gè)數(shù)字怎么來(lái)的?Humanlaya Data Lab聯(lián)合北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來(lái)自Morgan Stanley、世達(dá)(Skadden)、協(xié)和醫(yī)院、中國(guó)電網(wǎng)、清華大學(xué)等頂級(jí)機(jī)構(gòu)或?qū)W府的100+位資深專家,耗時(shí)2000+小時(shí),構(gòu)建了等價(jià)于人類專家工作價(jià)值百萬(wàn)美元級(jí)評(píng)測(cè)基準(zhǔn)——$OneMillion-Bench。

隨著OpenClaw的爆火,人們?cè)絹?lái)越關(guān)注AI Agent能夠?qū)嶋H替人類完成的任務(wù)。$OneMillion-Bench的核心想法很直白:用“人類專家的時(shí)間與成本”給任務(wù)定價(jià),再用“是否滿足專家要求”衡量模型交付質(zhì)量——如果把AI當(dāng)成“數(shù)字白領(lǐng)專家”,總價(jià)值100萬(wàn)美金的任務(wù),模型到底能賺多少錢?


圖1:$OneMillion-Bench模型表現(xiàn)和其獲取的經(jīng)濟(jì)價(jià)值

「Agent能掙錢」成為日常,但行業(yè)更缺一把尺:可交付、可復(fù)核、可控

從2025Agent元年開(kāi)始,AI逐漸從“答題機(jī)”推進(jìn)到“數(shù)字員工”,但業(yè)界現(xiàn)有評(píng)測(cè)集往往缺乏對(duì)實(shí)際經(jīng)濟(jì)價(jià)值的衡量,區(qū)分度不足、難以自動(dòng)化且僅有英文語(yǔ)境,因此,$OneMillion-Bench構(gòu)建了一套兼?zhèn)涓呓?jīng)濟(jì)價(jià)值×高區(qū)分度×可自動(dòng)評(píng)測(cè)的基準(zhǔn)。

它包含400道高難題目(200個(gè)英文題+200個(gè)中文題),覆蓋金融、法律、醫(yī)療、自然科學(xué)與工業(yè)五大領(lǐng)域的92個(gè)三級(jí)領(lǐng)域,與常見(jiàn)的考試題不同,每道題都是真實(shí)行業(yè)場(chǎng)景下的開(kāi)放專家任務(wù),采用Rubrics + LLM as Judge評(píng)測(cè)。要求模型給出可落地的實(shí)操方案與判斷鏈路,在這些開(kāi)放問(wèn)題上,不僅回答“是什么”,更要說(shuō)明“怎么做、按什么順序做、為什么這么做”。


圖2:$OneMillion-Bench5個(gè)領(lǐng)域,37個(gè)二級(jí)和92個(gè)三級(jí)細(xì)分類別

之所以是$OneMillion,是因?yàn)檫@些任務(wù)真的很「貴」。

不同于傳統(tǒng)只評(píng)估模型準(zhǔn)確率的榜單,我們用“錢”來(lái)標(biāo)價(jià)每一道題的現(xiàn)實(shí)勞動(dòng)價(jià)值——任務(wù)經(jīng)濟(jì)價(jià)值=資深專家完成該任務(wù)的耗時(shí)×專家時(shí)薪。時(shí)薪錨定官方或行業(yè)權(quán)威數(shù)據(jù),如中國(guó)部分城市人社局、美國(guó)勞動(dòng)統(tǒng)計(jì)局,任務(wù)的耗時(shí)來(lái)自多個(gè)領(lǐng)域?qū)<业墓餐u(píng)估。據(jù)此,把所有任務(wù)的經(jīng)濟(jì)價(jià)值加和計(jì)算后,超過(guò)了100萬(wàn)美元。如果在現(xiàn)實(shí)世界里把這些工作交給資深專家團(tuán)隊(duì)完成,你需要支付的成本就是百萬(wàn)美元量級(jí)。這樣一來(lái),模型評(píng)測(cè)不再停留在分?jǐn)?shù)上,而是更直觀地回答:AI現(xiàn)在到底能穩(wěn)定交付多少“可兌現(xiàn)價(jià)值”,以及距離真正上崗還差什么。


表1:$OneMillion-Bench經(jīng)濟(jì)價(jià)值計(jì)算

四大關(guān)鍵設(shè)計(jì):多樣化真實(shí)場(chǎng)景+高價(jià)值任務(wù)+非對(duì)稱負(fù)分機(jī)制+高質(zhì)量與一致性

(1)經(jīng)濟(jì)價(jià)值出發(fā),構(gòu)建高真實(shí)性、高含金量專家任務(wù)

我們?cè)谠u(píng)測(cè)中引入用貨幣度量的“經(jīng)濟(jì)價(jià)值”,核心是衡量模型在真實(shí)世界中能創(chuàng)造多少可交付的經(jīng)濟(jì)價(jià)值。開(kāi)放式問(wèn)題很難用單一標(biāo)準(zhǔn)答案衡量,我們邀請(qǐng)一線資深專家將真實(shí)工作流拆解為細(xì)顆粒度考點(diǎn):每道題設(shè)計(jì)15–35個(gè)考點(diǎn),累計(jì)7000+考點(diǎn)。題目覆蓋5–15年經(jīng)驗(yàn)從業(yè)者在真實(shí)場(chǎng)景中常見(jiàn)的典型任務(wù),專家來(lái)自各類頭部機(jī)構(gòu),不只考知識(shí)點(diǎn),更考驗(yàn)特定場(chǎng)景下的專家級(jí)決策能力。

(2)引入“負(fù)分項(xiàng)”,防止Reward Hacking

在開(kāi)放式任務(wù)里,模型最容易走向“越說(shuō)越多、看起來(lái)越專業(yè)”,蒙到考點(diǎn)就得分。為了避免虛高,我們加入行文邏輯和結(jié)構(gòu)、扣分項(xiàng)考點(diǎn)。模型如果只是堆砌內(nèi)容,沒(méi)有合理的邏輯展開(kāi),無(wú)法“撞到”高分。在考點(diǎn)分值設(shè)置上,我們采取+10~-20的非對(duì)稱考點(diǎn)分值:正向能力給分更克制,明確或致命錯(cuò)誤懲罰更重。這套結(jié)構(gòu)的效果更接近真實(shí)使用體感——做對(duì)不一定加分很多,但做錯(cuò)往往會(huì)帶來(lái)更大代價(jià)。

(3)覆蓋92個(gè)三級(jí)分類,含CN+Global兩大子集單獨(dú)區(qū)分中國(guó)大陸題目,場(chǎng)景足夠真實(shí)、豐富

我們將任務(wù)細(xì)化到覆蓋92個(gè)三級(jí)分類的真實(shí)崗位工作流;CN是中文題目,Global是英文題目,收集本地化、真實(shí)的題目,盡量還原真實(shí)的法規(guī)、流程與業(yè)務(wù)語(yǔ)境,從而更精準(zhǔn)刻畫不同模型在特定地域業(yè)務(wù)場(chǎng)景中的能力差異。

(4)一套“像生產(chǎn)線”的專家Pipeline:讓高難Rubrics題可規(guī)模化、可質(zhì)控

為了確保數(shù)據(jù)場(chǎng)景真實(shí)、考點(diǎn)合理,團(tuán)隊(duì)在專家招募、選拔與培訓(xùn)上投入大量成本,專家平均整體通過(guò)率低于5%,題目最終質(zhì)檢通過(guò)率38.1%。數(shù)據(jù)生產(chǎn)采用3-4名專家協(xié)作的Pipeline,包含對(duì)抗性評(píng)審與仲裁機(jī)制。在難度控制上,我們采取雙向截?cái)嗖呗裕蕹^(guò)易樣本,對(duì)于過(guò)難樣本二次復(fù)審,確保數(shù)據(jù)質(zhì)量。


圖3:$OneMillion-Bench題目示例

成績(jī)單解讀:SOTA的分?jǐn)?shù)已經(jīng)合格,但距離交付仍有距離

目前最強(qiáng)模型通過(guò)率超過(guò)40%,在100萬(wàn)美元的任務(wù)上,大約可以產(chǎn)出50萬(wàn)美元,而完成任務(wù)的API成本也就100美元左右!AI不但已經(jīng)能“干活”,而且在極高難度、極高單價(jià)的專業(yè)任務(wù)里,已經(jīng)能交付相當(dāng)可觀的美元級(jí)別的價(jià)值。


表2:模型的平均通過(guò)率、平均分和可以產(chǎn)生的總經(jīng)濟(jì)價(jià)值

Insight 1:成績(jī)已經(jīng)合格,但離“可托付”還很遠(yuǎn)

如果只看平均分,頭部模型已經(jīng)進(jìn)入了合格區(qū)間(60%+),第二梯隊(duì)也普遍在50%以上,說(shuō)明AI在專業(yè)任務(wù)上確實(shí)能覆蓋不少關(guān)鍵點(diǎn)。但在真實(shí)工作里,平均分其實(shí)不夠用,未達(dá)到一定質(zhì)量需要返工。因此,我們引入了更貼近落地的指標(biāo)——通過(guò)率(Pass Rate):?jiǎn)晤}得分達(dá)到70%及以上,本題才算“通過(guò)”。

基于這個(gè)定義,本榜單的Economic Value(經(jīng)濟(jì)價(jià)值)也不是按平均分線性折算,而是嚴(yán)格按“可交付”口徑計(jì)算,只有通過(guò)的任務(wù)才計(jì)入“能賺到的錢”。平均分像“考試成績(jī)”,而通過(guò)率才是“上崗證”。

而從通過(guò)率的視角來(lái)看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到43.5%,即只有不到45%的任務(wù)可以通過(guò)驗(yàn)收,第二梯隊(duì)多在25~30%區(qū)間徘徊。換句話說(shuō),平均分看起來(lái)“能用”,但能在一半以上任務(wù)里穩(wěn)定達(dá)到可交付標(biāo)準(zhǔn)的模型,目前還不存在。

目前,AI 已經(jīng)能穩(wěn)定交付一部分題目、并且能賺到很可觀的價(jià)值,但榜單也清楚告訴我們另一半真相:距離可交付專業(yè)任務(wù)仍有相當(dāng)一段路程。

Insight 2:Web Search 是一把雙刃劍

Web Search 工具調(diào)用通常能顯著補(bǔ)齊事實(shí),尤其在經(jīng)濟(jì)金融領(lǐng)域的時(shí)效性問(wèn)題,同樣適用于醫(yī)療、工業(yè)、法律中不斷迭代和演進(jìn)的規(guī)范和約束。

但它也會(huì)引入噪聲與“看似權(quán)威的錯(cuò)誤來(lái)源”,從而出現(xiàn)波動(dòng)甚至回退。下一階段競(jìng)爭(zhēng)不只是“有沒(méi)有搜索”,而是“會(huì)不會(huì)搜索”以及搜索工具的效果如何:會(huì)不會(huì)選源、會(huì)不會(huì)交叉驗(yàn)證、會(huì)不會(huì)把證據(jù)鏈寫進(jìn)推理、會(huì)不會(huì)在噪聲下保持一致性。

Insight 3:復(fù)雜推理仍是通用瓶頸,方向正確但缺乏可執(zhí)行的細(xì)節(jié)

模型擅長(zhǎng)寫一段看起來(lái)連貫的解釋,但一旦任務(wù)需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會(huì)出現(xiàn)深度不足與準(zhǔn)確性波動(dòng)。典型例子包括軟件工程、機(jī)器學(xué)習(xí)相關(guān)任務(wù)中的探索式問(wèn)題。這類任務(wù)必須先建立結(jié)構(gòu),再做推導(dǎo),再做反證,再回溯修正。模型往往會(huì)在中途跳步,或者用看似合理的敘述替代真正的推理。

此外,模型容易給出方向正確但是缺乏可執(zhí)行細(xì)節(jié)的回復(fù)。比如在醫(yī)療場(chǎng)景下,需要的是可執(zhí)行的臨床要素,但模型容易泛泛而談,遺漏關(guān)鍵點(diǎn)。自然科學(xué)任務(wù)里存在類似的對(duì)實(shí)驗(yàn)條件的預(yù)期不足、對(duì)約束不夠細(xì)、機(jī)制鏈條理解淺。這種失敗在真實(shí)落地里殺傷力很大,因?yàn)樗雌饋?lái)“很對(duì)”,但沒(méi)有可實(shí)踐的信息量。

One Step Further ——將把模型推進(jìn)到“可交付”的那一步

如果站在2024年的視角,會(huì)覺(jué)得AI還是一個(gè)“大玩具”。但站在2026年、OpenClaw把Agent推到大眾面前之后,我們看到的是另一件事:AI已經(jīng)能交付50萬(wàn)美元級(jí)別的專業(yè)價(jià)值;接下來(lái)競(jìng)爭(zhēng)的關(guān)鍵,是繼續(xù)提升這份價(jià)值,并且將這份價(jià)值變得更穩(wěn)定、更可復(fù)核、更可控,使智能的邊際提升能直接轉(zhuǎn)化為生產(chǎn)力和收入。

$OneMillion-Bench的意義不在于“再做一個(gè)排行榜”,而是把“數(shù)字員工”的能力邊界量化出來(lái):你今天和未來(lái)可以放心把哪些工作交給它?

關(guān)于Humanlaya

Humanlaya是一家成立于2025年的AI數(shù)據(jù)實(shí)驗(yàn)室,通過(guò)定義真實(shí)、高經(jīng)濟(jì)價(jià)值的可驗(yàn)證任務(wù),推動(dòng)大模型能力邊界的拓展與經(jīng)濟(jì)價(jià)值的落地。

網(wǎng)址:www.humanlaya.com

開(kāi)源鏈接:

Paper:https://arxiv.org/abs/2603.07980

GitHub:

https://github.com/humanlaya/OneMillion-Bench

Hugging Face:

https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench

Website:

1. Humanlaya:www.humanlaya.com

2. BIGAI:https://www.bigai.ai

3. xbench:https://xbench.org

4. M-A-P:https://huggingface.co/m-a-p

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚(yú)全程cosplay

牛肉頂多注個(gè)水豬肉頂多催個(gè)肥,唯有三文魚(yú)全程cosplay

富貴說(shuō)
2026-04-14 23:15:09
王健林,被逼到崩潰邊緣...

王健林,被逼到崩潰邊緣...

鳴金網(wǎng)
2026-04-16 19:42:33
鞠婧祎方回應(yīng)“絲芭創(chuàng)始人王子杰去世”:不與爭(zhēng)論,生命為大,愿安息;王子杰曾創(chuàng)立SNH48,打造鞠婧祎“四千年美女”標(biāo)簽,推動(dòng)其成頂流

鞠婧祎方回應(yīng)“絲芭創(chuàng)始人王子杰去世”:不與爭(zhēng)論,生命為大,愿安息;王子杰曾創(chuàng)立SNH48,打造鞠婧祎“四千年美女”標(biāo)簽,推動(dòng)其成頂流

大風(fēng)新聞
2026-04-16 14:09:04
普京敲定訪華,特朗普緊急下命令,中國(guó)通告全球,無(wú)懼美國(guó)威脅

普京敲定訪華,特朗普緊急下命令,中國(guó)通告全球,無(wú)懼美國(guó)威脅

書(shū)紀(jì)文譚
2026-04-16 18:08:02
港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平穑@3位香港明星令人作嘔

港獨(dú)、罵中國(guó)人,如今卻還想來(lái)內(nèi)地?fù)平?,這3位香港明星令人作嘔

驕陽(yáng)之夏明
2026-04-15 16:44:42
5月1日醫(yī)療新政來(lái)了!全國(guó)公立醫(yī)院改革,以后看病不用再擠破頭

5月1日醫(yī)療新政來(lái)了!全國(guó)公立醫(yī)院改革,以后看病不用再擠破頭

復(fù)轉(zhuǎn)這些年
2026-04-16 12:26:39
烏克蘭4年獲捐35.8億美元,都花在了哪里?

烏克蘭4年獲捐35.8億美元,都花在了哪里?

網(wǎng)易新聞出品
2026-04-16 15:44:52
男子殺害同村小伙埋尸院中,后擔(dān)心罪行敗露又將姑父滅口,13年后終落網(wǎng)

男子殺害同村小伙埋尸院中,后擔(dān)心罪行敗露又將姑父滅口,13年后終落網(wǎng)

大風(fēng)新聞
2026-04-16 20:30:05
年輕人不買房不結(jié)婚了:就怪那個(gè)把房婚捆綁的人

年輕人不買房不結(jié)婚了:就怪那個(gè)把房婚捆綁的人

三言四拍
2026-04-16 16:29:36
普京質(zhì)問(wèn)俄羅斯經(jīng)濟(jì)為何出現(xiàn)負(fù)增長(zhǎng)!財(cái)政赤字激增

普京質(zhì)問(wèn)俄羅斯經(jīng)濟(jì)為何出現(xiàn)負(fù)增長(zhǎng)!財(cái)政赤字激增

項(xiàng)鵬飛
2026-04-16 19:17:42
周立波近況引熱議!定居美國(guó)現(xiàn)身同學(xué)會(huì),坐核心位抽雪茄大放厥詞

周立波近況引熱議!定居美國(guó)現(xiàn)身同學(xué)會(huì),坐核心位抽雪茄大放厥詞

鑒史錄
2026-04-16 23:30:31
從身家2000萬(wàn)到負(fù)債300萬(wàn):一個(gè)深圳游戲公司破產(chǎn)老板決定擺攤重啟

從身家2000萬(wàn)到負(fù)債300萬(wàn):一個(gè)深圳游戲公司破產(chǎn)老板決定擺攤重啟

深圳微時(shí)光
2026-04-16 15:49:16
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
重慶男子落水拽人后續(xù):故意摁壓救人者惹眾怒,真容曝光警方介入

重慶男子落水拽人后續(xù):故意摁壓救人者惹眾怒,真容曝光警方介入

奇思妙想草葉君
2026-04-16 13:12:35
“靈隱寺僧人是日本人、間諜”?抖音通報(bào)

“靈隱寺僧人是日本人、間諜”?抖音通報(bào)

觀察者網(wǎng)
2026-04-16 17:58:07
許家印認(rèn)罪不到24小時(shí),過(guò)往被扒,倒霉的有3個(gè)女人

許家印認(rèn)罪不到24小時(shí),過(guò)往被扒,倒霉的有3個(gè)女人

君笙的拂兮
2026-04-16 05:12:16
女教師群聊“八卦”被拘,起訴公安局再被駁回

女教師群聊“八卦”被拘,起訴公安局再被駁回

中國(guó)新聞周刊
2026-04-16 09:02:37
當(dāng)執(zhí)法者將國(guó)家法律摔在地上,請(qǐng)先別討論摩托能否上高速和張雪了

當(dāng)執(zhí)法者將國(guó)家法律摔在地上,請(qǐng)先別討論摩托能否上高速和張雪了

阿陸
2026-04-16 14:52:08
國(guó)內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

國(guó)內(nèi)暴跌35%,全球大跌19.1%,為什么大家都不買小米手機(jī)了?

科技松鼠
2026-04-16 16:00:08
這跟不穿有啥區(qū)別?張萌開(kāi)叉到胃,文詠珊副乳松弛,張?zhí)鞇?ài)大又挺

這跟不穿有啥區(qū)別?張萌開(kāi)叉到胃,文詠珊副乳松弛,張?zhí)鞇?ài)大又挺

嫹筆牂牂
2026-04-16 07:31:11
2026-04-17 06:52:49
融資中國(guó) incentive-icons
融資中國(guó)
股權(quán)投資與產(chǎn)業(yè)投資媒體平臺(tái)
7369文章數(shù) 21326關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

特朗普:伊朗已同意幾乎所有要求

頭條要聞

特朗普:伊朗已同意幾乎所有要求

體育要聞

皇馬拜仁踢出名局,但最搶鏡的還是他

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰(shuí)的生意?

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

教育
本地
藝術(shù)
時(shí)尚
公開(kāi)課

教育要聞

牛劍之外,近十年從未降低過(guò)門檻的三所英國(guó)大學(xué)!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

藝術(shù)要聞

這 4 個(gè)紅底黑字,藏著毛主席給一位普通母親的最高贊譽(yù),看完淚目

爆火的前額葉梗,讓多少年輕人主動(dòng)確診「腦殘」?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版