国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

1美元Token撬動(dòng)4800美元收益!百萬美元級(jí)基準(zhǔn),最賺錢Agent出現(xiàn)了

0
分享至



機(jī)器之心編輯部

如果有價(jià)值 $100 萬美金的頂級(jí)專家任務(wù),AI 能完成其中多少?

答案是 48 萬美金,而只需要 100 美元的 Token 費(fèi)用。

這個(gè)數(shù)字怎么來的?Humanlaya Data Lab 聯(lián)合北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來自 Morgan Stanley、世達(dá)(Skadden)、協(xié)和醫(yī)院、中國電網(wǎng)、清華大學(xué)等頂級(jí)機(jī)構(gòu)或?qū)W府的 100+ 位資深專家,耗時(shí) 2000+ 小時(shí),構(gòu)建了等價(jià)于人類專家工作價(jià)值百萬美元級(jí)評(píng)測基準(zhǔn) —— $OneMillion-Bench

作為該基準(zhǔn)的主導(dǎo)構(gòu)建機(jī)構(gòu),Humanlaya 是一家成立于 2025 年的 AI 數(shù)據(jù)實(shí)驗(yàn)室,通過定義真實(shí)、高經(jīng)濟(jì)價(jià)值的可驗(yàn)證任務(wù),推動(dòng)大模型能力邊界的拓展與經(jīng)濟(jì)價(jià)值的落地。相關(guān)論文、代碼與數(shù)據(jù)已經(jīng)公開,鏈接如下:

  • 論文鏈接:https://github.com/humanlaya/OneMillion-Bench/blob/main/tech_report.pdf
  • GitHub:https://github.com/humanlaya/OneMillion-Bench
  • Hugging Face:https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench
  • 官網(wǎng)地址:www.humanlaya.com

隨著 OpenClaw 的爆火,人們越來越關(guān)注 AI Agent 能夠?qū)嶋H替人類完成的任務(wù)。$OneMillion-Bench 的核心想法很直白:用 “人類專家的時(shí)間與成本” 給任務(wù)定價(jià),再用 “是否滿足專家要求” 衡量模型交付質(zhì)量—— 如果把 AI 當(dāng)成 “數(shù)字白領(lǐng)專家”,總價(jià)值 100 萬美金的任務(wù),模型到底能賺多少錢?



$OneMillion-Bench模型表現(xiàn)和其獲取的經(jīng)濟(jì)價(jià)值

01|“Agent 能掙錢” 成為日常,但行業(yè)更缺一把尺:可交付、可復(fù)核、可控

從 2025 Agent 元年開始,AI 逐漸從 “答題機(jī)” 推進(jìn)到 “數(shù)字員工”,但業(yè)界現(xiàn)有評(píng)測集往往缺乏對(duì)實(shí)際經(jīng)濟(jì)價(jià)值的衡量,區(qū)分度不足、難以自動(dòng)化且僅有英文語境。

因此,$OneMillion-Bench 構(gòu)建了一套兼?zhèn)涓呓?jīng)濟(jì)價(jià)值 × 高區(qū)分度 × 可自動(dòng)評(píng)測的基準(zhǔn),它包含 400 道高難題目(200 個(gè)英文題 + 200 個(gè)中文題),覆蓋金融、法律、醫(yī)療、自然科學(xué)與工業(yè)五大領(lǐng)域的 92 個(gè)三級(jí)領(lǐng)域,與常見的考試題不同,每道題都是真實(shí)行業(yè)場景下的開放專家任務(wù),采用 Rubrics + LLM as Judge 評(píng)測

該基準(zhǔn)要求模型給出可落地的實(shí)操方案與判斷鏈路,在這些開放問題上,不僅回答 “是什么”,更要說明 “怎么做、按什么順序做、為什么這么做”。



$OneMillion-Bench 5 個(gè)領(lǐng)域,37 個(gè)二級(jí)和 92 個(gè)三級(jí)細(xì)分類別

之所以是 $OneMillion,是因?yàn)檫@些任務(wù)真的很 “貴”。

不同于傳統(tǒng)只評(píng)估模型準(zhǔn)確率的榜單,我們用 “錢” 來標(biāo)價(jià)每一道題的現(xiàn)實(shí)勞動(dòng)價(jià)值 ——任務(wù)經(jīng)濟(jì)價(jià)值 = 資深專家完成該任務(wù)的耗時(shí) × 專家時(shí)薪。時(shí)薪錨定官方或行業(yè)權(quán)威數(shù)據(jù),如中國部分城市人社局、美國勞動(dòng)統(tǒng)計(jì)局,任務(wù)的耗時(shí)來自多個(gè)領(lǐng)域?qū)<业墓餐u(píng)估。

據(jù)此,把所有任務(wù)的經(jīng)濟(jì)價(jià)值加和計(jì)算后,超過了 100 萬美元。如果在現(xiàn)實(shí)世界里把這些工作交給資深專家團(tuán)隊(duì)完成,你需要支付的成本就是百萬美元量級(jí)。這樣一來,模型評(píng)測不再停留在分?jǐn)?shù)上,而是更直觀地回答:AI 現(xiàn)在到底能穩(wěn)定交付多少 “可兌現(xiàn)價(jià)值”,以及距離真正上崗還差什么



$OneMillion-Bench 經(jīng)濟(jì)價(jià)值計(jì)算

02|四大關(guān)鍵設(shè)計(jì):多樣化真實(shí)場景 + 高價(jià)值任務(wù) + 非對(duì)稱負(fù)分機(jī)制 + 高質(zhì)量與一致性

(1)經(jīng)濟(jì)價(jià)值出發(fā),構(gòu)建高真實(shí)性、高含金量專家任務(wù)

我們在評(píng)測中引入用貨幣度量的 “經(jīng)濟(jì)價(jià)值”,核心是衡量模型在真實(shí)世界中能創(chuàng)造多少可交付的經(jīng)濟(jì)價(jià)值。開放式問題很難用單一標(biāo)準(zhǔn)答案衡量,我們邀請(qǐng)一線資深專家將真實(shí)工作流拆解為細(xì)顆粒度考點(diǎn):每道題設(shè)計(jì)15–35個(gè)考點(diǎn),累計(jì)7000+考點(diǎn)。題目覆蓋5–15 年經(jīng)驗(yàn)從業(yè)者在真實(shí)場景中常見的典型任務(wù),專家來自各類頭部機(jī)構(gòu),不只考知識(shí)點(diǎn),更考驗(yàn)特定場景下的專家級(jí)決策能力。

(2)引入 “負(fù)分項(xiàng)”,防止 Reward Hacking

在開放式任務(wù)里,模型最容易走向 “越說越多、看起來越專業(yè)”,蒙到考點(diǎn)就得分。為了避免虛高,我們加入行文邏輯和結(jié)構(gòu)、扣分項(xiàng)考點(diǎn)。模型如果只是堆砌內(nèi)容,沒有合理的邏輯展開,無法 “撞到” 高分。在考點(diǎn)分值設(shè)置上,我們采取+10 ~ -20 的非對(duì)稱考點(diǎn)分值:正向能力給分更克制,明確或致命錯(cuò)誤懲罰更重。這套結(jié)構(gòu)的效果更接近真實(shí)使用體感 —— 做對(duì)不一定加分很多,但做錯(cuò)往往會(huì)帶來更大代價(jià)。

(3)覆蓋 92 個(gè)三級(jí)分類,含 CN + Global 兩大子集單獨(dú)區(qū)分中國大陸題目,場景足夠真實(shí)、豐富

我們將任務(wù)細(xì)化到覆蓋92 個(gè)三級(jí)分類的真實(shí)崗位工作流;CN 是中文題目,Global 是英文題目,收集本地化、真實(shí)的題目,盡量還原真實(shí)的法規(guī)、流程與業(yè)務(wù)語境,從而更精準(zhǔn)刻畫不同模型在特定地域業(yè)務(wù)場景中的能力差異。

(4)一套 “像生產(chǎn)線” 的專家 Pipeline:讓高難 Rubrics 題可規(guī)模化、可質(zhì)控

為了確保數(shù)據(jù)場景真實(shí)、考點(diǎn)合理,團(tuán)隊(duì)在專家招募、選拔與培訓(xùn)上投入大量成本,專家平均整體通過率低于 5%,題目最終質(zhì)檢通過率38.1%。數(shù)據(jù)生產(chǎn)采用 3-4 名專家協(xié)作的 Pipeline,包含對(duì)抗性評(píng)審與仲裁機(jī)制。在難度控制上,我們采取雙向截?cái)嗖呗裕蕹^易樣本,對(duì)于過難樣本二次復(fù)審,確保數(shù)據(jù)質(zhì)量。



題目示例

03 | 成績單解讀:SOTA 的分?jǐn)?shù)已經(jīng)合格,但距離交付仍有距離

目前最強(qiáng)模型通過率超過 40%,在 100 萬美元的任務(wù)上,大約可以產(chǎn)出50 萬美元,而完成任務(wù)的 API 成本也就 100 美元左右!AI 不但已經(jīng)能 “干活”,而且在極高難度、極高單價(jià)的專業(yè)任務(wù)里,已經(jīng)能交付相當(dāng)可觀的美元級(jí)別的價(jià)值



模型的平均通過率、平均分和可以產(chǎn)生的總經(jīng)濟(jì)價(jià)值

Insight 1:成績已經(jīng)合格,但離 “可托付” 還很遠(yuǎn)

如果只看平均分,頭部模型已經(jīng)進(jìn)入了合格區(qū)間(60%+),第二梯隊(duì)也普遍在 50% 以上,說明 AI 在專業(yè)任務(wù)上確實(shí)能覆蓋不少關(guān)鍵點(diǎn)。但在真實(shí)工作里,平均分其實(shí)不夠用,未達(dá)到一定質(zhì)量需要返工。因此,我們引入了更貼近落地的指標(biāo) —— 通過率(Pass Rate):單題得分達(dá)到 70% 及以上,本題才算 “通過”

基于這個(gè)定義,本榜單的 Economic Value(經(jīng)濟(jì)價(jià)值)也不是按平均分線性折算,而是嚴(yán)格按 “可交付” 口徑計(jì)算,只有通過的任務(wù)才計(jì)入 “能賺到的錢”。平均分像 “考試成績”,而通過率才是 “上崗證”。

而從通過率的視角來看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到43.5%,即只有不到 45% 的任務(wù)可以通過驗(yàn)收,第二梯隊(duì)多在 25~30% 區(qū)間徘徊。換句話說,平均分看起來 “能用”,但能在一半以上任務(wù)里穩(wěn)定達(dá)到可交付標(biāo)準(zhǔn)的模型,目前還不存在。

目前,AI 已經(jīng)能穩(wěn)定交付一部分題目、并且能賺到很可觀的價(jià)值,但榜單也清楚告訴我們另一半真相:距離可交付的專業(yè)任務(wù)仍有相當(dāng)一段路程。

Insight 2:Web Search 是一把雙刃劍

Web Search 工具調(diào)用通常能顯著補(bǔ)齊事實(shí),尤其在經(jīng)濟(jì)金融領(lǐng)域的時(shí)效性問題,同樣適用于醫(yī)療、工業(yè)、法律中不斷迭代和演進(jìn)的規(guī)范和約束。

但它也會(huì)引入噪聲與 “看似權(quán)威的錯(cuò)誤來源”,從而出現(xiàn)波動(dòng)甚至回退。下一階段競爭不只是 “有沒有搜索”,而是 “會(huì)不會(huì)搜索” 以及搜索工具的效果如何:會(huì)不會(huì)選源、會(huì)不會(huì)交叉驗(yàn)證、會(huì)不會(huì)把證據(jù)鏈寫進(jìn)推理、會(huì)不會(huì)在噪聲下保持一致性。

Insight 3:復(fù)雜推理仍是通用瓶頸,方向正確但缺乏可執(zhí)行的細(xì)節(jié)

模型擅長寫一段看起來連貫的解釋,但一旦任務(wù)需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會(huì)出現(xiàn)深度不足與準(zhǔn)確性波動(dòng)。典型例子包括軟件工程、機(jī)器學(xué)習(xí)相關(guān)任務(wù)中的探索式問題。這類任務(wù)必須先建立結(jié)構(gòu),再做推導(dǎo),再做反證,再回溯修正。模型往往會(huì)在中途跳步,或者用看似合理的敘述替代真正的推理。

此外,模型容易給出方向正確但是缺乏可執(zhí)行細(xì)節(jié)的回復(fù)。比如在醫(yī)療場景下,需要的是可執(zhí)行的臨床要素,但模型容易泛泛而談,遺漏關(guān)鍵點(diǎn)。自然科學(xué)任務(wù)里存在類似的對(duì)實(shí)驗(yàn)條件的預(yù)期不足、對(duì)約束不夠細(xì)、機(jī)制鏈條理解淺。這種失敗在真實(shí)落地里殺傷力很大,因?yàn)樗雌饋?“很對(duì)”,但沒有可實(shí)踐的信息量。

05|One Step Further —— 將把模型推進(jìn)到 “可交付” 的那一步

如果站在 2024 年的視角,會(huì)覺得 AI 還是一個(gè) “大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大眾面前之后,我們看到的是另一件事:AI 已經(jīng)能交付 50 萬美元級(jí)別的專業(yè)價(jià)值;接下來競爭的關(guān)鍵,是繼續(xù)提升這份價(jià)值,并且將這份價(jià)值變得更穩(wěn)定、更可復(fù)核、更可控,使智能的邊際提升能直接轉(zhuǎn)化為生產(chǎn)力和收入。

$OneMillion-Bench 的意義不在于 “再做一個(gè)排行榜”,而是把 “數(shù)字員工” 的能力邊界量化出來:你今天和未來可以放心把哪些工作交給它

更多參考鏈接:

Humanlaya:https://lab.humanlaya.com/

BIGAI:https://www.bigai.ai

xbench:https://xbench.org

M-A-P:https://huggingface.co/m-a-p

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
A股,尾盤傳來一個(gè)“重磅利好”信號(hào),下周,或?qū)⒂瓉泶笞儽P!

A股,尾盤傳來一個(gè)“重磅利好”信號(hào),下周,或?qū)⒂瓉泶笞儽P!

夜深愛雜談
2026-04-24 21:31:35
文班能不能打?ESPN預(yù)測G3勝率:馬刺66.8%,開拓者33.2%

文班能不能打?ESPN預(yù)測G3勝率:馬刺66.8%,開拓者33.2%

懂球帝
2026-04-25 00:28:08
中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

中國游客暴跌55.9%,日本361萬游客擠爆櫻花季,缺口被全球填平

芳姐侃社會(huì)
2026-04-21 16:37:18
伊朗高官集體寫信勸最高領(lǐng)袖談判 秘密信件被曝光

伊朗高官集體寫信勸最高領(lǐng)袖談判 秘密信件被曝光

桂系007
2026-04-24 23:58:38
演訓(xùn)結(jié)束,中國艦隊(duì)離開西太!日本徹底傻眼了,反華竟反到大動(dòng)脈

演訓(xùn)結(jié)束,中國艦隊(duì)離開西太!日本徹底傻眼了,反華竟反到大動(dòng)脈

夢想的現(xiàn)實(shí)
2026-04-24 21:57:28
高德地圖殺瘋了:臺(tái)灣下載量狂飆第一,臺(tái)當(dāng)局禁令再次慘遭打臉!

高德地圖殺瘋了:臺(tái)灣下載量狂飆第一,臺(tái)當(dāng)局禁令再次慘遭打臉!

影像溫度
2026-04-24 17:58:11
歐盟宣布最大的第20輪對(duì)俄制裁!完全禁止俄石油海上運(yùn)輸

歐盟宣布最大的第20輪對(duì)俄制裁!完全禁止俄石油海上運(yùn)輸

項(xiàng)鵬飛
2026-04-24 12:34:28
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
“自稱空姐機(jī)艙鬧事”當(dāng)事人還原事發(fā)經(jīng)過,律師稱同機(jī)乘客可索賠

“自稱空姐機(jī)艙鬧事”當(dāng)事人還原事發(fā)經(jīng)過,律師稱同機(jī)乘客可索賠

封面新聞
2026-04-24 05:08:04
伊朗邊境開火

伊朗邊境開火

陸棄
2026-04-23 09:31:59
河南12歲貧困女孩,被校長收留免費(fèi)讀書,校長待她如親生。誰知,多年后,無意看見校長車內(nèi)的一件衣服,她竟2次退學(xué)…

河南12歲貧困女孩,被校長收留免費(fèi)讀書,校長待她如親生。誰知,多年后,無意看見校長車內(nèi)的一件衣服,她竟2次退學(xué)…

勵(lì)職派
2026-04-24 12:48:47
太意外了!2032奧運(yùn)舉辦地敲定:結(jié)果驚呆眾人,奧運(yùn)格局大變!

太意外了!2032奧運(yùn)舉辦地敲定:結(jié)果驚呆眾人,奧運(yùn)格局大變!

小濤叨叨
2026-04-22 17:06:20
張雪機(jī)車召回事件升級(jí)!63歲技術(shù)專家:0型圈不是裝反 是位置裝錯(cuò)

張雪機(jī)車召回事件升級(jí)!63歲技術(shù)專家:0型圈不是裝反 是位置裝錯(cuò)

周哥一影視
2026-04-24 18:37:28
兩只大熊貓將前往亞特蘭大,外交部:將為增進(jìn)中美人民友誼做出新貢獻(xiàn)

兩只大熊貓將前往亞特蘭大,外交部:將為增進(jìn)中美人民友誼做出新貢獻(xiàn)

澎湃新聞
2026-04-24 15:30:30
笑不活了!當(dāng)你覺得在工作中捅了很大的簍子的時(shí)候,不妨看看他

笑不活了!當(dāng)你覺得在工作中捅了很大的簍子的時(shí)候,不妨看看他

蘭妮搞笑分享
2026-04-24 12:59:31
安妮海瑟薇《穿普拉達(dá)的女王2》首映驚艷,再度獲封全球最美

安妮海瑟薇《穿普拉達(dá)的女王2》首映驚艷,再度獲封全球最美

瘋狂影視圈
2026-04-24 11:13:56
24號(hào)收評(píng):三大指數(shù)集體下挫,所有人都注意,大盤下周開始這樣看

24號(hào)收評(píng):三大指數(shù)集體下挫,所有人都注意,大盤下周開始這樣看

春江財(cái)富
2026-04-24 15:28:32
穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

大運(yùn)河時(shí)空
2026-04-21 16:30:03
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個(gè)

匹夫來搞笑
2026-04-20 13:24:51
悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

火山詩話
2026-04-23 06:28:37
2026-04-25 00:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12852文章數(shù) 142635關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4牽手華為,價(jià)格依然"屠夫級(jí)"

頭條要聞

航班提前起飛10分鐘 大學(xué)生把海航告了

頭條要聞

航班提前起飛10分鐘 大學(xué)生把海航告了

體育要聞

上海男籃23連勝+主場全勝 姚明之后最強(qiáng)一季

娛樂要聞

停工16個(gè)月!趙露思證實(shí)接拍新劇

財(cái)經(jīng)要聞

LG財(cái)閥內(nèi)斗:百億美元商業(yè)帝國爭奪戰(zhàn)

汽車要聞

零跑Lafa5 Ultra北京車展上市:11.88-12.48萬

態(tài)度原創(chuàng)

健康
教育
藝術(shù)
親子
數(shù)碼

干細(xì)胞如何讓燒燙傷皮膚"再生"?

教育要聞

家庭教育的清醒:鳥擇良木棲,擇滋養(yǎng)之地

藝術(shù)要聞

看!保加利亞美女?dāng)z影師的驚艷性感大片!

親子要聞

好書共讀 好文共享-《母雞》

數(shù)碼要聞

蘋果繼續(xù)拓展賽道!換帥后將進(jìn)軍新品類?

無障礙瀏覽 進(jìn)入關(guān)懷版