国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

這是AI領域最容易被誤解的一張圖表

0
分享至


(來源:麻省理工科技評論)

每當 OpenAI、Google 或 Anthropic 推出新一代前沿大語言模型,AI 領域的從業(yè)者都會翹首以盼。大家會一直等待 METR 更新那張如今極具標志性的圖表,這份期待才會落下。

METR 是一家人工智能研究非營利機構,機構名稱的英文全稱是 Model Evaluation & Threat Research,即模型評估與威脅研究。這張圖表自去年 3 月首次發(fā)布以來,就在人工智能領域的相關探討中占據(jù)重要地位。圖表顯示,人工智能的部分能力正呈指數(shù)級發(fā)展,而近期推出的模型,其表現(xiàn)更是超越了這一本就令人矚目的發(fā)展趨勢。

Anthropic 旗下性能最強的模型最新版本 Claude Opus 4.5 就是典型案例,該模型于 11 月末正式推出。12 月,METR 發(fā)布公告稱,這款模型似乎能獨立完成一項人類需要約 5 小時才能完成的任務。這一表現(xiàn)即便以指數(shù)級發(fā)展趨勢來預判,也實現(xiàn)了大幅突破。Anthropic 的一名安全研究人員在推特上表示,基于這一研究結果,他將調整自己的研究方向。該公司的另一名員工則直白地發(fā)推稱:“媽媽快來接我,我害怕了。”


(來源:METR.ORG)

但實際情況遠比這些夸張的反應所呈現(xiàn)的復雜。一方面,METR 對特定模型能力的評估結果存在較大的誤差范圍。METR 曾在 X 平臺明確表示,Claude Opus 4.5 或許只能穩(wěn)定完成人類約 2 小時能做完的任務,也可能能成功完成人類耗時長達 20 小時的任務。受研究方法本身存在的不確定性影響,目前無法得出確切結論。

METR 的技術人員西德妮?馮?阿克斯(Sydney Von Arx)表示:“人們對這張圖表的過度解讀體現(xiàn)在多個方面。”

更重要的一點是,這張由 METR 制作的圖表并非對人工智能的綜合能力進行測算,該機構也從未宣稱過這一點。為制作這張圖表,METR 主要以編程任務為測試基準對模型進行評估,通過測算或預估人類完成每項任務的耗時來判定任務難度。這一評估標準并未獲得所有人的認可。

換句話說,Claude Opus 4.5 能完成人類耗時 5 小時的特定任務,并不代表它已接近取代人類工作者的水平。

METR 成立的初衷是評估前沿人工智能系統(tǒng)帶來的風險。盡管該機構因這張指數(shù)級發(fā)展趨勢圖表聲名遠揚,但它也與多家人工智能企業(yè)合作,對企業(yè)的系統(tǒng)開展更詳盡的評估,同時還發(fā)布了多項獨立研究成果。其中 2025 年 7 月發(fā)布的一項研究引發(fā)了廣泛關注,該研究指出,人工智能編程助手實際上可能會降低軟件工程師的工作效率。

這張指數(shù)級發(fā)展趨勢圖表為 METR 打響了知名度,而該機構對于這張圖表所引發(fā)的一眾狂熱解讀,似乎有著復雜的態(tài)度。今年 1 月,該圖表相關論文的主要作者之一托馬斯?奎瓦(Thomas Kwa)發(fā)布了一篇博文,回應了外界的部分質疑,并明確指出了圖表的局限性。目前 METR 正著手撰寫一份更詳盡的常見問題解答文檔。但奎瓦并不認為這些努力能從根本上改變外界的解讀方式。他表示:“我認為無論我們做什么,那些鼓吹炒作的聲音終究會忽略所有的前提條件和注意事項。”

盡管如此,METR 的研究團隊仍認為,這張圖表能為人工智能的發(fā)展軌跡提供有價值的參考。阿克斯說:“任何人都絕不能把自身發(fā)展的決策依據(jù)完全寄托在這張圖表上?!?她接著補充道:“但我敢肯定,這一發(fā)展趨勢會持續(xù)下去?!?/p>

這張 METR 圖表之所以容易引發(fā)誤解,部分原因在于它的實際內涵遠比表面看起來復雜。圖表的橫軸設計十分簡潔,用于標注各個人工智能模型的發(fā)布日期。但縱軸的設計卻暗藏門道,其作用是記錄各模型的時間跨度。這是 METR 獨創(chuàng)的一項特殊評估指標,奎瓦和阿克斯均表示,這一指標一直被外界誤解

想要準確理解模型時間跨度的含義,了解 METR 測算這一指標的全過程會有所幫助。首先,METR 的研究團隊整理了一系列測試任務,這些任務涵蓋快速選擇題和復雜的編程挑戰(zhàn),且均與軟件工程領域相關。隨后,該團隊讓人類程序員嘗試完成其中大部分任務,并統(tǒng)計他們的完成耗時,以此為每項任務設定人類完成的基準時間。部分任務讓專業(yè)程序員完成僅需數(shù)秒,而有些任務則需要耗時數(shù)小時。

METR 讓大語言模型完成這一系列測試任務后發(fā)現(xiàn),先進的模型能輕松完成那些人類耗時短的任務。但隨著模型嘗試的任務所需的人類完成時間不斷增加,模型的任務完成準確率會開始下降。研究人員會根據(jù)模型的表現(xiàn),在人類任務耗時的時間尺度上,找到模型能成功完成約 50% 任務的臨界點,這一臨界點就是該模型的時間跨度。

這些詳細的測算過程,都記錄在 METR 發(fā)布首張時間跨度圖時同步推出的博文和學術論文中。但這張圖表在社交媒體上傳播時,往往缺少這些背景信息,時間跨度這一指標的真正含義也因此被曲解。其中一種常見的誤讀是,將圖表縱軸的數(shù)值理解為模型能獨立運行的時長,比如 Claude Opus 4.5 對應的約 5 小時。但事實并非如此,這些數(shù)值代表的是,模型能成功完成的任務所需的人類完成耗時??甙l(fā)現(xiàn)這一誤讀現(xiàn)象極為普遍,因此他在近期發(fā)布的博文開頭就專門對此進行了糾正。當被問及會為網(wǎng)絡上傳播的圖表版本補充哪些信息時,他表示會在所有提及任務完成耗時的地方,都加上 “人類” 這個關鍵詞。

盡管時間跨度的概念較為復雜,且一直被外界廣泛誤讀,但這一概念本身具備基礎的參考價值。時間跨度為 1 小時的模型,能將軟件工程師部分簡單的工作實現(xiàn)自動化;而時間跨度為 40 小時的模型,理論上能獨立完成數(shù)天的工作。但有部分專家對將人類的任務完成耗時作為量化人工智能能力的有效指標提出了質疑。加州大學伯克利分校的模型評估方向博士生伊尼奧盧瓦?德博拉?拉吉(Inioluwa Deborah Raji)表示:“我并不認為,一項任務的完成耗時更長,就必然意味著這項任務的難度更高,這并非既定事實?!?/p>

阿克斯表示,她最初也對將時間跨度作為評估指標的合理性持懷疑態(tài)度。而她和同事的分析結果,讓她改變了這一看法。研究團隊測算出 2025 年初市面上所有主流模型的 50% 任務完成時間跨度后,將這些數(shù)據(jù)繪制成圖表,發(fā)現(xiàn)頭部模型的時間跨度正隨著時間推移不斷增加,且提升速度還在加快。這些模型的時間跨度大約每 7 個月就會翻倍,這意味著,2020 年年中,最先進的模型能完成人類耗時 9 秒的任務;2023 年初,能完成人類耗時 4 分鐘的任務;2024 年末,能完成人類耗時 40 分鐘的任務。阿克斯說:“我可以從理論層面反復探討這一指標是否合理,但實實在在的發(fā)展趨勢就擺在那里?!?/p>

正是這一極具沖擊力的發(fā)展趨勢,讓這張 METR 圖表成為了人工智能領域的爆款。很多人都是通過《AI 2027》了解到這張圖表的,這篇爆紅的內容融合了科幻故事與量化預測,提出超級人工智能可能會在 2030 年滅絕人類的觀點?!禔I 2027》的作者將這張 METR 圖表作為部分預測的依據(jù),并在內容中大量引用。用阿克斯的話來說:“當大多數(shù)人通過這種主觀性極強的解讀方式了解到你的研究成果時,會讓人感覺有些別扭?!?/p>

當然,也有很多人引用這張 METR 圖表時,并未聯(lián)想到大規(guī)模的人類滅絕與災難。在部分人工智能領域的支持者看來,這一指數(shù)級發(fā)展趨勢預示著,人工智能將很快引領人類進入經(jīng)濟高速增長的新時代。例如,風險投資公司紅杉資本近期發(fā)布了一篇題為《2026 年:通用人工智能時代來臨》的文章,該文以這張 METR 圖表為依據(jù),認為能勝任員工或外包工作者角色的人工智能即將出現(xiàn)。這篇文章的作者之一、紅杉資本普通合伙人索尼婭?黃(Sonya Huang)表示:“我們撰寫這篇文章的初衷,其實是想引發(fā)大家的思考:當你的發(fā)展規(guī)劃以百年為時間尺度時,你會作何選擇?”

但模型在 METR 圖表中實現(xiàn)了 1 小時的時間跨度,并不代表它能在現(xiàn)實工作中取代人類 1 小時的工作量。一方面,用于評估模型的這些任務,無法反映出實際工作中的復雜性和不確定性。在最初的研究中,奎瓦、阿克斯及其同事提出了任務 “復雜程度” 的量化評估標準,評估維度包括模型是否明確知曉自身的評分規(guī)則、模型出現(xiàn)錯誤后是否能輕松重新開始任務。而對于高復雜程度的任務,模型在這兩個維度的答案均為否。研究團隊發(fā)現(xiàn),模型在完成高復雜程度任務時,表現(xiàn)會明顯變差,不過無論是高復雜程度還是低復雜程度的任務,模型的整體表現(xiàn)都呈提升趨勢。

即便 METR 設定的最高復雜程度的任務,也無法充分反映出人工智能勝任大部分工作的能力,因為這張圖表的評估依據(jù)幾乎全部是編程任務。伊利諾伊大學厄巴納 - 香檳分校的計算機科學助理教授丹尼爾?康(Daniel Kang)表示:“模型的編程能力可以不斷提升,但并不會憑空掌握其他領域的技能。” 奎瓦及其同事在后續(xù)研究中發(fā)現(xiàn),人工智能在其他領域任務中的時間跨度同樣呈現(xiàn)指數(shù)級增長趨勢,但這項后續(xù)研究的規(guī)范性遠不及最初的研究。

盡管存在這些局限性,仍有不少專業(yè)人士認可 METR 的這項研究。康表示:“在該領域的現(xiàn)有研究中,METR 的這項研究是設計最為嚴謹?shù)难芯恐弧!?/strong>就連紐約大學前教授、長期對大語言模型持批判態(tài)度的加里?馬庫斯(Gary Marcus),也在博文中稱,為制作這張圖表開展的大部分研究工作都堪稱出色。

可以肯定的是,仍會有部分人將這張 METR 圖表解讀為人工智能引發(fā)人類末日的預言,但實際上它的本質十分樸素:這是一個經(jīng)過精心設計的科學工具,將人們對人工智能發(fā)展的直觀感受轉化為了具體的數(shù)值。METR 的工作人員也坦言,這張圖表絕非完美的評估工具。但在人工智能這一新興且發(fā)展迅猛的領域,即便不夠完美的工具,也能具備巨大的參考價值。

阿克斯表示:“一群研究人員在重重限制下,盡最大努力打造出了這一評估指標。它在很多方面都存在明顯的缺陷,但我依然認為,它是同類型工具中最出色的之一。”

https://www.technologyreview.com/2026/02/05/1132254/this-is-the-most-misunderstood-graph-in-ai/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

毛奇、李佩霞2026年近況公布,兩人服刑結局給所有人提了醒

娛樂督察中
2026-02-21 03:23:47
國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

國企開始“軟裁員”:沒等來辭退書,卻等來了一把鈍刀子

時尚的弄潮
2026-02-24 19:53:20
云南撫仙湖百名游客沉船無人生還,探險者潛入水底發(fā)現(xiàn)千年尸陀林

云南撫仙湖百名游客沉船無人生還,探險者潛入水底發(fā)現(xiàn)千年尸陀林

真實故事匯
2024-07-02 12:47:27
紫牛頭條 | 全家出游老人服務區(qū)內被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

紫牛頭條 | 全家出游老人服務區(qū)內被狗撲咬骨折,犬主付千元后駕車離開,警方已立案

揚子晚報
2026-02-24 23:56:16
皇馬23次晉級歐冠16強,淘汰賽對陣抽簽周五揭曉

皇馬23次晉級歐冠16強,淘汰賽對陣抽簽周五揭曉

樂道足球
2026-02-26 09:40:40
春節(jié)假期結束一天,鹿哈官宣得女,感謝了鹿晗,曾7個月賺3500萬

春節(jié)假期結束一天,鹿哈官宣得女,感謝了鹿晗,曾7個月賺3500萬

叨嘮
2026-02-25 16:37:17
WTT大滿貫!女單8強賽對陣,世界亞軍1-3出局,王曼昱肩負重任

WTT大滿貫!女單8強賽對陣,世界亞軍1-3出局,王曼昱肩負重任

以茶帶書
2026-02-25 19:20:55
鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

鄺兆鐳首秀送助攻!助海牛戰(zhàn)勝泰山,董路:挺好的開始保持耐心

奧拜爾
2026-02-25 17:53:31
前國乒情侶擦肩而過!陳幸同與周啟豪互相無視 分手后不能做朋友

前國乒情侶擦肩而過!陳幸同與周啟豪互相無視 分手后不能做朋友

念洲
2026-02-26 08:34:03
村里最后餓死的那個人,只有九歲

村里最后餓死的那個人,只有九歲

霹靂炮
2026-02-22 20:24:41
摩根大通:預計2026年底黃金價格將達到6300美元/盎司

摩根大通:預計2026年底黃金價格將達到6300美元/盎司

財聯(lián)社
2026-02-25 15:10:13
博德閃耀CEO:我們必須使用人工草皮,這里根本種不了天然草

博德閃耀CEO:我們必須使用人工草皮,這里根本種不了天然草

懂球帝
2026-02-25 12:18:36
女子服務區(qū)內躺在后車引擎蓋上阻車視頻曝光,后車駕駛員指責其“人肉插隊”,加油站和交警回應

女子服務區(qū)內躺在后車引擎蓋上阻車視頻曝光,后車駕駛員指責其“人肉插隊”,加油站和交警回應

極目新聞
2026-02-25 20:00:30
皇馬打出反種族歧視橫幅!驅逐行法西斯禮會員 仍拒絕向中國道歉

皇馬打出反種族歧視橫幅!驅逐行法西斯禮會員 仍拒絕向中國道歉

念洲
2026-02-26 09:20:33
愛潑斯坦專機內部畫面曝光:灰塵與嬰兒油交織的大床驚現(xiàn)。

愛潑斯坦專機內部畫面曝光:灰塵與嬰兒油交織的大床驚現(xiàn)。

特約前排觀眾
2026-02-26 00:20:05
沒來過大陸就敢罵幾十年?本想找黑料,結果成了大型“真香”現(xiàn)場

沒來過大陸就敢罵幾十年?本想找黑料,結果成了大型“真香”現(xiàn)場

縱擁千千晚星
2026-02-26 06:25:56
十萬人不敢打兩千人,傷亡對比巨大的長津湖戰(zhàn)役中,到底誰贏了?

十萬人不敢打兩千人,傷亡對比巨大的長津湖戰(zhàn)役中,到底誰贏了?

歷史回憶室
2026-02-26 00:33:12
“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

“去中國化”最徹底的4個國家,有一個已經(jīng)完全西化了

北緯的咖啡豆
2026-02-24 09:16:33
秦海璐素顏逛長隆!王新軍摟著10歲兒子好親近,一家3口甜到齁!

秦海璐素顏逛長隆!王新軍摟著10歲兒子好親近,一家3口甜到齁!

庭小娛
2026-02-25 15:05:20
精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

精神小妹的生活原來是這樣的!網(wǎng)友:終于知道她們?yōu)樯抖歼@么瘦了

深度報
2026-02-11 23:35:03
2026-02-26 10:27:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16320文章數(shù) 514655關注度
往期回顧 全部

科技要聞

單季營收681億凈利429億!英偉達再次炸裂

頭條要聞

牛彈琴:特朗普宣稱"美國贏麻了" 全世界都笑了

頭條要聞

牛彈琴:特朗普宣稱"美國贏麻了" 全世界都笑了

體育要聞

從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

短劇市場風云突變!有人投百萬賠得精光

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

本地
旅游
藝術
公開課
軍事航空

本地新聞

津南好·四時總相宜

旅游要聞

春意漸濃 多地賞花游持續(xù)升溫

藝術要聞

誰能認出這幅14字草書的真正作者?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美政府給新伊核協(xié)議設限內容遭披露

無障礙瀏覽 進入關懷版