国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OECD報(bào)告:AI能力達(dá)到什么水平了?

0
分享至

2025年6月3日,經(jīng)濟(jì)合作與發(fā)展組織發(fā)布《OECD人工智能能力介紹》報(bào)告,介紹了OECD的“AI能力指標(biāo)”測(cè)試版。這些指標(biāo)旨在評(píng)估和比較AI相對(duì)于人類能力的發(fā)展情況,由50多位專家歷時(shí)5年合作開發(fā),涵蓋了從語言到操作等九種人類能力?,F(xiàn)就該報(bào)告主要內(nèi)容總結(jié)如下。

1.目前AI能力已達(dá)到什么水平?

該報(bào)告提出了9項(xiàng)AI能力評(píng)估指標(biāo),每個(gè)指標(biāo)分1-5級(jí)別,1級(jí)最低,5級(jí)最高,后者意味著可以達(dá)到人類水平,目前AI在各指標(biāo)方面的能力具體如下表:

指標(biāo)

級(jí)別

能力描述

語言

3

此級(jí)別的AI系統(tǒng)能夠利用多語料庫知識(shí)可靠地理解和生成語義。它們展現(xiàn)出高級(jí)的邏輯和社會(huì)推理能力,能夠處理文本、語音和圖像。它們支持多種語言,并通過迭代學(xué)習(xí)技術(shù)進(jìn)行自適應(yīng)。

社交互動(dòng)

2

AI系統(tǒng)結(jié)合簡單的動(dòng)作來表達(dá)情緒,并從互動(dòng)中學(xué)習(xí),以應(yīng)對(duì)未來的挑戰(zhàn)。它們會(huì)回憶事件,并根據(jù)經(jīng)驗(yàn)進(jìn)行微調(diào),識(shí)別基本信號(hào),并通過語氣和語境感知情緒。它們還能感知個(gè)體差異,并將過往經(jīng)驗(yàn)應(yīng)用于反復(fù)出現(xiàn)的挑戰(zhàn)。

問題解決

2

AI系統(tǒng)將定性推理(例如空間或時(shí)間關(guān)系)與定量分析相結(jié)合,以解決使用傳統(tǒng)領(lǐng)域抽象框架構(gòu)建的復(fù)雜專業(yè)問題。它們能夠處理多種定性狀態(tài)和轉(zhuǎn)換,預(yù)測(cè)系統(tǒng)如何隨時(shí)間演變或變化。

創(chuàng)造力

3

AI系統(tǒng)能夠生成與訓(xùn)練數(shù)據(jù)截然不同的有價(jià)值輸出,挑戰(zhàn)傳統(tǒng)的界限。它們將技能擴(kuò)展到新任務(wù)中,并跨領(lǐng)域整合想法。

元認(rèn)知和批判性思維

2

AI系統(tǒng)會(huì)監(jiān)控自身的理解情況,并相應(yīng)地調(diào)整方法。它們處理的是可能包含模糊之處的熟悉信息,需要謹(jǐn)慎把握信心并做出有根據(jù)的推測(cè)。它們能夠應(yīng)對(duì)部分不完整的信息,區(qū)分自己已知和未知的內(nèi)容。

知識(shí)、學(xué)習(xí)和記憶

3

AI系統(tǒng)通過分布式表示學(xué)習(xí)信息的語義,并推廣到新情況。它們可以處理大規(guī)模數(shù)據(jù)集以獲得情境敏感的理解,但缺乏實(shí)時(shí)學(xué)習(xí)能力。

視覺

3

AI系統(tǒng)能夠處理目標(biāo)對(duì)象外觀和光照的一些變化,執(zhí)行多個(gè)子任務(wù),并應(yīng)對(duì)已知的數(shù)據(jù)和情況變化。

操作

2

AI系統(tǒng)處理各種形狀的物體和適度柔軟的材料,在低至中度雜亂的受控環(huán)境中操作。它們?cè)陂_放空間中繞過小障礙物,適應(yīng)隨機(jī)放置在定義區(qū)域內(nèi)的物體,并在沒有時(shí)間限制的情況下執(zhí)行任務(wù)。

機(jī)器人智能

2

機(jī)器人系統(tǒng)在部分已知的、靜態(tài)的、半結(jié)構(gòu)化的環(huán)境中運(yùn)行,具有一些明確的可變性。它們處理短期、簡單的多功能任務(wù),這些任務(wù)雖然定義明確,但涉及內(nèi)在的不確定性。它們可以參與有限的人類交互(如極簡界面),并在熟悉的任務(wù)設(shè)置中管理一些意想不到的結(jié)果。他們幾乎不涉及道德問題。

2.如何評(píng)價(jià)AI目前的能力水平?

語言:目前最先進(jìn)的大語言模型如ChatGPT的GPT4o,被認(rèn)為處于第3級(jí)的低閾值。大語言模型擅長獲取世界知識(shí),跨多種語言工作,并通過微調(diào)和后處理進(jìn)行迭代學(xué)習(xí)。由于無法進(jìn)行結(jié)構(gòu)良好的分析推理,并且容易產(chǎn)生錯(cuò)誤信息,導(dǎo)致LLM難以進(jìn)行穩(wěn)健推理,這仍然是其發(fā)展的一個(gè)瓶頸。

社交互動(dòng):GPT-4o和同類的大語言模型在社交互動(dòng)上被評(píng)定為2級(jí),因?yàn)樗鼈兙邆鋸?qiáng)大的社交記憶能力。然而,它們并非具身的,缺乏身份感且社交感知有限。像索尼的AIBO這樣的社交機(jī)器人也是2級(jí)水平,但其能力有所不同,其是具身的,擁有基本的感知和身份,但它們解決問題的能力不如大語言模型系統(tǒng)。

問題解決:符號(hào)AI系統(tǒng)在物流規(guī)劃和模型檢查等狹窄領(lǐng)域展示了超人類的能力,因此被評(píng)為2級(jí)水平。盡管LLM能夠滿足某些3級(jí)要求,例如解決以自然語言描述的問題,但由于它們的幻覺問題,它們?nèi)匀贿^于脆弱。這一點(diǎn)仍然適用于早期的“推理”模型,比如在2024年底發(fā)布的GPTo1預(yù)覽版。更先進(jìn)的“推理”模型,如GPTo3和DeepSeek R1 V3是否如此,將在OECD人工智能能力指標(biāo)的完整版中進(jìn)行分析。

創(chuàng)造力:當(dāng)前的AI系統(tǒng)能夠生成對(duì)人類有價(jià)值的輸出,有些新穎,有時(shí)甚至令人驚喜。谷歌的AlphaZero就是一個(gè)達(dá)到3級(jí)水平的例子,它利用神經(jīng)符號(hào)架構(gòu),生成了高效且令人驚訝的策略。LLM依賴于概率架構(gòu)和訓(xùn)練數(shù)據(jù)(即先前人類生成的內(nèi)容),這意味著它們無法生成與現(xiàn)有人類知識(shí)有顯著差異的輸出。然而,這些輸出通常很有用,有時(shí)甚至很新穎,這意味著LLM是典型的2級(jí)水平。

元認(rèn)知與批判性思維:目前最先進(jìn)的LLM通常在元認(rèn)知和批判性思維上被評(píng)為2級(jí)。它們能夠監(jiān)控自己的理解,并根據(jù)當(dāng)前問題調(diào)整其解決方法。然而,它們?cè)谡喜皇煜さ男畔⒒蛟u(píng)估自身知識(shí)方面存在困難,而這正是3級(jí)所要求的水平。在評(píng)估時(shí),代理系統(tǒng)通常也表現(xiàn)為2級(jí),這反映出AI在自我監(jiān)控和自適應(yīng)調(diào)節(jié)自身推理能力方面的持續(xù)局限。

知識(shí)、學(xué)習(xí)與記憶:LLM和相關(guān)形式的生成式AI是這一領(lǐng)域的前沿系統(tǒng),通過從存儲(chǔ)知識(shí)中進(jìn)行概括等能力,達(dá)到了3級(jí)。盡管在這一領(lǐng)域已經(jīng)進(jìn)行了一些關(guān)于AI智能體的研究,但迄今為止沒有任何系統(tǒng)表現(xiàn)出4級(jí)所要求的能力,例如通過與世界的互動(dòng)進(jìn)行增量學(xué)習(xí),或具有對(duì)知識(shí)空白的元認(rèn)知意識(shí)。

視覺:目前前沿的AI視覺系統(tǒng)處于3級(jí)。雖有少數(shù)具有有限4級(jí)能力,然而這種性能尚不足以讓任何系統(tǒng)達(dá)到該等級(jí)。3級(jí)系統(tǒng)能夠穩(wěn)健地處理有限范圍的數(shù)據(jù)類型,并能應(yīng)對(duì)目標(biāo)物體在光照、形狀和外觀方面的細(xì)微變化。與4級(jí)系統(tǒng)不同,當(dāng)前的AI視覺系統(tǒng)無法基于自我反饋來提升性能,也無法應(yīng)對(duì)光照和目標(biāo)物體的較大變化。

操作:目前AI操作系統(tǒng)被評(píng)定為2級(jí)。典型的最先進(jìn)系統(tǒng)是用于高度控制的制造環(huán)境中的機(jī)器人手臂。相比之下,3級(jí)系統(tǒng)能夠在適度雜亂和動(dòng)態(tài)的環(huán)境中工作,能夠處理形狀、大小和重量各異的物體。操作系統(tǒng)仍距離人類水平還很遠(yuǎn)。然而,在物體和環(huán)境能夠標(biāo)準(zhǔn)化的情況下——例如在工廠中——這些系統(tǒng)仍將對(duì)人類就業(yè)產(chǎn)生影響,且對(duì)技能需求的影響依然存在。

機(jī)器人智能:最先進(jìn)的機(jī)器人系統(tǒng)是自主配送機(jī)器人和工業(yè)自動(dòng)化系統(tǒng),它們被為2級(jí)水平。這些系統(tǒng)在結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定義任務(wù)時(shí)表現(xiàn)良好。然而,機(jī)器人系統(tǒng)目前無法可靠地執(zhí)行多步驟任務(wù)或與人類協(xié)作,這是達(dá)到3級(jí)所必需的。

3.為什么要推出AI能力指標(biāo)框架?

該報(bào)告指出,目前對(duì)AI發(fā)展存在不同看法,有的認(rèn)為AI將將拯救世界,有的認(rèn)為AI將毀滅世界。在這樣一個(gè)充斥著炒作與恐懼的話語環(huán)境中,對(duì)于AI真實(shí)能力的清晰、可靠且具細(xì)致區(qū)分度的信息依然嚴(yán)重缺失。即使是AI的開發(fā)者,也并不完全了解當(dāng)前AI系統(tǒng)的能力,或它們正在以多快的速度發(fā)展。

OECD這一框架為政策制定者提供了他們急需的清晰指導(dǎo),幫助其在日益復(fù)雜的技術(shù)環(huán)境中做出理性決策,并制定具有前瞻性的戰(zhàn)略。自2022年ChatGPT推出以來,AI與機(jī)器人技術(shù)迅速發(fā)展,全球政策制定者普遍意識(shí)到評(píng)估其能力的緊迫性。例如,歐盟的《人工智能法案》明確規(guī)定要進(jìn)行定期監(jiān)測(cè)。與此同時(shí),OECD理事會(huì)的《人工智能建議書》以及2025年巴黎AI峰會(huì)也強(qiáng)調(diào)了理解AI對(duì)勞動(dòng)市場(chǎng)影響的重要性。

盡管關(guān)注度有所提升,但一個(gè)長期存在的缺口仍未填補(bǔ):目前尚缺乏一個(gè)系統(tǒng)化的框架,能夠以易于理解且與政策制定相關(guān)的方式全面衡量人工智能能力。為彌補(bǔ)這一不足,OECD開發(fā)了一套AI能力評(píng)估框架,并推出了測(cè)試版“AI能力指標(biāo)體系”。該指標(biāo)體系的設(shè)計(jì)具有以下四大特征:

易懂性——以直觀方式呈現(xiàn)人工智能的優(yōu)勢(shì)與局限;

政策關(guān)聯(lián)性——為教育、就業(yè)及經(jīng)濟(jì)領(lǐng)域受AI影響的情況提供洞察;

全面性——涵蓋人工智能能力的所有關(guān)鍵維度;

動(dòng)態(tài)響應(yīng)性——通過系統(tǒng)性更新追蹤AI技術(shù)發(fā)展進(jìn)程。

將AI能力與人類能力對(duì)標(biāo),有助于政策制定者更準(zhǔn)確地評(píng)估AI在教育、工作和日常生活中可能發(fā)揮的作用。目前ML Commons和斯坦福AI指數(shù)等主流AI評(píng)估框架僅通過基準(zhǔn)測(cè)試表現(xiàn)來刻畫AI能力,缺乏與人類能力的直接對(duì)比。這種孤立呈現(xiàn)的基準(zhǔn)測(cè)試結(jié)果存在雙重局限:對(duì)于非AI專業(yè)人士而言晦澀難懂;即便是AI研究人員,也難以據(jù)此判斷這些指標(biāo)如何反映AI系統(tǒng)在真實(shí)場(chǎng)景中的實(shí)際任務(wù)執(zhí)行能力。

資料來源:

OECD (2025), Introducing the OECD AI Capability Indicators, OECD Publishing, Paris, https://doi.org/10.1787/be745f04-en.

[本文為教育部國別和區(qū)域研究基地中國教育科學(xué)研究院國際教育研究中心研究成果]

本文由中國教育科學(xué)研究院“教育國際前沿”課題組成員整理,課題組負(fù)責(zé)人張永軍,編輯劉強(qiáng),內(nèi)容僅供參考。點(diǎn)擊左下角“閱讀原文”可下載該文獻(xiàn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

防止規(guī)模性返鄉(xiāng)滯鄉(xiāng),能采取哪些手段?

基本常識(shí)
2025-11-18 23:54:24
央視怒批,人民日?qǐng)?bào)點(diǎn)名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

央視怒批,人民日?qǐng)?bào)點(diǎn)名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

一娛三分地
2025-12-04 17:00:33
調(diào)查發(fā)現(xiàn):每天都喝酒的人,多數(shù)到了65歲以后,身體或變成這樣?

調(diào)查發(fā)現(xiàn):每天都喝酒的人,多數(shù)到了65歲以后,身體或變成這樣?

健康之光
2025-12-18 09:09:16
明著吃軟飯?多次上春晚竟然全是老婆的功勞,結(jié)婚多年被拿捏死

明著吃軟飯?多次上春晚竟然全是老婆的功勞,結(jié)婚多年被拿捏死

小熊侃史
2025-12-13 10:14:47
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
微信聊天成關(guān)鍵證據(jù):美聯(lián)邦起訴華人夫婦

微信聊天成關(guān)鍵證據(jù):美聯(lián)邦起訴華人夫婦

華人生活網(wǎng)
2025-12-20 04:16:03
高德上線3D收費(fèi)站:全國164城全覆蓋,安全島輪廓精準(zhǔn)還原

高德上線3D收費(fèi)站:全國164城全覆蓋,安全島輪廓精準(zhǔn)還原

IT之家
2025-12-20 20:30:16
落馬副市長郭柏春與寧夏前首富的交織往事

落馬副市長郭柏春與寧夏前首富的交織往事

新浪財(cái)經(jīng)
2025-12-20 11:15:29
5千川軍被5萬日寇包抄,彈盡糧絕之際,16歲伙夫獻(xiàn)一計(jì)

5千川軍被5萬日寇包抄,彈盡糧絕之際,16歲伙夫獻(xiàn)一計(jì)

卡西莫多的故事
2025-12-18 10:55:25
央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

央視推薦的四大長壽食物!南瓜僅排第三,第一名家家有卻不懂珍惜

觀察者小海風(fēng)
2025-12-15 19:03:13
無恥下作還不夠,開始明目張膽地硬搶了!

無恥下作還不夠,開始明目張膽地硬搶了!

胖胖說他不胖
2025-11-20 10:25:06
皇馬隊(duì)史最輝煌時(shí)期——?dú)W冠五連冠

皇馬隊(duì)史最輝煌時(shí)期——?dú)W冠五連冠

體育世界
2025-12-20 22:54:28
何晴頭七,許亞軍老婆發(fā)最新動(dòng)態(tài)太扎心,史曉燕的話開始有人信了

何晴頭七,許亞軍老婆發(fā)最新動(dòng)態(tài)太扎心,史曉燕的話開始有人信了

老吳教育課堂
2025-12-20 00:56:05
環(huán)球小姐被要求穿一套自己國家特色的衣服!然后韓國亮了

環(huán)球小姐被要求穿一套自己國家特色的衣服!然后韓國亮了

譚老師地理大課堂
2025-12-18 17:24:52
盒馬在上海成立盒馬數(shù)科技術(shù)公司

盒馬在上海成立盒馬數(shù)科技術(shù)公司

每日經(jīng)濟(jì)新聞
2025-12-19 10:46:09
臺(tái)北57歲男子挺身阻止歹徒身亡 蔣萬安致敬

臺(tái)北57歲男子挺身阻止歹徒身亡 蔣萬安致敬

看看新聞Knews
2025-12-20 00:04:03
泰國軍方炸毀柬埔寨詐騙園區(qū),賭場(chǎng)和人體器官移植中心

泰國軍方炸毀柬埔寨詐騙園區(qū),賭場(chǎng)和人體器官移植中心

環(huán)球熱點(diǎn)快評(píng)
2025-12-16 11:41:30
臺(tái)灣網(wǎng)友:大陸若是國民黨掌握政權(quán),中國肯定不是今天這么強(qiáng)大。

臺(tái)灣網(wǎng)友:大陸若是國民黨掌握政權(quán),中國肯定不是今天這么強(qiáng)大。

百態(tài)人間
2025-12-20 05:20:05
帶狗上桌吃飯后續(xù):偽造和解書,多家店遭殃,店鋪將追究法律責(zé)任

帶狗上桌吃飯后續(xù):偽造和解書,多家店遭殃,店鋪將追究法律責(zé)任

奇思妙想草葉君
2025-12-19 22:12:03
王楚欽5000萬VS孫穎莎18代言:國乒商業(yè)價(jià)值解析

王楚欽5000萬VS孫穎莎18代言:國乒商業(yè)價(jià)值解析

老淸醫(yī)學(xué)科普
2025-12-21 00:35:35
2025-12-21 03:08:49
國際與比較教育研究所 incentive-icons
國際與比較教育研究所
中國教育科學(xué)研究院
390文章數(shù) 407關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

臺(tái)北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應(yīng)

頭條要聞

臺(tái)北致4人身亡嫌犯被指是"大陸籍" 蔣萬安回應(yīng)

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

家居
時(shí)尚
教育
游戲
房產(chǎn)

家居要聞

高端私宅 理想隱居圣地

最顯腿細(xì)的騎士靴,誰穿誰是腿精

教育要聞

別逼孩子死磕高二數(shù)學(xué)了!我用3個(gè)“懶方法”,讓倒數(shù)娃沖進(jìn)前20

逆天!LCK頒獎(jiǎng)Faker無緣獎(jiǎng)項(xiàng),LPL解說炮轟開罵直播間差點(diǎn)被封

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

無障礙瀏覽 進(jìn)入關(guān)懷版