網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OECD報(bào)告：AI能力達(dá)到什么水平了？

2025-06-10 20:38:40　來源: 國際與比較教育研究所

北京舉報(bào)

分享至

2025年6月3日，經(jīng)濟(jì)合作與發(fā)展組織發(fā)布《OECD人工智能能力介紹》報(bào)告，介紹了OECD的“AI能力指標(biāo)”測(cè)試版。這些指標(biāo)旨在評(píng)估和比較AI相對(duì)于人類能力的發(fā)展情況，由50多位專家歷時(shí)5年合作開發(fā)，涵蓋了從語言到操作等九種人類能力?，F(xiàn)就該報(bào)告主要內(nèi)容總結(jié)如下。

1.目前AI能力已達(dá)到什么水平？

該報(bào)告提出了9項(xiàng)AI能力評(píng)估指標(biāo)，每個(gè)指標(biāo)分1-5級(jí)別，1級(jí)最低，5級(jí)最高，后者意味著可以達(dá)到人類水平，目前AI在各指標(biāo)方面的能力具體如下表：

指標(biāo)

級(jí)別

能力描述

語言

此級(jí)別的AI系統(tǒng)能夠利用多語料庫知識(shí)可靠地理解和生成語義。它們展現(xiàn)出高級(jí)的邏輯和社會(huì)推理能力，能夠處理文本、語音和圖像。它們支持多種語言，并通過迭代學(xué)習(xí)技術(shù)進(jìn)行自適應(yīng)。

社交互動(dòng)

AI系統(tǒng)結(jié)合簡單的動(dòng)作來表達(dá)情緒，并從互動(dòng)中學(xué)習(xí)，以應(yīng)對(duì)未來的挑戰(zhàn)。它們會(huì)回憶事件，并根據(jù)經(jīng)驗(yàn)進(jìn)行微調(diào)，識(shí)別基本信號(hào)，并通過語氣和語境感知情緒。它們還能感知個(gè)體差異，并將過往經(jīng)驗(yàn)應(yīng)用于反復(fù)出現(xiàn)的挑戰(zhàn)。

問題解決

AI系統(tǒng)將定性推理（例如空間或時(shí)間關(guān)系）與定量分析相結(jié)合，以解決使用傳統(tǒng)領(lǐng)域抽象框架構(gòu)建的復(fù)雜專業(yè)問題。它們能夠處理多種定性狀態(tài)和轉(zhuǎn)換，預(yù)測(cè)系統(tǒng)如何隨時(shí)間演變或變化。

創(chuàng)造力

AI系統(tǒng)能夠生成與訓(xùn)練數(shù)據(jù)截然不同的有價(jià)值輸出，挑戰(zhàn)傳統(tǒng)的界限。它們將技能擴(kuò)展到新任務(wù)中，并跨領(lǐng)域整合想法。

元認(rèn)知和批判性思維

AI系統(tǒng)會(huì)監(jiān)控自身的理解情況，并相應(yīng)地調(diào)整方法。它們處理的是可能包含模糊之處的熟悉信息，需要謹(jǐn)慎把握信心并做出有根據(jù)的推測(cè)。它們能夠應(yīng)對(duì)部分不完整的信息，區(qū)分自己已知和未知的內(nèi)容。

知識(shí)、學(xué)習(xí)和記憶

AI系統(tǒng)通過分布式表示學(xué)習(xí)信息的語義，并推廣到新情況。它們可以處理大規(guī)模數(shù)據(jù)集以獲得情境敏感的理解，但缺乏實(shí)時(shí)學(xué)習(xí)能力。

視覺

AI系統(tǒng)能夠處理目標(biāo)對(duì)象外觀和光照的一些變化，執(zhí)行多個(gè)子任務(wù)，并應(yīng)對(duì)已知的數(shù)據(jù)和情況變化。

操作

AI系統(tǒng)處理各種形狀的物體和適度柔軟的材料，在低至中度雜亂的受控環(huán)境中操作。它們?cè)陂_放空間中繞過小障礙物，適應(yīng)隨機(jī)放置在定義區(qū)域內(nèi)的物體，并在沒有時(shí)間限制的情況下執(zhí)行任務(wù)。

機(jī)器人智能

機(jī)器人系統(tǒng)在部分已知的、靜態(tài)的、半結(jié)構(gòu)化的環(huán)境中運(yùn)行，具有一些明確的可變性。它們處理短期、簡單的多功能任務(wù)，這些任務(wù)雖然定義明確，但涉及內(nèi)在的不確定性。它們可以參與有限的人類交互（如極簡界面），并在熟悉的任務(wù)設(shè)置中管理一些意想不到的結(jié)果。他們幾乎不涉及道德問題。

2.如何評(píng)價(jià)AI目前的能力水平？

語言：目前最先進(jìn)的大語言模型如ChatGPT的GPT4o，被認(rèn)為處于第3級(jí)的低閾值。大語言模型擅長獲取世界知識(shí)，跨多種語言工作，并通過微調(diào)和后處理進(jìn)行迭代學(xué)習(xí)。由于無法進(jìn)行結(jié)構(gòu)良好的分析推理，并且容易產(chǎn)生錯(cuò)誤信息，導(dǎo)致LLM難以進(jìn)行穩(wěn)健推理，這仍然是其發(fā)展的一個(gè)瓶頸。

社交互動(dòng)：GPT-4o和同類的大語言模型在社交互動(dòng)上被評(píng)定為2級(jí)，因?yàn)樗鼈兙邆鋸?qiáng)大的社交記憶能力。然而，它們并非具身的，缺乏身份感且社交感知有限。像索尼的AIBO這樣的社交機(jī)器人也是2級(jí)水平，但其能力有所不同，其是具身的，擁有基本的感知和身份，但它們解決問題的能力不如大語言模型系統(tǒng)。

問題解決：符號(hào)AI系統(tǒng)在物流規(guī)劃和模型檢查等狹窄領(lǐng)域展示了超人類的能力，因此被評(píng)為2級(jí)水平。盡管LLM能夠滿足某些3級(jí)要求，例如解決以自然語言描述的問題，但由于它們的幻覺問題，它們?nèi)匀贿^于脆弱。這一點(diǎn)仍然適用于早期的“推理”模型，比如在2024年底發(fā)布的GPTo1預(yù)覽版。更先進(jìn)的“推理”模型，如GPTo3和DeepSeek R1 V3是否如此，將在OECD人工智能能力指標(biāo)的完整版中進(jìn)行分析。

創(chuàng)造力：當(dāng)前的AI系統(tǒng)能夠生成對(duì)人類有價(jià)值的輸出，有些新穎，有時(shí)甚至令人驚喜。谷歌的AlphaZero就是一個(gè)達(dá)到3級(jí)水平的例子，它利用神經(jīng)符號(hào)架構(gòu)，生成了高效且令人驚訝的策略。LLM依賴于概率架構(gòu)和訓(xùn)練數(shù)據(jù)（即先前人類生成的內(nèi)容），這意味著它們無法生成與現(xiàn)有人類知識(shí)有顯著差異的輸出。然而，這些輸出通常很有用，有時(shí)甚至很新穎，這意味著LLM是典型的2級(jí)水平。

元認(rèn)知與批判性思維：目前最先進(jìn)的LLM通常在元認(rèn)知和批判性思維上被評(píng)為2級(jí)。它們能夠監(jiān)控自己的理解，并根據(jù)當(dāng)前問題調(diào)整其解決方法。然而，它們?cè)谡喜皇煜さ男畔⒒蛟u(píng)估自身知識(shí)方面存在困難，而這正是3級(jí)所要求的水平。在評(píng)估時(shí)，代理系統(tǒng)通常也表現(xiàn)為2級(jí)，這反映出AI在自我監(jiān)控和自適應(yīng)調(diào)節(jié)自身推理能力方面的持續(xù)局限。

知識(shí)、學(xué)習(xí)與記憶：LLM和相關(guān)形式的生成式AI是這一領(lǐng)域的前沿系統(tǒng)，通過從存儲(chǔ)知識(shí)中進(jìn)行概括等能力，達(dá)到了3級(jí)。盡管在這一領(lǐng)域已經(jīng)進(jìn)行了一些關(guān)于AI智能體的研究，但迄今為止沒有任何系統(tǒng)表現(xiàn)出4級(jí)所要求的能力，例如通過與世界的互動(dòng)進(jìn)行增量學(xué)習(xí)，或具有對(duì)知識(shí)空白的元認(rèn)知意識(shí)。

視覺：目前前沿的AI視覺系統(tǒng)處于3級(jí)。雖有少數(shù)具有有限4級(jí)能力，然而這種性能尚不足以讓任何系統(tǒng)達(dá)到該等級(jí)。3級(jí)系統(tǒng)能夠穩(wěn)健地處理有限范圍的數(shù)據(jù)類型，并能應(yīng)對(duì)目標(biāo)物體在光照、形狀和外觀方面的細(xì)微變化。與4級(jí)系統(tǒng)不同，當(dāng)前的AI視覺系統(tǒng)無法基于自我反饋來提升性能，也無法應(yīng)對(duì)光照和目標(biāo)物體的較大變化。

操作：目前AI操作系統(tǒng)被評(píng)定為2級(jí)。典型的最先進(jìn)系統(tǒng)是用于高度控制的制造環(huán)境中的機(jī)器人手臂。相比之下，3級(jí)系統(tǒng)能夠在適度雜亂和動(dòng)態(tài)的環(huán)境中工作，能夠處理形狀、大小和重量各異的物體。操作系統(tǒng)仍距離人類水平還很遠(yuǎn)。然而，在物體和環(huán)境能夠標(biāo)準(zhǔn)化的情況下——例如在工廠中——這些系統(tǒng)仍將對(duì)人類就業(yè)產(chǎn)生影響，且對(duì)技能需求的影響依然存在。

機(jī)器人智能：最先進(jìn)的機(jī)器人系統(tǒng)是自主配送機(jī)器人和工業(yè)自動(dòng)化系統(tǒng)，它們被為2級(jí)水平。這些系統(tǒng)在結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定義任務(wù)時(shí)表現(xiàn)良好。然而，機(jī)器人系統(tǒng)目前無法可靠地執(zhí)行多步驟任務(wù)或與人類協(xié)作，這是達(dá)到3級(jí)所必需的。

3.為什么要推出AI能力指標(biāo)框架？

該報(bào)告指出，目前對(duì)AI發(fā)展存在不同看法，有的認(rèn)為AI將將拯救世界，有的認(rèn)為AI將毀滅世界。在這樣一個(gè)充斥著炒作與恐懼的話語環(huán)境中，對(duì)于AI真實(shí)能力的清晰、可靠且具細(xì)致區(qū)分度的信息依然嚴(yán)重缺失。即使是AI的開發(fā)者，也并不完全了解當(dāng)前AI系統(tǒng)的能力，或它們正在以多快的速度發(fā)展。

OECD這一框架為政策制定者提供了他們急需的清晰指導(dǎo)，幫助其在日益復(fù)雜的技術(shù)環(huán)境中做出理性決策，并制定具有前瞻性的戰(zhàn)略。自2022年ChatGPT推出以來，AI與機(jī)器人技術(shù)迅速發(fā)展，全球政策制定者普遍意識(shí)到評(píng)估其能力的緊迫性。例如，歐盟的《人工智能法案》明確規(guī)定要進(jìn)行定期監(jiān)測(cè)。與此同時(shí)，OECD理事會(huì)的《人工智能建議書》以及2025年巴黎AI峰會(huì)也強(qiáng)調(diào)了理解AI對(duì)勞動(dòng)市場(chǎng)影響的重要性。

盡管關(guān)注度有所提升，但一個(gè)長期存在的缺口仍未填補(bǔ)：目前尚缺乏一個(gè)系統(tǒng)化的框架，能夠以易于理解且與政策制定相關(guān)的方式全面衡量人工智能能力。為彌補(bǔ)這一不足，OECD開發(fā)了一套AI能力評(píng)估框架，并推出了測(cè)試版“AI能力指標(biāo)體系”。該指標(biāo)體系的設(shè)計(jì)具有以下四大特征：

易懂性——以直觀方式呈現(xiàn)人工智能的優(yōu)勢(shì)與局限；

政策關(guān)聯(lián)性——為教育、就業(yè)及經(jīng)濟(jì)領(lǐng)域受AI影響的情況提供洞察；

全面性——涵蓋人工智能能力的所有關(guān)鍵維度；

動(dòng)態(tài)響應(yīng)性——通過系統(tǒng)性更新追蹤AI技術(shù)發(fā)展進(jìn)程。

將AI能力與人類能力對(duì)標(biāo)，有助于政策制定者更準(zhǔn)確地評(píng)估AI在教育、工作和日常生活中可能發(fā)揮的作用。目前ML Commons和斯坦福AI指數(shù)等主流AI評(píng)估框架僅通過基準(zhǔn)測(cè)試表現(xiàn)來刻畫AI能力，缺乏與人類能力的直接對(duì)比。這種孤立呈現(xiàn)的基準(zhǔn)測(cè)試結(jié)果存在雙重局限：對(duì)于非AI專業(yè)人士而言晦澀難懂；即便是AI研究人員，也難以據(jù)此判斷這些指標(biāo)如何反映AI系統(tǒng)在真實(shí)場(chǎng)景中的實(shí)際任務(wù)執(zhí)行能力。

資料來源：

OECD (2025), Introducing the OECD AI Capability Indicators, OECD Publishing, Paris, https://doi.org/10.1787/be745f04-en.

[本文為教育部國別和區(qū)域研究基地中國教育科學(xué)研究院國際教育研究中心研究成果]

本文由中國教育科學(xué)研究院“教育國際前沿”課題組成員整理，課題組負(fù)責(zé)人張永軍，編輯劉強(qiáng)，內(nèi)容僅供參考。點(diǎn)擊左下角“閱讀原文”可下載該文獻(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.