網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

完整解讀：斯坦福 AI 年度報(bào)告｜2026版發(fā)布，423頁(yè)

2026-04-14 14:47:30　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

REPORT

斯坦福 AI 指數(shù)報(bào)告（AI Index Report） 由斯坦?！敢匀藶楸救斯ぶ悄苎芯吭骸梗℉AI）每年發(fā)布，追蹤、整合并可視化 AI 領(lǐng)域的各類數(shù)據(jù)

剛剛，「斯坦福 AI 指數(shù)報(bào)告 2026」發(fā)布，423 頁(yè)，9 個(gè)章節(jié)

與相比，今年新增了兩個(gè)獨(dú)立章節(jié)：AI 與科學(xué)、AI 與醫(yī)療，同時(shí)新增了 AI 主權(quán)分析框架和生成式 AI 的消費(fèi)者價(jià)值估算

過(guò)去兩年，我每年都會(huì)進(jìn)行完整解讀，今年自然也不例外，先說(shuō) 15 條核心要點(diǎn)，然后逐章展開(kāi)

https://hai.stanford.edu/ai-index/2026-ai-index-report

15 條核心要點(diǎn)

1. AI 能力沒(méi)有停滯，還在加速。 行業(yè)貢獻(xiàn)了超過(guò) 90% 的前沿模型，多個(gè)模型在博士級(jí)科學(xué)問(wèn)題、多模態(tài)推理和競(jìng)賽數(shù)學(xué)上達(dá)到或超過(guò)人類基準(zhǔn)。SWE-bench Verified 上一年內(nèi)從 60% 漲到接近 100%。組織采用率達(dá) 88%，五分之四的大學(xué)生在用生成式 AI

AI 各項(xiàng)能力 Benchmark 達(dá)到人類水平的時(shí)間線，來(lái)自斯坦福 HAI

2. 中美模型性能差距基本消失。 2025 年 2 月 DeepSeek-R1 一度追平美國(guó)最強(qiáng)模型，截至 2026 年 3 月 Anthropic 最強(qiáng)模型僅領(lǐng)先 2.7%。美國(guó)在前沿模型數(shù)量和高影響力專利上領(lǐng)先，中國(guó)在論文數(shù)量、引用、專利總量和工業(yè)機(jī)器人安裝量上領(lǐng)先。韓國(guó)在人均 AI 專利數(shù)上全球領(lǐng)先

中美模型 Arena Elo 評(píng)分對(duì)比，差距從 2023 年的顯著領(lǐng)先收窄到 2.7%

3. 美國(guó)擁有最多 AI 數(shù)據(jù)中心，大部分芯片由一家臺(tái)灣代工廠制造。 美國(guó)有 5427 個(gè)數(shù)據(jù)中心，是第二名的 10 倍以上。TSMC 一家公司制造了幾乎所有領(lǐng)先 AI 芯片，全球 AI 硬件供應(yīng)鏈依賴臺(tái)灣一座代工廠。TSMC 美國(guó)擴(kuò)產(chǎn)計(jì)劃在 2025 年開(kāi)始運(yùn)營(yíng)

4. AI 能拿 IMO 金牌但看不準(zhǔn)時(shí)鐘，研究者稱之為「鋸齒邊界」。 Gemini Deep Think 在國(guó)際數(shù)學(xué)奧賽拿了金牌（35 分），但最強(qiáng)模型看模擬時(shí)鐘的準(zhǔn)確率只有 50.1%。AI Agent 在 OSWorld 上從 12% 跳到約 66%，但每 3 次結(jié)構(gòu)化測(cè)試還是會(huì)失敗 1 次

5. 機(jī)器人在家庭任務(wù)中依然失敗率極高，盡管在受控環(huán)境中表現(xiàn)出色。 機(jī)器人在真實(shí)家庭任務(wù)中成功率只有 12%。RLBench 模擬環(huán)境中達(dá)到了 89.4%，但可控實(shí)驗(yàn)室和不可預(yù)測(cè)家庭環(huán)境之間的差距依然巨大

6. 負(fù)責(zé)任 AI 跟不上能力進(jìn)步，安全基準(zhǔn)滯后，事件急劇增加。 幾乎所有前沿模型開(kāi)發(fā)商都報(bào)告能力 Benchmark 成績(jī)，但在負(fù)責(zé)任 AI Benchmark 上的報(bào)告依然稀疏。AI 事件數(shù)據(jù)庫(kù)記錄的事件從 2024 年的 233 起上升到 2025 年的 362 起。改善一個(gè)負(fù)責(zé)任 AI 維度（比如安全）可能會(huì)惡化另一個(gè)（比如準(zhǔn)確性）

AI 事件數(shù)量 2013-2025，2025 年達(dá)到 362 起

7. 美國(guó)在 AI 投資上領(lǐng)先，但吸引全球人才的能力在下降。 美國(guó)私人 AI 投資達(dá)到 2859 億美元，是中國(guó) 124 億的 23 倍。但純看私人投資低估了中國(guó)的實(shí)際投入，政府引導(dǎo)基金在 2000-2023 年間向 AI 企業(yè)注入了約 1840 億美元。2025 年美國(guó)新獲資 AI 公司 1953 家，是第二名的 10 倍以上。但流向美國(guó)的 AI 研究者和開(kāi)發(fā)者人數(shù)自 2017 年下降了 89%，僅最近一年就下降了 80%

生成式 AI 三年達(dá)到 53% 的人口滲透率，比 PC 和互聯(lián)網(wǎng)都快

8. AI 采用以歷史性速度擴(kuò)散，消費(fèi)者從免費(fèi)工具中獲得大量?jī)r(jià)值。 滲透率與人均 GDP 強(qiáng)相關(guān)，但也有例外：新加坡 61%，阿聯(lián)酋 54%。美國(guó)排第 24 位，28.3%。美國(guó)消費(fèi)者從生成式 AI 獲得的估算年化價(jià)值到 2026 年初達(dá)到 1720 億美元，每用戶中位價(jià)值一年內(nèi)翻了三倍。大多數(shù)工具是免費(fèi)或接近免費(fèi)的

9. AI 帶來(lái)的生產(chǎn)率提升，恰好出現(xiàn)在入門(mén)級(jí)就業(yè)開(kāi)始下降的領(lǐng)域。 客戶支持和軟件開(kāi)發(fā)中生產(chǎn)率提升 14%-26%，需要更多判斷力的任務(wù)中效果更弱甚至為負(fù)。AI Agent 部署在幾乎所有業(yè)務(wù)功能中都處于個(gè)位數(shù)。22-25 歲軟件開(kāi)發(fā)者就業(yè)人數(shù)較 2024 年下降近 20%，同時(shí)年長(zhǎng)開(kāi)發(fā)者的人數(shù)仍在增長(zhǎng)。

10. AI 的環(huán)境足跡隨能力一起擴(kuò)大。 Grok 4 的訓(xùn)練碳排放達(dá)到 72,816 噸 CO2 當(dāng)量。AI 數(shù)據(jù)中心功率容量達(dá) 29.6 GW，相當(dāng)于紐約州峰值用電量。GPT-4o 單年推理用水量可能超過(guò) 1200 萬(wàn)人的飲用水需求

11. 科學(xué) AI 模型可以超越人類科學(xué)家，但更大的模型并不總是更好。 前沿模型在 ChemBench 上平均超過(guò)人類化學(xué)家，但在天體物理學(xué)論文復(fù)現(xiàn)上低于 20%，地球觀測(cè)問(wèn)題上只有 33%。1.11 億參數(shù)的 MSAPairformer 在 ProteinGym 上打敗了之前的領(lǐng)先方法，2 億參數(shù)的 GPN-Star 打敗了近 200 倍大的模型。大多數(shù)科學(xué) AI 基礎(chǔ)模型來(lái)自跨部門(mén)合作，與通用 AI 的工業(yè)主導(dǎo)格局形成對(duì)比

12. AI 正在改變臨床醫(yī)療，但嚴(yán)謹(jǐn)證據(jù)仍然有限。 自動(dòng)生成臨床筆記的 AI 工具在 2025 年被大規(guī)模采用，醫(yī)生寫(xiě)筆記時(shí)間減少 83%，職業(yè)倦怠顯著下降。但證據(jù)基礎(chǔ)依然薄弱：超過(guò) 500 項(xiàng)臨床 AI 研究中近半使用考試題而非真實(shí)患者數(shù)據(jù)，只有 5% 使用了真實(shí)臨床數(shù)據(jù)

13. 正規(guī)教育落后于 AI，但人們?cè)谌松總€(gè)階段都在學(xué)習(xí) AI 技能。 超過(guò) 80% 的美國(guó)高中生和大學(xué)生在用 AI 做作業(yè)，但只有一半的中學(xué)有 AI 政策，只有 6% 的教師認(rèn)為這些政策是清晰的。課堂之外，AI 工程技能增長(zhǎng)最快的國(guó)家是阿聯(lián)酋、智利和南非。美國(guó)和加拿大新增 AI 博士數(shù)量從 2022 到 2024 年增長(zhǎng) 22%，增量全部流向了學(xué)術(shù)界

14. AI 主權(quán)正在成為國(guó)家政策的核心特征，但能力分布仍然不均。 國(guó)家 AI 戰(zhàn)略正在擴(kuò)展，特別是在發(fā)展中經(jīng)濟(jì)體中。國(guó)家級(jí) AI 超算投資也在同步增長(zhǎng)。但模型生產(chǎn)仍集中在美中兩國(guó)。開(kāi)源開(kāi)發(fā)正在重新分配參與權(quán)，來(lái)自「世界其他地區(qū)」的 GitHub 貢獻(xiàn)已超過(guò)歐洲，正在接近美國(guó)

15. AI 專家和公眾對(duì)技術(shù)未來(lái)的看法截然不同，全球?qū)C(jī)構(gòu)管理 AI 的信任是碎片化的。 在就業(yè)影響上，73% 的專家持積極態(tài)度，公眾只有 23%，差距 50 個(gè)百分點(diǎn)。經(jīng)濟(jì)影響差距 48 個(gè)百分點(diǎn)，醫(yī)療差距 40 個(gè)百分點(diǎn)。美國(guó)對(duì)自己政府監(jiān)管 AI 的信任度全球最低，31%。全球范圍內(nèi)，歐盟被認(rèn)為比美國(guó)或中國(guó)更可信地監(jiān)管 AI

AI 專家 vs 公眾對(duì) AI 影響各維度的看法差異

第一章：研發(fā)

2025 年全球共發(fā)布 95 個(gè) notable models，同比有所下降。美國(guó) 50 個(gè)，中國(guó) 30 個(gè)，韓國(guó) 5 個(gè)。按機(jī)構(gòu)：OpenAI 19 個(gè)，Google 12 個(gè)，阿里巴巴 11 個(gè)，Anthropic 7 個(gè)，xAI 5 個(gè)。91.6% 來(lái)自產(chǎn)業(yè)界。 純學(xué)術(shù)界只產(chǎn)出了 1 個(gè)

透明度崩塌是今年報(bào)告最值得注意的趨勢(shì)之一。 95 個(gè) notable models 中有 80 個(gè)沒(méi)有公開(kāi)訓(xùn)練代碼，只有 4 個(gè)開(kāi)源了訓(xùn)練代碼。2020 年開(kāi)源和未公開(kāi)大致對(duì)半，到 2025 年前沿模型變成了能力最強(qiáng)、透明度最低的存在

全球數(shù)據(jù)中心分布，美國(guó) 5427 個(gè)，超過(guò)第二名德國(guó)（529 個(gè)）10 倍以上

全球 AI 算力容量以每年約 3.3 倍增長(zhǎng)，達(dá)到 1710 萬(wàn) H100 等效算力。 Nvidia 占 60% 以上，Google 和 Amazon 提供大部分剩余，華為持有小但增長(zhǎng)中的份額。整個(gè)全球 AI 硬件供應(yīng)鏈依賴一個(gè)點(diǎn)：臺(tái)積電。包括 Nvidia 的 Blackwell GPU 和 AMD 的 MI300X 都由臺(tái)積電代工

環(huán)境代價(jià)在快速增長(zhǎng)。訓(xùn)練 Grok 4 碳排放 72,816 噸 CO2 當(dāng)量，超過(guò)一輛普通汽車全生命周期（約 63 噸）。DeepSeek v3 只產(chǎn)生了約 597 噸，遠(yuǎn)低于同等規(guī)模的模型。AI 數(shù)據(jù)中心總功率達(dá) 29.6 GW，和紐約州峰值用電量（31 GW）差不多。GPT-4o 單年推理用水量可能超過(guò) 1200 萬(wàn)人的飲用水需求

Epoch AI 預(yù)測(cè)高質(zhì)量文本數(shù)據(jù)將在 2026-2032 年之間耗盡。 截至 2025 年 1 月，超過(guò) 50% 的新發(fā)布網(wǎng)絡(luò)內(nèi)容是 AI 生成的。各大公司開(kāi)始轉(zhuǎn)向授權(quán)數(shù)據(jù)（紐約時(shí)報(bào)和亞馬遜簽了協(xié)議，Meta 也在和新聞機(jī)構(gòu)談）。但數(shù)據(jù)質(zhì)量可能比數(shù)量更重要：OLMo 3.1 Think 32B 只有 320 億參數(shù)（Grok 4 的約 1/90），通過(guò)數(shù)據(jù)清洗和去重，在 AIME 2025 上達(dá)到了 78.1%

開(kāi)源方面，GitHub 上 AI 項(xiàng)目達(dá) 560 萬(wàn)個(gè)，Hugging Face 上傳量三年翻了三倍。地理分布在變化：美國(guó)占 31.7%（2011 年是 80%），「其他國(guó)家」27.6%，歐洲 24.5%，中國(guó) 11%。Hugging Face 上文本生成模型從 2022 年占 10.63% 上升到 2025 年的 42.46%

人才數(shù)據(jù)是這一章里最值得注意的部分

美國(guó)仍然是全球 AI 人才最多的國(guó)家（220,520 人），但凈流入在急劇下降：從 2022 年的峰值 324.6 降到 2025 年的 26.0，接近歸零。遷入美國(guó)的 AI 研究者數(shù)量自 2017 年以來(lái)下降了 89%。瑞士和新加坡在人均 AI 研究者和開(kāi)發(fā)者數(shù)量上全球領(lǐng)先。性別差距 15 年來(lái)沒(méi)有變化，各國(guó)女性比例在 18%-32% 之間

流向美國(guó)的 AI 人才數(shù)量 2012-2025，凈流入接近歸零

第二章：技術(shù)性能

前沿模型正在趨同。 Arena 排行榜上，Anthropic（1503）、xAI（1495）、Google（1494）、OpenAI（1481）、阿里巴巴（1449）和 DeepSeek（1424）全部擠在 Elo 評(píng)分的頂部區(qū)間。2023 年初 OpenAI 領(lǐng)先 Google 205 分，現(xiàn)在這個(gè)差距沒(méi)了。能力不再是明確的差異化因素，競(jìng)爭(zhēng)正在轉(zhuǎn)向成本、延遲、可靠性和垂直性能

開(kāi)放權(quán)重模型的差距在 2025 年重新拉大了。2024 年 8 月差距一度縮到 0.5%，2026 年 3 月回到了 3.3%。Arena 排行榜前 10 中有 6 個(gè)是閉源模型

中美差距：2025 年 2 月 DeepSeek-R1 和美國(guó)頂級(jí)模型只差 5 個(gè) Elo 分（0.4%），2026 年 3 月差距是 39 分（2.7%）。DeepSeek-R1 用 GRPO 做強(qiáng)化學(xué)習(xí)，不需要標(biāo)注數(shù)據(jù)也不需要 critic model，一度導(dǎo)致美國(guó)科技股蒸發(fā)超過(guò) 1 萬(wàn)億美元市值

Benchmark 飽和的問(wèn)題越來(lái)越嚴(yán)重。 設(shè)計(jì)出來(lái)要用好幾年的 Benchmark 幾個(gè)月就飽和了。HLE（Humanity's Last Exam）一年內(nèi)從不到 10% 漲到 38.3%。GPQA Diamond（博士級(jí)科學(xué)）模型 93%，人類專家 81.2%。但 Benchmark 本身的質(zhì)量也在下降：9 個(gè)常用 Benchmark 的無(wú)效題目比例從 2%（MMLU 數(shù)學(xué)）到 42%（GSM8K）不等

能拿 IMO 金牌，但讀模擬時(shí)鐘準(zhǔn)確率只有 50.1%。人類 90.1%

當(dāng)模型讀錯(cuò)時(shí)鐘時(shí)，誤差中位數(shù)是 1-3 小時(shí)，人類是 3 分鐘。MMLU-Pro 上前 15 名模型全部在 87% 以上，整個(gè)前沿的差距只有 4 個(gè)百分點(diǎn)。SWE-bench Verified 上從約 60% 逼近 100%。Terminal-Bench 2.0 從 2025 年 2 月的 20% 漲到 77.3%。Vibe Code Bench（從零構(gòu)建完整 Web 應(yīng)用）Claude Opus 4.6 領(lǐng)先，但也只有 56.5%

Agent 進(jìn)展快但離可靠有距離：GAIA（通用 AI 助手）從 20% 漲到 74.5%，人類 92%。OSWorld（真實(shí)電腦操作）最好的模型 66.3%，人類 72.35%，差 6 個(gè)百分點(diǎn)。WebArena（自主網(wǎng)頁(yè) Agent）從 15% 漲到 74.3%，人類 78.2%。Cybench（網(wǎng)絡(luò)安全 CTF）從 15% 漲到 93%

自動(dòng)駕駛是 AI 進(jìn)入物理世界最成功的案例。Waymo 在五個(gè)美國(guó)城市達(dá)到每周約 45 萬(wàn)次出行。 中國(guó)的 Apollo Go 完成了 1100 萬(wàn)次完全無(wú)人駕駛出行，同比增長(zhǎng) 175%。人形機(jī)器人硬件在 2025 年快速增長(zhǎng)（Figure AI、特斯拉、波士頓動(dòng)力、宇樹(shù)等），F(xiàn)igure 02 在寶馬工廠加載了 9 萬(wàn)多個(gè)零件。但 BEHAVIOR-1K（1000 個(gè)家務(wù)任務(wù)）完成率只有 12.4%，大規(guī)模部署尚未發(fā)生

第三章：負(fù)責(zé)任的 AI

AI Incident Database 在 2025 年記錄了 362 起事件，2024 年是 233 起，2022 年之前每年不到 100 起。2025 年 7 月，xAI 的 Grok 在一次系統(tǒng)更新放松安全過(guò)濾器后，生成了反猶言論和暴力仇恨言語(yǔ)

透明度倒退。 Foundation Model Transparency Index（FMTI）平均分從 2024 年的 58 分跌到 2025 年的 40 分。IBM 以 95 分領(lǐng)先，Claude 4 得 41 分，Gemini 2.5 得 39 分，Grok 3 只有 14 分。幾乎所有前沿模型的預(yù)訓(xùn)練數(shù)據(jù)透明度得分為零

幻覺(jué)率在不同 Benchmark 上差異巨大。Vectara 的 HHEM 排行榜顯示 1.8%-5.4%（文檔摘要場(chǎng)景），但 AA-Omniscience 測(cè)試（跨 6 領(lǐng)域 6000 個(gè)問(wèn)題）顯示幻覺(jué)率從 22% 到 94% 不等。GPT-4o 在「用戶信念」場(chǎng)景下準(zhǔn)確率從 98.2% 跌到 64.4%，DeepSeek R1 從 90%+ 跌到 14.4%

組織層面有進(jìn)展：AI 專職治理崗位增長(zhǎng) 17%，沒(méi)有負(fù)責(zé)任 AI 政策的企業(yè)從 24% 降到 11%。主要障礙是知識(shí)差距（59%）、預(yù)算限制（48%）和監(jiān)管不確定性（41%）

AI 在英語(yǔ)之外的表現(xiàn)差距比全球 Benchmark 所反映的要大得多

在 HELM Arabic 上，一個(gè)為阿拉伯語(yǔ)專門(mén)開(kāi)發(fā)的區(qū)域模型超過(guò)了 GPT-5.1 和 Gemini 2.5 Flash。在斯洛文尼亞語(yǔ)常識(shí)推理測(cè)試中，用方言測(cè)試時(shí)多個(gè)領(lǐng)先模型的準(zhǔn)確率損失接近一半

安全評(píng)估方面，在 AILuminate Benchmark 上多個(gè)前沿模型在正常條件下獲得「非常好」或「好」的安全評(píng)級(jí)，但面對(duì)對(duì)抗性越獄攻擊時(shí)所有模型的安全性能都出現(xiàn)下降

負(fù)責(zé)任 AI 的各個(gè)維度之間存在沖突，并且這個(gè)問(wèn)題比想象中更棘手。差分隱私提升了隱私保護(hù)，但降低了公平性、可解釋性和準(zhǔn)確性（準(zhǔn)確率下降高達(dá) 33 個(gè)百分點(diǎn)）。目前沒(méi)有任何框架能解決這個(gè) trade-off

第四章：經(jīng)濟(jì)

全球 AI 企業(yè)投資總額達(dá)到 5816 億美元，同比增長(zhǎng)約 130%，約為 2013 年的 40 倍。私人投資增長(zhǎng) 127.5%，達(dá)到 3447 億美元。GenAI 拿走了 1709 億（接近一半），增長(zhǎng)超過(guò) 200%。超 10 億美元融資事件從 15 起增長(zhǎng)到 28 起

大額交易：OpenAI 融資 400 億（估值 3000 億），Anthropic 融資 130 億（估值 1830 億），Anysphere（Cursor）23 億（估值 293 億），CoreWeave IPO 估值 230 億。Stargate 項(xiàng)目宣布 5000 億，中國(guó)設(shè)立 1380 億國(guó)家 VC 基金

美國(guó)私人 AI 投資 2859 億美元，是中國(guó)（124 億）的 23 倍。但中國(guó)政府引導(dǎo)基金在 2000-2023 年間投入約 1840 億。自 2013 年以來(lái)美國(guó)累計(jì)吸引了 7573 億美元 AI 私人投資

營(yíng)收方面，OpenAI 年化收入約 250 億美元。 Anthropic 約 190 億。xAI 約 4.28 億。OpenAI 的收入增速超過(guò)了 Uber 和 Moderna 在類似階段的表現(xiàn)。但 Google 2025 年資本支出超過(guò) 1500 億，算力成本在快速攀升

生成式 AI 在三年內(nèi)達(dá)到 53% 人口滲透率，比 PC 和互聯(lián)網(wǎng)都快

GenAI 工具給美國(guó)消費(fèi)者帶來(lái)的年度剩余價(jià)值估算達(dá) 1720 億美元。 一年前是 1120 億。使用 GenAI 的美國(guó)成年人從 9500 萬(wàn)增加到 1.25 億，每用戶中位價(jià)值從 3.40 美元漲到 11.40 美元（+235%）。這個(gè)消費(fèi)者剩余遠(yuǎn)超 GenAI 企業(yè)的收入總和。各國(guó)差異大：阿聯(lián)酋 64%，新加坡 61%，法國(guó) 44%，美國(guó)排第 24 位只有 28.3%

企業(yè)層面，88% 的組織在至少一個(gè)業(yè)務(wù)功能中使用了 AI。但 AI Agent 的采用仍處于早期，幾乎所有業(yè)務(wù)功能中大規(guī)模使用 Agent 的比例都是個(gè)位數(shù)

22-25 歲軟件開(kāi)發(fā)者就業(yè)人數(shù)從 2022 年峰值到 2025 年 9 月下降近 20%

在 AI 暴露程度最高的職業(yè)中，22-25 歲工人的就業(yè)相對(duì)暴露最低的職業(yè)下降了約 16%。自 GenAI 引入以來(lái)的職業(yè)流動(dòng)速度，快于計(jì)算機(jī)和互聯(lián)網(wǎng)引入后的同期速度。三分之一的組織預(yù)計(jì) AI 將在未來(lái)一年減少員工

生產(chǎn)率提升在結(jié)構(gòu)化工作中最明顯?？蛻糁С?14%-15%（Brynjolfsson et al.），軟件開(kāi)發(fā) 26%（Cui et al.，GitHub Copilot），營(yíng)銷產(chǎn)出 50%（Ju & Aral），會(huì)計(jì) 55%（Choi & Xie）。METR 的研究發(fā)現(xiàn)經(jīng)驗(yàn)豐富的開(kāi)源開(kāi)發(fā)者反而慢了 19%（但后續(xù)未能復(fù)現(xiàn)）。依賴 AI 學(xué)習(xí)的軟件工程師沒(méi)有表現(xiàn)出可測(cè)量的速度提升，研究者稱之為「學(xué)習(xí)懲罰」

宏觀層面，美國(guó) 2025 年生產(chǎn)率增長(zhǎng)達(dá) 2.7%，接近過(guò)去十年 1.4% 平均值的兩倍。Brynjolfsson 將此解讀為「J 曲線」的早期階段。12,000 家歐洲企業(yè)的研究發(fā)現(xiàn) AI 采用提升了 4% 的勞動(dòng)生產(chǎn)率

中國(guó)繼續(xù)安裝全球一半以上的工業(yè)機(jī)器人（2024 年 54%），差距還在擴(kuò)大。臺(tái)灣以 33% 的同比增長(zhǎng)率領(lǐng)跑

第五章：科學(xué)

今年新獨(dú)立的章節(jié)，與 Schmidt Sciences 合作開(kāi)發(fā)

AI 相關(guān)科學(xué)論文在 2025 年達(dá)到約 80,150 篇，同比增長(zhǎng) 26%。AI 方法占科學(xué)研究產(chǎn)出的 5.8%-8.8%，2010 年低于 1%。地球科學(xué)的 AI 滲透率最高（8.8%），其次是整體自然科學(xué)（6.8%）和生命科學(xué)（6.5%）

AI 在科學(xué)中的角色分三個(gè)層次：第一層是傳統(tǒng)的科學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)，已經(jīng)成熟；第二層是輔助科學(xué)家工作流（文獻(xiàn)綜合、實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)分析），2025 年大幅擴(kuò)展；第三層是自主發(fā)現(xiàn)，仍在早期階段

在分子生物學(xué)領(lǐng)域，小模型在打敗大模型。 MSAPairformer 只有 1.11 億參數(shù)，在 ProteinGym 上打敗了之前的領(lǐng)先方法。GPN-Star 2 億參數(shù)的基因組學(xué)模型打敗了近 200 倍大的模型

虛擬細(xì)胞模型在 2025 年出現(xiàn)突破，包括 Arc Institute 的 Evo 2（400 億參數(shù)，訓(xùn)練數(shù)據(jù) 9.3 萬(wàn)億堿基對(duì)，全開(kāi)源）、STATE 和 DeepMind 的 AlphaGenome（從 DNA 預(yù)測(cè)數(shù)千種功能測(cè)量）。天文學(xué)發(fā)布了第一個(gè)基礎(chǔ)模型 AION-1，訓(xùn)練于 2 億多個(gè)天體

AI 首次端到端運(yùn)行了完整的天氣預(yù)報(bào)流程。Aardvark Weather 用單個(gè) ML 系統(tǒng)替換了傳統(tǒng)數(shù)值預(yù)報(bào)流水線。FourCastNet 3 在不到 4 分鐘內(nèi)生成 60 天全球預(yù)報(bào)，比之前的方法快 8-60 倍。材料科學(xué)方面，微軟的 MatterGen 用擴(kuò)散模型生成新材料，新穎性和穩(wěn)定性是此前方法的 2 倍以上

ClimateAgent 完成了 85 個(gè)氣候任務(wù)，完成率 100%，質(zhì)量評(píng)分 8.32，超過(guò) Microsoft Copilot 的 6.27 和 GPT-5 的 3.26

Sakana 的 AI Scientist-v2 產(chǎn)出了第一篇完全由 AI 生成并被同行評(píng)審（ICLR 2025 Workshop）接受的論文。Google 的 AI Co-scientist 在 GPQA Diamond 上達(dá)到 78.4% 的 top-1 準(zhǔn)確率。Kosmos 在單次 12 小時(shí)運(yùn)行中執(zhí)行平均 42,000 行代碼并閱讀 1,500 篇論文，約相當(dāng)于 6 個(gè)月的研究工作量

但 frontier agents 在論文級(jí)復(fù)現(xiàn)任務(wù)上的得分仍然低于 20%。能提出計(jì)算假設(shè)和能實(shí)驗(yàn)驗(yàn)證之間的差距仍然很大

第六章：醫(yī)療

同樣是今年新獨(dú)立的章節(jié)

AI 驅(qū)動(dòng)的蛋白質(zhì)研究在 2024 到 2025 年間增長(zhǎng)了約 71%。蛋白質(zhì)-藥物相互作用占論文的最大份額（54.4%）。隨著共折疊模型已經(jīng)可以表示蛋白質(zhì)數(shù)據(jù)庫(kù)中的所有結(jié)構(gòu)類型，瓶頸正在從架構(gòu)轉(zhuǎn)向數(shù)據(jù)

環(huán)境筆記 AI 是 2025 年臨床 AI 中采用最廣的品類。 Abridge 從約 100 家擴(kuò)展到 150 多家醫(yī)療系統(tǒng)，Kaiser Permanente 在 40 家醫(yī)院和 600 多個(gè)診所部署。Sharp HealthCare 報(bào)告筆記寫(xiě)作工作量減少 83%。芝加哥大學(xué)醫(yī)學(xué)中心認(rèn)知負(fù)荷降低 47%，不分心地關(guān)注患者的時(shí)間增加 58%。斯坦福醫(yī)療（48 名醫(yī)生的前瞻性研究）每半天門(mén)診節(jié)省 20 分鐘，職業(yè)倦怠顯著降低

膿毒癥預(yù)測(cè)取得實(shí)質(zhì)進(jìn)展。TREWS（約翰霍普金斯/Bayesian Health）在克利夫蘭診所 13 家醫(yī)院部署后：膿毒癥死亡率相對(duì)降低 18.7%，首次抗生素使用時(shí)間提前 1.85 小時(shí)，ICU 使用降低 10%，臨床醫(yī)生采用率 89%。COMPOSER（加州大學(xué)圣地亞哥分校）：膿毒癥死亡率降低 17%，估計(jì)每年挽救 50 條生命

診斷方面，微軟的 MAI-DxO 搭配 OpenAI 的 o3 在 NEJM 疑難病例上達(dá)到 85.5%，21 名執(zhí)業(yè)醫(yī)生（5-20 年經(jīng)驗(yàn)）在類似條件下約 20%。MedAgentBench 上最佳模型在虛擬電子病歷環(huán)境中達(dá)到 69.7% 的任務(wù)成功率

2025 年 FDA 授權(quán)了 258 個(gè) AI 醫(yī)療設(shè)備，已超過(guò)此前任何完整年度。 累計(jì)總數(shù)達(dá)到 1,357 個(gè)。放射學(xué)占 76.6%。絕大多數(shù)通過(guò) 510(k) 通道上市（不要求新臨床試驗(yàn)），只有 2.4% 有隨機(jī)試驗(yàn)數(shù)據(jù)支撐

AI 生成的摘要現(xiàn)在出現(xiàn)在 84%-92% 的健康相關(guān) Google 搜索結(jié)果頂部

癥狀和常見(jiàn)健康問(wèn)題觸發(fā) AI 概覽的比例最高（92%），其次是治療和疾病查詢。這正在塑造用戶對(duì)健康問(wèn)題的初始理解

臨床 AI 的證據(jù)基礎(chǔ)依然薄弱。超過(guò) 500 項(xiàng)臨床 AI 研究的綜述發(fā)現(xiàn)，近一半使用的是考試題而非真實(shí)患者數(shù)據(jù)，只有 5% 使用了真實(shí)臨床數(shù)據(jù)

醫(yī)學(xué)數(shù)字孿生的研究興趣增長(zhǎng)迅速。在一項(xiàng) 150 名糖尿病患者的隨機(jī)試驗(yàn)中，71% 在一年內(nèi)達(dá)到了健康血糖水平，同時(shí)安全地減少了用藥

醫(yī)學(xué) AI 論文中的倫理討論在 2025 年翻倍，但話題集中在治理層面，算法問(wèn)責(zé)、生物安全和全球健康公平仍然被忽視

第七章：教育

美國(guó)四年制大學(xué)的 CS 入學(xué)人數(shù)在 2024 到 2025 年間下降了 11%，學(xué)生在對(duì)入門(mén)級(jí) CS 崗位的就業(yè)前景做出反應(yīng)。但 AI 軟件相關(guān)碩士畢業(yè)生在 2022-2024 年間增長(zhǎng)了 82%

美國(guó)高中和大學(xué)生使用 AI 的情況

全球 80% 的大學(xué)生使用過(guò) GenAI 學(xué)習(xí)（2023 年是 40%）。60% 的美國(guó)高中生用 GenAI 做研究、編輯論文和頭腦風(fēng)暴。Anthropic 對(duì) Claude 使用數(shù)據(jù)的分析顯示，學(xué)生主要用于高階任務(wù)：創(chuàng)造（39.8%）和分析（30.2%）

但只有約一半的美國(guó)中學(xué)和高中有 AI 政策，只有 6% 的教師認(rèn)為學(xué)校的 AI 政策清晰。47% 的學(xué)生想用 AI 做作業(yè)但不確定是否被允許

美國(guó)和加拿大新增 AI PhD 從 2022 到 2024 年增長(zhǎng) 22%，達(dá)到 442 人，但新增的 PhD 全部去了學(xué)術(shù)界而非產(chǎn)業(yè)界，扭轉(zhuǎn)了過(guò)去十年的趨勢(shì)

全球 90% 以上的國(guó)家已向中小學(xué)生提供 CS 課程，但 AI 教育推進(jìn)更慢。中國(guó)和阿聯(lián)酋從 2025-26 學(xué)年強(qiáng)制要求 AI 教育。韓國(guó)在 2025 年 3 月推出 AI 教科書(shū)后因家長(zhǎng)和教師反對(duì)而撤回

第八章：政策與治理

今年報(bào)告新增了 AI 主權(quán)分析框架，覆蓋基礎(chǔ)設(shè)施主權(quán)、數(shù)據(jù)主權(quán)、模型主權(quán)、應(yīng)用主權(quán)和人才主權(quán)五個(gè)維度。國(guó)家支持的 AI 超算集群：中國(guó)以 85 個(gè)領(lǐng)先。 歐洲/中亞 44 個(gè)，北美 41 個(gè)。南亞 2 個(gè)，拉美 3 個(gè)，中東北非 8 個(gè)

全球 AI 相關(guān)立法數(shù)量趨勢(shì)

全球 AI 政策方向分裂。2025 年 1 月特朗普簽署行政命令撤銷了拜登的 AI 行政命令 14110，轉(zhuǎn)向去監(jiān)管和創(chuàng)新。2 月 EU AI Act 第一階段生效，禁止預(yù)測(cè)性執(zhí)法和情感識(shí)別等高風(fēng)險(xiǎn)應(yīng)用。巴黎 AI 行動(dòng)峰會(huì)上美國(guó)和英國(guó)拒絕簽署 60 個(gè)國(guó)家背書(shū)的包容性 AI 宣言

7 月美國(guó)參議院通過(guò)了 10 年聯(lián)邦禁令阻止州級(jí) AI 立法。但州級(jí)立法在快速增長(zhǎng)：從 2020 年的不到 10 部增加到 2025 年的 150 部，加州一個(gè)州在 2025 年就通過(guò)了 20 部 AI 法案

模型產(chǎn)出仍高度集中：美國(guó)累計(jì) 1,618 個(gè)，中國(guó) 849 個(gè)，歐洲 666 個(gè)，拉丁美洲只有 2 個(gè)。數(shù)據(jù)本地化措施：東亞太平洋 77 項(xiàng)，撒哈拉以南非洲 71 項(xiàng)，北美只有 3 項(xiàng)。超過(guò)一半的新 AI 國(guó)家戰(zhàn)略來(lái)自發(fā)展中經(jīng)濟(jì)體

美國(guó)國(guó)會(huì) AI 相關(guān)聽(tīng)證證人從 2017 年的 5 人增長(zhǎng)到 2023 年峰值 131 人。產(chǎn)業(yè)界證人占比從 13% 升到 37%，成為最大群體。學(xué)術(shù)界降至 15%，政府降至 10%

美國(guó)公共投資與私人支出相比微不足道。 2013 到 2024 年美國(guó)在 AI 相關(guān)合同和撥款上投入約 204 億，而 2025 年一年美國(guó)私人 AI 投資就有 2859 億。歐洲 AI 公共承諾在 2013-2024 年間約 37 億美元（英國(guó) 16 億，德國(guó) 5.05 億，法國(guó) 3.2 億）

第九章：公眾輿論

全球 AI 樂(lè)觀主義和焦慮同時(shí)上升。認(rèn)為 AI 利大于弊的比例從 55% 升到 59%，但認(rèn)為 AI 產(chǎn)品讓自己緊張的比例升到了 52%。超過(guò)一半的受訪者認(rèn)為自己對(duì) AI 有良好理解

東南亞仍是全球最樂(lè)觀的地區(qū)。馬來(lái)西亞、泰國(guó)、印度尼西亞、新加坡超過(guò) 80% 認(rèn)為 AI 將在 3-5 年內(nèi)深刻改變生活。德國(guó)（+12 個(gè)百分點(diǎn)）、法國(guó)（+10）和中國(guó)（+9）的樂(lè)觀情緒在 2022-2025 年間增長(zhǎng)最多

印度是 AI 焦慮上升最快的國(guó)家。 擔(dān)憂增加了 14 個(gè)百分點(diǎn)，樂(lè)觀只增加了 2 個(gè)百分點(diǎn)

工作場(chǎng)所 AI 使用在新興經(jīng)濟(jì)體中高于許多發(fā)達(dá)經(jīng)濟(jì)體。全球 58% 的員工報(bào)告半定期或定期使用 AI 工作，但在印度、中國(guó)、尼日利亞、阿聯(lián)酋和沙特，這一比例超過(guò) 80%

AI 專家和公眾的看法幾乎在所有維度上都存在巨大分歧

就業(yè)影響：專家 73% 積極 vs 公眾 23%（差距 50 個(gè)百分點(diǎn)）。經(jīng)濟(jì)影響：69% vs 21%。醫(yī)療：84% vs 44%。兩組人唯一的共識(shí)是 AI 會(huì)損害選舉和人際關(guān)系

64% 的美國(guó)人預(yù)期未來(lái) 20 年 AI 會(huì)減少就業(yè)，只有 5% 認(rèn)為會(huì)增加。專家沒(méi)那么悲觀（39% 減少，19% 增加），但預(yù)測(cè)采用速度快得多：專家預(yù)計(jì) 2030 年生成式 AI 輔助 80% 的美國(guó)工作時(shí)長(zhǎng)，公眾的預(yù)期是 10%

AI 伴侶目前仍是小眾行為。2025 年 8 月一起與 AI 伴侶互動(dòng)相關(guān)的青少年自殺事件引發(fā)了美國(guó)立法審查。專家預(yù)測(cè)到 2027 年 10% 的美國(guó)成年人將每天使用 AI 伴侶，2040 年 30%

美國(guó)對(duì)自己政府監(jiān)管 AI 的信任度全球最低，只有 31%。 全球平均 54%。新加坡最高 81%，印尼 76%，日本 32%。全球范圍內(nèi)，歐盟被認(rèn)為比美國(guó)或中國(guó)更可信地監(jiān)管 AI（53% vs 37% vs 27%）。全部 50 個(gè)美國(guó)州中，擔(dān)心監(jiān)管不足的人多于擔(dān)心監(jiān)管過(guò)度的人（41% vs 27%）

報(bào)告原文 423 頁(yè)，配套數(shù)據(jù)集在 Google Drive 上公開(kāi)，詳情看這里

https://hai.stanford.edu/ai-index/2026-ai-index-report

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.