国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

能解奧數(shù),不會(huì)看鐘:斯坦福2026年AI報(bào)告的15個(gè)判斷

0
分享至


4月13日,斯坦福大學(xué)人本AI研究所(HAI)發(fā)布了2026年度AI Index報(bào)告。400多頁(yè),覆蓋技術(shù)能力、投資格局、就業(yè)影響、公眾認(rèn)知,是這個(gè)行業(yè)迄今最完整的第三方年度審計(jì)。

這份報(bào)告從2017年開始連續(xù)發(fā)布,今年的結(jié)論可以用一句話概括:AI的能力正在以從未有過的速度跑贏一切——跑贏監(jiān)管框架,跑贏公眾信任,跑贏教育體系,甚至跑贏AI公司自己對(duì)信息透明度的意愿。

以下是從報(bào)告中提煉的核心內(nèi)容。

原文鏈接:https://hai.stanford.edu/ai-index/2026-ai-index-report

1

一、能解奧數(shù),不會(huì)看鐘

先從一個(gè)細(xì)節(jié)說起。

今年的報(bào)告里有一張圖,橫軸是時(shí)間,縱軸是AI在各類任務(wù)上相對(duì)于人類的表現(xiàn)。圖上有一條線幾乎是垂直上升的:代碼能力。SWE-bench Verified——衡量AI自主完成真實(shí)軟件工程任務(wù)的標(biāo)準(zhǔn)測(cè)試——在一年之內(nèi)從60%跳到了近100%。同期,AI代理處理現(xiàn)實(shí)任務(wù)的成功率從20%躍升至77.3%,網(wǎng)絡(luò)安全問題的解題率從15%飆到93%。


過去一年,Terminal-Bench 2.0 的準(zhǔn)確率顯著提升,從 2025 年 2 月的 20%提升到 2026 年初的 77.3%(見圖 2.5.2)。

Humanity's Last Exam是一套由全球近千名領(lǐng)域?qū)<夜餐O(shè)計(jì)的考題,專門為了難倒AI而生,覆蓋物理、數(shù)學(xué)、歷史、法律等幾乎所有高難度學(xué)科。2025年時(shí),排名第一的模型只能答對(duì)8.8%的題目。到今天,前沿模型的得分已經(jīng)超過50%。


2024 年至 2025 年間,HLE 模型準(zhǔn)確率提高了 30 個(gè)百分點(diǎn)(見圖 2.4.4)。一年內(nèi),準(zhǔn)確率從不到 10%躍升到38.3%

這不是線性增長(zhǎng),是躍遷。

但同一份報(bào)告里,還有另一條線——機(jī)器人完成真實(shí)家務(wù)任務(wù)的成功率,折疊衣服、洗碗這類事,至今只有12%。AI仍然不能穩(wěn)定地看懂模擬時(shí)鐘。生成連貫視頻仍然困難,多步驟規(guī)劃仍然出錯(cuò),某些專家級(jí)學(xué)術(shù)考試仍然答不對(duì)。


Gemini Deep Think 在 2025 年 IMO 中以自然語(yǔ)言進(jìn)行首發(fā)工作,在 4.5 小時(shí)的時(shí)間限制內(nèi)獲得 35 分(金),高于 2024 年獲得的 28 分銀獎(jiǎng)。在 ClockBench 上,頂級(jí)型號(hào)能正確讀取模擬時(shí)鐘的 50.1%,而人類則為 90.1%

能力的分布是不均勻的——某些維度已經(jīng)超越了人類可以驗(yàn)證的范圍,另一些地方仍在爬行。這是2026年AI的真實(shí)狀態(tài),也是接下來所有問題的底色。

1

二、美國(guó)是中國(guó)投資額的23倍,但AI人才流入已跌了89%

2025年,全球AI私人投資達(dá)到3447億美元,同比增長(zhǎng)127.5%。企業(yè)層面的AI投資總額達(dá)到5817億美元,一年翻了一倍多。

美國(guó)在這場(chǎng)軍備競(jìng)賽里出手最猛。2025年,美國(guó)AI投資額2859億美元,是排名第二的中國(guó)(124億美元)的23倍。這個(gè)差距是壓倒性的。


但同一份報(bào)告里,另一組數(shù)字指向了完全相反的方向。

2017年到2026年,AI領(lǐng)域頂尖學(xué)者移居美國(guó)的數(shù)量下降了89%。僅在過去一年,這一數(shù)字又跌了80%。

兩組數(shù)字放在一起的含義很清楚:美國(guó)在AI上砸的錢越來越多,但能用這些錢招到的最頂尖的人越來越少。錢還在涌入,但它的邊際價(jià)值正在被人才流失侵蝕。

中國(guó)的投資邏輯與此不同。報(bào)告指出,單純以私人投資額比較,會(huì)系統(tǒng)性地低估中國(guó)投入AI的資本體量。中國(guó)政府通過"政府引導(dǎo)基金"這一機(jī)制,自2000年以來在包括AI在內(nèi)的各領(lǐng)域累計(jì)部署了超過9120億美元。這筆錢不走市場(chǎng)化渠道,不出現(xiàn)在私人投資數(shù)據(jù)里,但它實(shí)實(shí)在在地存在。

在模型數(shù)量上,美國(guó)2025年發(fā)布了50個(gè)"值得關(guān)注"的模型,中國(guó)大約30個(gè),差距在縮小。在工業(yè)機(jī)器人安裝量上,中國(guó)2024年安裝了29.5萬(wàn)臺(tái),美國(guó)3.42萬(wàn)臺(tái),差距是8.6倍。中美在AI上走的是兩條平行賽道,正面交鋒的地方只是其中一部分。



1

三、22歲的程序員已經(jīng)感受到了,CEO還在說AI只是工具

就業(yè)影響的數(shù)據(jù)今年第一次清晰到無法繞開。

22到25歲的軟件開發(fā)者,從2024年以來就業(yè)人數(shù)下降了近20%。同一時(shí)期,26歲以上的同行就業(yè)人數(shù)基本持平甚至小幅增長(zhǎng)。這不是整個(gè)軟件行業(yè)在萎縮——是AI沖擊從底部開始,精準(zhǔn)地切掉了入門崗位。


自 2022 年以來,最年輕工人(22 至 25 歲)的就業(yè)人數(shù)有所下降,盡管年長(zhǎng)年齡段的員工人數(shù)持續(xù)增長(zhǎng)(見圖 4.4.29)。到 2025 年 9 月,22 至 25 歲軟件開發(fā)者的就業(yè)人數(shù)較 2022 年峰值下降了近 20%。

客服領(lǐng)域同樣出現(xiàn)了類似的模式:初級(jí)崗位在收縮,資深崗位暫時(shí)安全。

三分之一的企業(yè)高管在麥肯錫的調(diào)查中表示,預(yù)計(jì)未來一年將進(jìn)一步縮減員工規(guī)模,尤其集中在服務(wù)業(yè)、供應(yīng)鏈和軟件工程。這是關(guān)于未來的計(jì)劃,不是已經(jīng)發(fā)生的事。已經(jīng)發(fā)生的是:年輕人先感受到了。

報(bào)告的研究者同時(shí)提出了一個(gè)重要的限定:就業(yè)數(shù)據(jù)受到宏觀經(jīng)濟(jì)的干擾,無法把AI的影響完全分離出來。但他們也指出了一個(gè)反常的現(xiàn)象——AI暴露程度低的職業(yè),失業(yè)率的上升反而高于AI暴露程度高的職業(yè)。這與"AI直接替代"的簡(jiǎn)單敘事不符,背后可能有更復(fù)雜的勞動(dòng)力市場(chǎng)重構(gòu)正在發(fā)生。

AI帶來的生產(chǎn)力提升數(shù)字,報(bào)告同樣給出了:客服領(lǐng)域提升14%,軟件開發(fā)領(lǐng)域提升26%。這些增益是真實(shí)的,但享受這些增益的,是已經(jīng)在崗的、有經(jīng)驗(yàn)的工人。新進(jìn)入市場(chǎng)的年輕人,面對(duì)的是崗位數(shù)量本身正在減少的入口。

增益集中在上面,代價(jià)落在了底部。

1

四、模型越來越強(qiáng),告訴你它是怎么訓(xùn)練出來的公司越來越少

有一組數(shù)字在這份報(bào)告里是最少被引用的,但可能是最重要的。

Foundation Model Transparency Index,衡量主要AI公司對(duì)其模型訓(xùn)練數(shù)據(jù)、計(jì)算資源、能力邊界、風(fēng)險(xiǎn)及使用政策的披露程度。這個(gè)指標(biāo)去年的平均分是58分,今年跌到了40分。

報(bào)告的結(jié)論更直接:在透明度最低的模型里,往往是能力最強(qiáng)的那批。


人工分析開放性指數(shù)根據(jù)權(quán)重的自由訪問和許可程度,以及訓(xùn)練方法和訓(xùn)練前后數(shù)據(jù)的透明度,對(duì) AI 模型進(jìn)行 0 到 100 的評(píng)分。領(lǐng)先模型的得分較低,大多數(shù)在 100 分中的 2 到 16 分之間(見圖 3.8.1)

這是一個(gè)有意思的反轉(zhuǎn)。AI能力在加速進(jìn)化,但公眾能用來理解、審查、監(jiān)督這些能力的信息,在系統(tǒng)性減少。大型模型的訓(xùn)練數(shù)據(jù)是什么、用了多少算力、有哪些已知局限——這些本來應(yīng)該隨著能力增強(qiáng)而更受關(guān)注的問題,正在隨著能力增強(qiáng)而變得更加不透明。

公眾信任的數(shù)字也在印證這件事。全球調(diào)查中,只有31%的美國(guó)人表示信任本國(guó)政府能有效監(jiān)管AI,是所有被調(diào)查國(guó)家中倒數(shù)第二(中國(guó)是27%,墊底)。歐盟的數(shù)字是53%,差距明顯。

與此同時(shí),Gen Z對(duì)AI的情緒正在發(fā)生轉(zhuǎn)變。他們?cè)巧墒紸I最早的熱情擁躉,現(xiàn)在的調(diào)查數(shù)據(jù)顯示這一人群的焦慮和憤怒在上升。TechCrunch引用的一位研究者說得更直白:AI領(lǐng)袖們自己都在說"如果什么都不做,很多人會(huì)很慘",然后奇怪為什么公眾會(huì)焦慮。

4/5的美國(guó)高中和大學(xué)生在用AI完成學(xué)業(yè)任務(wù),但只有6%的教師表示學(xué)校有清晰的AI使用政策。能力跑在前面,框架跑在后面,中間的空白地帶是每天在使用AI的幾億個(gè)普通人。



1

五、訓(xùn)練一個(gè)模型,等于1.7萬(wàn)輛車跑一年

AI的能力在加速,代價(jià)也在加速。只是這個(gè)代價(jià)大部分是看不見的。

報(bào)告給出的數(shù)字:xAI的Grok 4,訓(xùn)練產(chǎn)生的碳排放估計(jì)約為7.28萬(wàn)噸CO?當(dāng)量,相當(dāng)于1.7萬(wàn)輛汽車行駛一整年產(chǎn)生的溫室氣體。而Epoch AI的獨(dú)立估算認(rèn)為這個(gè)數(shù)字更高,約為14萬(wàn)噸。

作為對(duì)比,OpenAI的GPT-4訓(xùn)練排放約5184噸,Meta的Llama 3.1 405B約8930噸。從GPT-4到Grok 4,不到兩年,單次訓(xùn)練的碳排放增加了超過10倍。

推理側(cè)的消耗同樣在積累。全年GPT-4o的推理水耗(用于冷卻數(shù)據(jù)中心服務(wù)器或水力發(fā)電),據(jù)估算可能超過1200萬(wàn)人全年的飲用水需求。全球AI數(shù)據(jù)中心的總電力容量達(dá)到29.6GW,相當(dāng)于整個(gè)紐約州的峰值用電量,也與瑞士或奧地利的全國(guó)用電量相當(dāng)。

與能源消耗同步增長(zhǎng)的,是算力的集中度。Nvidia的GPU目前占全球AI算力總量的60%以上,而全球AI算力自2022年以來每年增長(zhǎng)3.3倍,累計(jì)已是2021年的30倍。整個(gè)AI系統(tǒng)的物理基礎(chǔ),正在加速向少數(shù)幾家硬件供應(yīng)商和超大規(guī)模云服務(wù)商集中。

這些成本不會(huì)出現(xiàn)在AI產(chǎn)品的價(jià)格標(biāo)簽上,也不會(huì)出現(xiàn)在生產(chǎn)力提升的統(tǒng)計(jì)數(shù)字里。但它們是真實(shí)的,只是被分?jǐn)偟搅舜髿、地下水和電網(wǎng)里。

1

報(bào)告里有一個(gè)細(xì)節(jié),可以作為整篇的注腳。

AI已經(jīng)能解開數(shù)學(xué)奧林匹克競(jìng)賽的題目,但仍然不能穩(wěn)定地看懂模擬時(shí)鐘。

這個(gè)不均勻性,不是AI的bug,是這個(gè)階段的特征。某些維度的能力已經(jīng)超出了人類可以直覺驗(yàn)證的范圍,另一些維度還在爬行。而我們正處在這兩條曲線都在快速移動(dòng)的時(shí)刻——高速能力擴(kuò)張,與治理、信任、透明度的同步滑落。

斯坦福的研究者在報(bào)告序言里寫道:今年的報(bào)告揭示了"AI能做什么"與"我們準(zhǔn)備好管理它沒有"之間的裂縫正在變寬。這份報(bào)告本身能做的,是用數(shù)據(jù)讓裂縫可見。

裂縫之后怎么辦,是另一個(gè)問題。

點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上映多時(shí)票房只有零元,一個(gè)觀眾都沒有,五一檔最慘電影誕生了

上映多時(shí)票房只有零元,一個(gè)觀眾都沒有,五一檔最慘電影誕生了

影視高原說
2026-05-01 08:47:30
打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

打服了對(duì)手!塞爾比瓦菲、艾倫齊夸贊吳宜澤,他會(huì)是斯諾克新冠軍

里芃芃體育
2026-05-03 11:15:13
希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

希金斯:墨菲這屆世錦賽就像神一樣,意志力比拼里我關(guān)鍵黑球手軟

楊華評(píng)論
2026-05-03 02:48:59
蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

蜜月回家發(fā)現(xiàn)婚房被丈母娘一家十口霸占,我笑著離開并決定離婚

曉艾故事匯
2026-04-05 16:11:46
摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

摩根大通女高管被控性侵已婚印度裔男下屬,女方否認(rèn),公司調(diào)查稱并無證據(jù)

紅星新聞
2026-05-02 16:01:48
女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

女子找到工作月薪12000,僅面試一次老板就同意,入職兩天沒人理

丫頭舫
2026-05-01 22:17:59
網(wǎng)絡(luò)瘋傳賴清德妻子在美國(guó)購(gòu)買億元豪宅,賴辦回應(yīng)了

網(wǎng)絡(luò)瘋傳賴清德妻子在美國(guó)購(gòu)買億元豪宅,賴辦回應(yīng)了

海峽導(dǎo)報(bào)社
2026-05-02 10:52:21
倫敦世乒賽最新戰(zhàn)報(bào):國(guó)乒2連勝!張本智和慘敗,張本美和轟11-0

倫敦世乒賽最新戰(zhàn)報(bào):國(guó)乒2連勝!張本智和慘敗,張本美和轟11-0

羙晞
2026-05-03 09:15:03
中國(guó)對(duì)非洲國(guó)家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

中國(guó)對(duì)非洲國(guó)家實(shí)施零關(guān)稅,唯一例外的斯威士蘭格外“搶眼”

深度報(bào)
2026-05-02 22:10:20
他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

他是混血兒,出道20年默默無聞,《愛情沒有神話》和王菊搭戲火了

芬霏劇時(shí)光
2026-05-02 14:14:15
困獸之局:伊朗的窒息時(shí)刻

困獸之局:伊朗的窒息時(shí)刻

民間胡扯老哥
2026-05-02 11:36:28
誰(shuí)能想到!日本前首相在中國(guó)的土地上發(fā)聲:美國(guó)是全球最大威脅!

誰(shuí)能想到!日本前首相在中國(guó)的土地上發(fā)聲:美國(guó)是全球最大威脅!

娛樂圈的筆娛君
2026-05-03 12:06:23
1-3大冷!國(guó)乒不敵韓國(guó),比輸球還可怕,雪藏王楚欽 暴露3大短板

1-3大冷!國(guó)乒不敵韓國(guó),比輸球還可怕,雪藏王楚欽 暴露3大短板

大秦壁虎白話體育
2026-05-03 07:02:21
專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

專家呼吁:馬上停用6種食用油,它是肝癌加速器!再香也別吃

橘子約定
2026-05-03 09:43:10
格力原董事長(zhǎng)周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

格力原董事長(zhǎng)周樂偉投案,全網(wǎng)找董明珠:踢走十年,她憑什么反殺

戶外釣魚哥阿旱
2026-05-03 03:28:33
晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

晚飯七分飽被推翻了?提醒:過了62歲,吃飯盡量要做到這5點(diǎn)

芹姐說生活
2026-05-02 15:28:33
中國(guó)代表:要防止朝鮮半島生戰(zhàn)生亂

中國(guó)代表:要防止朝鮮半島生戰(zhàn)生亂

新華社
2026-05-01 09:27:03
排隊(duì)8小時(shí)充電,今年五一高速上1540萬(wàn)輛電車打了一場(chǎng)漂亮翻身仗

排隊(duì)8小時(shí)充電,今年五一高速上1540萬(wàn)輛電車打了一場(chǎng)漂亮翻身仗

金哥說新能源車
2026-05-02 14:04:53
霸氣 張雪舉杯邀請(qǐng)現(xiàn)場(chǎng)朋友慶祝奪冠 妻子:全場(chǎng)消費(fèi)都由我們買單

霸氣 張雪舉杯邀請(qǐng)現(xiàn)場(chǎng)朋友慶祝奪冠 妻子:全場(chǎng)消費(fèi)都由我們買單

風(fēng)過鄉(xiāng)
2026-05-03 08:27:36
一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測(cè)出了綠帽子

一位親子鑒定師的自述:我從業(yè)10年,給上千個(gè)男人檢測(cè)出了綠帽子

千秋文化
2026-05-02 19:48:10
2026-05-03 12:55:00
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
3054文章數(shù) 10493關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克罕見"拒答"!蘋果正被AI供應(yīng)鏈卡脖子

頭條要聞

上?萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

頭條要聞

上?萍即髮W(xué)王晨輝教授因營(yíng)救至親不幸去世 年僅39歲

體育要聞

裁判準(zhǔn)備下班,結(jié)果吳宜澤進(jìn)了決賽

娛樂要聞

蔡卓妍婚后首現(xiàn)身 戴結(jié)婚戒指笑容不斷

財(cái)經(jīng)要聞

后巴菲特時(shí)代,首場(chǎng)股東會(huì)透露了啥

汽車要聞

同比大漲190% 方程豹4月銷量29138臺(tái)

態(tài)度原創(chuàng)

家居
時(shí)尚
親子
教育
手機(jī)

家居要聞

靈動(dòng)實(shí)用 生活藝術(shù)場(chǎng)

春天別總傻傻穿一身黑,看看這些日常穿搭,高級(jí)舒適又優(yōu)雅

親子要聞

勞動(dòng)小能手節(jié)日快樂

教育要聞

能者不想干,中學(xué)行政“空心化”何時(shí)休?

手機(jī)要聞

榮耀羅巍透露同期還有一家手機(jī)廠商也在尋求與ARRI阿萊的合作

無障礙瀏覽 進(jìn)入關(guān)懷版