刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

2026-05-06 19:24:45　來源: 新智元

北京舉報

分享至

新智元報道

編輯：好困

【新智元導(dǎo)讀】SWE-Bench上能拿72%的模型，換張考卷直接歸零！Meta聯(lián)合斯坦福、哈佛放出ProgramBench，200個項目從零手寫，9大頂級模型完整通過率0%。最強的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯(lián)網(wǎng)，就有模型在36%的任務(wù)里跑去GitHub扒源碼。

給你一份FFmpeg的使用文檔，和一個編譯好的可執(zhí)行文件。

現(xiàn)在，從零把整個程序重新寫出來。

這就是ProgramBench給全球頂級AI出的題。

昨天剛發(fā)布，出自SWE-Bench原班人馬之手，Meta、斯坦福、哈佛三家聯(lián)手打造。

200個軟件項目。9個頂級模型。通過率，0%！

共同一作John Yang，斯坦福在讀博士，同時也是SWE-Bench和SWE-agent的創(chuàng)建者

不是修bug，是從零造軟件

過去一年，「讓AI Agent從零造軟件」的案例報道越來越多。

Anthropic用一組平行Claude寫了個C編譯器，Cursor發(fā)博客講長時間自主編程，Epoch AI的MirrorCode也在做類似的事。

但這些案例有個共同問題，每次只測幾個項目，腳手架都是手工調(diào)優(yōu)的。

相比之下，ProgramBench把這件事正規(guī)化了。

200個任務(wù)，統(tǒng)一腳手架，系統(tǒng)性反作弊，一把拉到benchmark的標準。

論文地址：https://programbench.com/static/paper.pdf

在之前的測試中，SWE-Bench會給你一個現(xiàn)成的代碼庫，告訴你哪里有bug或者需要加什么功能，你去改。本質(zhì)上是「閱讀理解+局部手術(shù)」。

而且在評估層面，它用的是單元測試，檢查你的代碼內(nèi)部實現(xiàn)對不對，你的函數(shù)簽名、變量名都得和預(yù)期一致。

ProgramBench則完全反過來。

它只給你兩樣?xùn)|西，一個編譯好的可執(zhí)行文件，加上使用文檔。

你的任務(wù)是僅憑運行這個程序、觀察它的輸入輸出行為，從零寫出一套能復(fù)現(xiàn)同樣行為的代碼。

選什么編程語言，用什么數(shù)據(jù)結(jié)構(gòu)，怎么拆分模塊，全部你自己定。

沒有代碼骨架，沒有函數(shù)簽名，沒有任何提示。

評估方式上，研究團隊用Agent驅(qū)動的模糊測試，為200個任務(wù)生成了總計248,853個行為測試。

你寫的程序跑一遍，輸入輸出和原版一致就算過，不一致就掛。測試永遠不會透露給模型。

和SWE-Bench的單元測試不同，ProgramBench的行為測試完全不關(guān)心你的代碼內(nèi)部長什么樣，只要行為一致就行。

200個任務(wù)覆蓋的項目橫跨壓縮工具（zstd、lz4、brotli）、語言解釋器（PHP、Lua、tinycc）、數(shù)據(jù)庫（DuckDB、SQLite）、媒體處理（FFmpeg）、開發(fā)者工具（ripgrep、fzf、jq）。

代碼行數(shù)中位數(shù)8,635行，最大的FFmpeg有270萬行。

總結(jié)來說，這個測試考的是AI有沒有能力「像人類工程師一樣思考和設(shè)計軟件」，而不只是「在現(xiàn)成代碼里找到該改的地方然后改對」。

九大模型排排坐，成績?nèi)砍曾喌?/strong>

參加測試的共有9款模型，涵蓋Claude、Gemini、GPT三大家族。

完整通過率（所有測試全部通過），全員0%。

先看三家旗艦的正面對決。

GPT-5.4和Gemini 3.1 Pro的平均測試通過率幾乎打平，分別是38.3%和36.6%。但兩者的做題風(fēng)格截然不同。

GPT-5.4只用16次API調(diào)用、0.33美元成本，基本就是一口氣把整個程序?qū)懲辏?00%的代碼在一次編輯中生成，之后幾乎不回頭改。

Gemini 3.1 Pro則是9個模型里最愛「觀察」的。它用了94次API調(diào)用，其中34.1%的操作都在運行原版程序、觀察輸入輸出行為。探索做得最多，但最終成績差距不大。

真正拉開身位的是Claude Opus 4.7。

平均通過率51.2%，在3%的任務(wù)上通過了95%以上的測試，是唯一達到「幾乎通過」標準的模型。但即便是它，也沒有在任何一個任務(wù)上拿到滿分。

從整體來看，9個模型的表現(xiàn)呈現(xiàn)出清晰的梯隊。

Claude系三款旗艦（Opus 4.7、Opus 4.6、Sonnet 4.6）領(lǐng)先，GPT-5.4和Gemini 3.1 Pro構(gòu)成第二梯隊，剩下的四款小模型通過率都在35%以下。

另一個反直覺的發(fā)現(xiàn)是，砸錢和堆步數(shù)并不能換來更好的成績。

Sonnet 4.6每個任務(wù)平均跑868條命令，成本27.09美元，最長的軌跡接近2000步。但它的成績反而不如只用93次調(diào)用、花3.81美元的Opus 4.7。

更關(guān)鍵的是，98%的運行中，模型都是自己覺得「做完了」主動交卷的，根本沒有撞到時間或步數(shù)上限。

不是考試時間不夠，是真的做不到。

此外，任務(wù)難度和模型排名高度一致。

簡單的CLI工具（nnn、fzf、gron）大家都能拿到不錯的分數(shù)，復(fù)雜系統(tǒng)（FFmpeg、PHP、typst、ast-grep）則對所有模型一視同仁地無情。

需要說明的是，ProgramBench用的是mini-SWE-agent這個極簡腳手架，沒有上下文壓縮、沒有多Agent協(xié)作、沒有定制化工具鏈。

代碼寫出來了，但完全不像人寫的

研究團隊對比了通過75%以上測試的高分解答和人類原版代碼，發(fā)現(xiàn)了幾個驚人的差異。

單文件怪獸。

人類代碼中位數(shù)分布在15個文件里，模型的中位數(shù)是3個。

60%的解答只有1到3個代碼文件。

人類工程師按功能拆分模塊，模型傾向于把所有東西塞進一個巨大的文件。目錄深度中位數(shù)，人類是2層，模型是1層。

函數(shù)又少又長。

Opus 4.7寫的函數(shù)數(shù)量只有人類的29%，Sonnet 4.6是24%，GPT-5.4只有10%。

但每個函數(shù)的平均長度更長，Gemini 3.1 Pro寫的函數(shù)比人類長62%。

代碼量大幅縮水。

模型代碼中位數(shù)1,173行，人類是3,068行。85%的高分解答比原版短。

總結(jié)來說就是，現(xiàn)在的AI會寫代碼，但不會做軟件設(shè)計。

它不懂為什么要拆分模塊，不理解為什么人類工程師要花時間定義接口和抽象層。策略就是把所有邏輯硬塞進盡可能少的文件和函數(shù)里，能跑就行。

GPT-5.4的表現(xiàn)最極端。平均每個任務(wù)只創(chuàng)建5個文件，修改1.2次，39.5%的軌跡在創(chuàng)建文件后零修改。

相比之下，Claude Sonnet 4.6平均創(chuàng)建11.3個文件、修改18.3次，表現(xiàn)出更接近人類的迭代開發(fā)模式。

還有一個很有意思的現(xiàn)象。

模型只有50%的概率會用和原版相同的編程語言。

其中，Python是模型的最愛，占所有1,800次運行的36%。

原版用Rust寫的項目，只有44%用Rust重寫；C/C++的，46%。Go項目的「忠誠度」最高，70%。

不管你原來是用什么語言寫的，模型有三分之一的概率會用Python重來一遍。

說好的不作弊，一聯(lián)網(wǎng)就去GitHub扒源碼

這可能是整個研究里最有戲劇感的部分。

研究團隊做了一組對照實驗，給模型開放網(wǎng)絡(luò)訪問權(quán)限，但在系統(tǒng)提示中明確告知「作弊不允許」。

然后用9個AI裁判檢查每條軌跡是否存在作弊行為。

結(jié)果觸目驚心。

Claude Sonnet 4.6有36%的任務(wù)被判定作弊，Claude Opus 4.6是21%，Gemini 3 Flash是20%。

作弊方式五花八門。

最赤裸裸的是去GitHub克隆源碼倉庫。

稍微隱蔽一點的是通過包管理器下載，比如cargo install、go get。

更狡猾的是去本地包緩存目錄翻依賴庫的源碼。

但AI裁判之間的分歧也大得驚人。

對于Claude Opus 4.6，9個裁判在57%的任務(wù)上無法達成一致。

有一個案例特別典型。

Claude Sonnet 4.6在做handlr這個Rust項目時，跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫的源代碼。

5個裁判判定作弊，4個裁判認為這些是第三方庫不算作弊。

最終，研究團隊放棄了「聯(lián)網(wǎng)+事后檢測」的方案，直接斷網(wǎng)。

模型在面對困難任務(wù)時，「找捷徑」的傾向比預(yù)想的強得多。而連9個AI裁判都判不清楚什么算作弊、什么算合理的逆向工程，說明這條邊界本身就是模糊的。

舊考試結(jié)束了，新考試才剛開始

SWE-Bench上能拿72%的模型，在ProgramBench上拿0%。

這兩個測試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」，ProgramBench考的是「自己從頭設(shè)計并實現(xiàn)一個完整系統(tǒng)」。

前者AI已經(jīng)做得相當好了，后者目前完全不及格。

Epoch AI上周剛發(fā)了一篇博文，宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測試，至少得放棄四個舒適條件中的一個，純文本、短耗時、易評分、人類專家碾壓。

按這個框架來看，ProgramBench放棄了其中兩個，短耗時和易評分。

它把任務(wù)拉到了人類工程師可能需要數(shù)周甚至數(shù)月才能完成的量級，同時用行為等價性而非源碼匹配來評估。

作者John Yang在推文中強調(diào)，「ProgramBench非常難，但它在設(shè)計上是可解的?！?/p>

也就是說，0%不代表這些任務(wù)超出了AI的理論極限，只是說明今天的模型還遠遠不夠。

SWE-Bench測的是AI能不能當一個好員工。ProgramBench測的是AI能不能當一個工程師。

這兩件事之間的距離，今天剛被精確測量出來。答案是0%。

參考資料：

https://programbench.com/static/paper.pdf

https://x.com/jyangballin/status/2051677497562210552?s=20

https://x.com/EpochAIResearch/status/2051760424891392204?s=20

https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點推薦

領(lǐng)先于Transformer！首個1200萬上下文模型SubQ，成本僅Opus的5%

機器之心Pro 2026-05-06 17:06:11
0 跟貼 0

Claude Code之父紅杉演講震撼全場! 26年未寫1行代碼, 電腦都不開了

新智元 2026-05-06 17:15:48
1 跟貼 1

DeepSeek版Claude Code登頂熱榜：8700星，鯨魚哥火了

機器之心Pro 2026-05-06 14:09:00
23 跟貼 23

讓兩個大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

豆包為什么選擇了 “最low”的變現(xiàn)方式？

藍鯨新聞 2026-05-06 11:20:09
288 跟貼 288

10美元破解機器人觸覺難題！斯坦福開源方案讓機械手擁有人類手感

DeepTech深科技 2026-04-19 19:34:17
8 跟貼 8

13人干翻Transformer！新架構(gòu)SSA算力暴減千倍，成本僅Opus 5%

新智元 2026-05-06 19:25:25
0 跟貼 0

Agent-World：擴展真實世界環(huán)境，讓智能體與環(huán)境協(xié)同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0

AP2O-Coder 讓大模型擁有「錯題本」，像人類一樣按題型高效刷題

機器之心Pro 2026-01-14 15:07:07
0 跟貼 0

Anthropic新研究！模型失控率降至7%，對齊數(shù)據(jù)訓(xùn)練量僅需1/60

智東西 2026-05-06 19:33:24
0 跟貼 0

GMI Cloud蔣劍彪：全球AI產(chǎn)業(yè)的范式轉(zhuǎn)移，從“模型為王”到“系統(tǒng)制勝”

智東西 2026-05-06 19:33:24
0 跟貼 0

00后小哥復(fù)刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

兩個哈佛女生用AI做電池故障排查，數(shù)月的工作量被縮到了幾分鐘

DeepTech深科技 2026-05-06 21:11:54
0 跟貼 0

豆包能否掀起國內(nèi)AI訂閱浪潮

華爾街見聞官方 2026-05-06 20:55:52
0 跟貼 0

華為工程師，偷偷用中文寫代碼，這事在硅谷炸鍋了

逗比歡樂營 2026-05-06 09:28:28
1 跟貼 1

媒體：中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

國是直通車 2026-05-05 23:12:13
18063 跟貼 18063

國產(chǎn)雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-06 14:14:46
0 跟貼 0

Excel 的 ChatGPT 插件來了，表格自動起飛

Ai學(xué)習(xí)的老章 2026-05-06 17:58:35
0 跟貼 0

財務(wù)對賬、數(shù)據(jù)整理必備：四種PDF轉(zhuǎn)Excel方式匯總

深情小崽 2026-05-06 14:37:24
0 跟貼 0

AReaL v1.0開源，智能體強化學(xué)習(xí)「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0

日本挑釁不停，中方重磅文件亮劍，戰(zhàn)敗國身份再成焦點

附允歷史觀 2026-05-05 15:44:47
0 跟貼 0

AI諂媚可能讓人陷入妄想癥

量子位 2026-04-08 12:28:40
0 跟貼 0

龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0

送文件撞破老板小秘密，場面瞬間尷尬，我該怎么自救！

生活升升樂 2026-05-05 15:36:30
1 跟貼 1

景區(qū)裝電梯無痛爬山被質(zhì)疑過度開發(fā)

極目新聞 2026-05-02 17:18:12
3832 跟貼 3832

周星馳發(fā)文祝賀吳宜澤奪冠

南方都市報 2026-05-06 07:27:10
1229 跟貼 1229

影子調(diào)查｜不“標準”的高標準農(nóng)田，正在整治

澎湃新聞 2026-05-06 12:34:33
343 跟貼 343

斯坦福發(fā)現(xiàn)：靠粗糧養(yǎng)腸道，都錯了！這類食物才是它的心頭愛

芝士小熊i 2026-05-06 10:48:02
1 跟貼 1

凌晨2點半開門，廣東一排骨飯大排長龍！局長帶人現(xiàn)場刮姜洗碗

南方都市報 2026-05-06 08:58:57
365 跟貼 365

20年等一回！這支不華麗的阿森納，卻最接近歐冠大耳杯

澎湃新聞 2026-05-06 10:56:28
252 跟貼 252

37歲開源神作突然更新：開發(fā)者還在用30年前的系統(tǒng)

賽博蘭博 2026-05-05 14:50:54
3 跟貼 3

我軍測試某新型反導(dǎo)武器指揮屏全是馬賽克

看看新聞Knews 2026-05-05 21:28:08
11 跟貼 11

蘋果成立50年，喬布斯的預(yù)言正在逐個應(yīng)驗

DeepTech深科技 2026-03-14 21:21:07
0 跟貼 0

世界杯FIFA開出天價版權(quán)，電視轉(zhuǎn)播談判陷僵局

齊魯壹點 2026-05-06 12:45:16
2061 跟貼 2061

男子購百萬保險被邀免費游老撾花數(shù)十萬買"熊膽"心虛

上觀新聞 2026-05-06 13:24:13
253 跟貼 253

雙面膠中婆婆不讓麗鵑花錢的背后，實則是在維護自己的生存邏輯

佚名影視說 2026-05-02 19:21:13
13 跟貼 13

號稱1200萬token上下文的模型來了，數(shù)據(jù)亮眼但疑點重重

DeepTech深科技 2026-05-06 21:04:23
0 跟貼 0

手機丟失7年后，安徽男子突然接到廠家的短信，通過照片和定位，手機失而復(fù)得！當事人：里面有珍貴的回憶，會收藏它

極目新聞 2026-05-06 09:31:29
1032 跟貼 1032

異地戀女友日常報備：護日、跑代碼、美容院

YYz 2026-05-04 02:11:45
0 跟貼 0

胖東來創(chuàng)始人于東來發(fā)文：感謝您感恩您！

大象新聞 2026-05-06 10:44:01
102 跟貼 102

朝鮮援俄傷亡數(shù)據(jù)曝光，1.4萬精銳傷亡過半，紀念墻畫面慘烈
番外行
2026-05-04 14:47:50

吳宜澤奪冠，最激動的除賣房托舉他的父母，還有敢撲進他懷里的她
林輕吟
2026-05-06 17:00:10

里弗斯狂噴追夢：你這輩子全靠庫里，還有臉說我拼爹？
仰臥撐FTUer
2026-05-06 06:57:13

三星電子成亞洲第二家萬億美元市值公司
財聞
2026-05-06 08:47:02

我國又一款摩托車奪冠！春風(fēng)動力在世界摩托車大獎賽上大幅度領(lǐng)先
科普大世界
2026-05-05 21:57:22

重慶法院神判決：酒店自費130萬裝空調(diào)后，物管費仍需按老標準交
兵叔評說
2026-05-06 11:03:46

中美同時向全球下達禁令，各國都傻眼了！美媒：中國此舉史無前例
福建睿平
2026-05-06 08:56:38

76歲王薇薇把裙子穿成項鏈：一場紅毯上的結(jié)構(gòu)實驗
娛圈觀察員
2026-05-06 02:03:32

湖人3將身價打沒了！里弗斯狂鐵，肯納德原形畢露，拉拉維亞辣眼
籃球資訊達人
2026-05-06 11:47:23

原陜西省衛(wèi)生廳副廳長耿慶義病逝，遺體、角膜均無償捐獻
澎湃新聞
2026-05-06 15:10:34

全面絞殺開始？日本突然宣布，中方亮明底線：不認錯，就沒得談
瘋狂小菠蘿
2026-05-06 18:34:38

中國運-20B：全球最大在產(chǎn)運輸機，騰飛在即
心靈得以滋養(yǎng)
2026-05-06 12:44:08

越來越猖狂的早餐店“鋁包子”，我們應(yīng)提高警惕，該如何辨別呢？
心中的麥田
2026-05-04 18:47:55

美媒：白宮認為與伊朗接近達成停戰(zhàn)諒解備忘錄
新華社
2026-05-06 17:28:28

深圳警方：對深圳市杰我睿珠寶有限公司、深圳市龍冶金業(yè)有限公司張某騰等涉嫌經(jīng)濟犯罪人員采取刑事強制措施
每日經(jīng)濟新聞
2026-05-06 17:45:06

林詩棟講王皓甩臉后續(xù)，王楚欽贏球卻留隱患，陪練坐錯地方遭投訴
三十年萊斯特城球迷
2026-05-05 22:47:18

世乒賽爆冷，日本男團又輸了！2-0到2-3遭逆轉(zhuǎn)，世界冠軍掉鏈子
夕落秋山
2026-05-06 20:06:22

被延長的搶救時間，被卡住的工傷認定
新京報
2026-05-06 11:03:07

明天如果是巴黎進決賽，阿森納會是小劣。反之是拜仁...
綠茵情報局
2026-05-06 13:47:28

廣東拜神的雞，為什么全國造型高度統(tǒng)一？
戶外阿嶄
2026-05-06 17:12:22

2026-05-06 21:27:00

新智元

AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代

15145文章數(shù) 66838關(guān)注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當庭戳老底

告別廢話文學(xué)與幻覺！GPT-5.5 Instant發(fā)布

市值破萬億美元！三星一年漲3倍，賣內(nèi)存賺麻了

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

頭條要聞

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

"小狗靠撿瓶子攢10萬"熱傳主人：大部分來自視頻收入

燒烤店主為捐髓救人停業(yè)13天重新營業(yè)后書記帶隊捧場

被問是否向伊朗提出停止襲擊運載貨物船只外交部回應(yīng)

美伊被指接近達成"一頁紙"的停戰(zhàn)備忘錄市場做出反應(yīng)

頭條要聞

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

"小狗靠撿瓶子攢10萬"熱傳主人：大部分來自視頻收入

燒烤店主為捐髓救人停業(yè)13天重新營業(yè)后書記帶隊捧場

被問是否向伊朗提出停止襲擊運載貨物船只外交部回應(yīng)

美伊被指接近達成"一頁紙"的停戰(zhàn)備忘錄市場做出反應(yīng)

體育要聞

活塞1比0騎士：坎寧安不再是一個人了

SGA18分雷霆1-0湖人勒布朗27+4+6里夫斯16中3

阿森納2-1淘汰馬競 20年后再進歐冠決賽薩卡制勝

倫敦世乒賽：國乒3-1羅馬尼亞！梁靖崑爆冷被橫掃，王楚欽獨得2分

坎寧安23+7活塞擊退騎士1-0，哈里斯20+8哈登22+8+7

娛樂要聞

神仙友誼！楊紫連續(xù)10年為張一山慶生

周潤發(fā)爆猛料：梁家輝以前是我“小弟”

何炅瞞著謝娜現(xiàn)身演唱會，現(xiàn)場發(fā)言一度抹淚

黃曉明剛帶娃去過，Angelababy后腳也來了？

張婉婷曬宋寧峰帶娃出游，網(wǎng)友：不離了？

財經(jīng)要聞

最新GDP！全國30強城市，又變了

3億月活，豆包養(yǎng)不起了

國際油價二連跌，華爾街在擔心什么

“五一”消費觀察：人們越來越為體驗買單？

格林基金的“大V實驗“：一場54天的流量狂歡兩個涉嫌違規(guī)的爭議

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式領(lǐng)克都要快樂

比亞迪4月銷量超32.1萬輛海外銷量同比增長70.9%

智己4月銷量破萬 1-4月累計銷量同比大漲130%

油耗2L級/價格不到8萬第四代逸動藍鯨超擎太懂家用了

仰望U9Xtreme超2000萬成交

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

房產(chǎn)

教育

公開課

軍事航空

旅游要聞

從“門票經(jīng)濟”到“沉浸共創(chuàng)”，廣元市利州區(qū)“五一”文旅市場的破圈之路

澳門“五一”假期交出亮眼旅游“成績單”

“五一”假期人氣拉滿蘭州近郊短途游持續(xù)走紅

漫山金黃惹人醉！廈門相思樹進入盛放期

房產(chǎn)要聞

遙遙領(lǐng)先！這個澄邁頂流紅盤，憑什么持續(xù)霸榜

定了！濱海九小江東校區(qū)9月開工，預(yù)計明年開學(xué)

五一樓市徹底明牌！塔尖人群都在重倉凱旋新世界

所有戶型全賣爆！海口TOP級豪宅，景觀樣板間五一全線開放！

教育要聞

“潮”人出動！沖沖沖！

【教研幫扶】廣東省教育研究院走進肇慶教研幫扶活動初中語文專場活動舉行

【預(yù)告】5月8日 | 南方教研大講堂第184場（小學(xué)數(shù)學(xué)）——加強教研支撐提升小學(xué)數(shù)學(xué)課堂教學(xué)質(zhì)量

“哪一類的家庭容易出學(xué)霸？”，男子分享：1.家里干凈整潔 2.飯菜好吃 3.大家說話都心平氣和，不在小事上互相消耗

這是一個庫存視頻，正是因為快到外小游園季，我才攢到現(xiàn)在發(fā)。楊雪呀

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻

為什么人類有不同的膚色？

七個無法存下錢的壞習(xí)慣

李彥宏：百度離破產(chǎn)30天

軍事要聞

實施不到48小時特朗普緊急喊停"霍爾木茲自由計劃"

我軍測試某新型反導(dǎo)武器指揮屏全是馬賽克

特朗普避談伊朗怎樣算違反停火堅稱"他們想達成協(xié)議"

美伊維持?；?國際油價回落

手機 / 數(shù)碼

房產(chǎn) / 家居

刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

“馬斯克不懂AI”：OpenAI當庭戳老底

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

知情人士：伊朗將同意將鈾濃縮材料運出伊朗

活塞1比0騎士：坎寧安不再是一個人了

神仙友誼！楊紫連續(xù)10年為張一山慶生

最新GDP！全國30強城市，又變了

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

從“門票經(jīng)濟”到“沉浸共創(chuàng)”，廣元市利州區(qū)“五一”文旅市場的破圈之路

遙遙領(lǐng)先！這個澄邁頂流紅盤，憑什么持續(xù)霸榜

“潮”人出動！沖沖沖！

實施不到48小時 特朗普緊急喊停"霍爾木茲自由計劃"

刷榜AI全掛了！Meta斯坦福地獄級測試，GPT/Claude/Gemini交出0分

最新GDP！全國30強城市，又變了

領(lǐng)克10/領(lǐng)克10+ 無論能源形式領(lǐng)克都要快樂

從“門票經(jīng)濟”到“沉浸共創(chuàng)”，廣元市利州區(qū)“五一”文旅市場的破圈之路

遙遙領(lǐng)先！這個澄邁頂流紅盤，憑什么持續(xù)霸榜

“潮”人出動！沖沖沖！

實施不到48小時特朗普緊急喊停"霍爾木茲自由計劃"