網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

刷榜AI全掛了！Meta斯坦福地獄級(jí)測(cè)試，GPT/Claude/Gemini交出0分

2026-05-06 19:24:45　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：好困

【新智元導(dǎo)讀】SWE-Bench上能拿72%的模型，換張考卷直接歸零！Meta聯(lián)合斯坦福、哈佛放出ProgramBench，200個(gè)項(xiàng)目從零手寫，9大頂級(jí)模型完整通過率0%。最強(qiáng)的Claude Opus 4.7平均通過率也才51.2%。更離譜的是一聯(lián)網(wǎng)，就有模型在36%的任務(wù)里跑去GitHub扒源碼。

給你一份FFmpeg的使用文檔，和一個(gè)編譯好的可執(zhí)行文件。

現(xiàn)在，從零把整個(gè)程序重新寫出來。

這就是ProgramBench給全球頂級(jí)AI出的題。

昨天剛發(fā)布，出自SWE-Bench原班人馬之手，Meta、斯坦福、哈佛三家聯(lián)手打造。

200個(gè)軟件項(xiàng)目。9個(gè)頂級(jí)模型。通過率，0%！

共同一作John Yang，斯坦福在讀博士，同時(shí)也是SWE-Bench和SWE-agent的創(chuàng)建者

不是修bug，是從零造軟件

過去一年，「讓AI Agent從零造軟件」的案例報(bào)道越來越多。

Anthropic用一組平行Claude寫了個(gè)C編譯器，Cursor發(fā)博客講長(zhǎng)時(shí)間自主編程，Epoch AI的MirrorCode也在做類似的事。

但這些案例有個(gè)共同問題，每次只測(cè)幾個(gè)項(xiàng)目，腳手架都是手工調(diào)優(yōu)的。

相比之下，ProgramBench把這件事正規(guī)化了。

200個(gè)任務(wù)，統(tǒng)一腳手架，系統(tǒng)性反作弊，一把拉到benchmark的標(biāo)準(zhǔn)。

論文地址：https://programbench.com/static/paper.pdf

在之前的測(cè)試中，SWE-Bench會(huì)給你一個(gè)現(xiàn)成的代碼庫(kù)，告訴你哪里有bug或者需要加什么功能，你去改。本質(zhì)上是「閱讀理解+局部手術(shù)」。

而且在評(píng)估層面，它用的是單元測(cè)試，檢查你的代碼內(nèi)部實(shí)現(xiàn)對(duì)不對(duì)，你的函數(shù)簽名、變量名都得和預(yù)期一致。

ProgramBench則完全反過來。

它只給你兩樣?xùn)|西，一個(gè)編譯好的可執(zhí)行文件，加上使用文檔。

你的任務(wù)是僅憑運(yùn)行這個(gè)程序、觀察它的輸入輸出行為，從零寫出一套能復(fù)現(xiàn)同樣行為的代碼。

選什么編程語(yǔ)言，用什么數(shù)據(jù)結(jié)構(gòu)，怎么拆分模塊，全部你自己定。

沒有代碼骨架，沒有函數(shù)簽名，沒有任何提示。

評(píng)估方式上，研究團(tuán)隊(duì)用Agent驅(qū)動(dòng)的模糊測(cè)試，為200個(gè)任務(wù)生成了總計(jì)248,853個(gè)行為測(cè)試。

你寫的程序跑一遍，輸入輸出和原版一致就算過，不一致就掛。測(cè)試永遠(yuǎn)不會(huì)透露給模型。

和SWE-Bench的單元測(cè)試不同，ProgramBench的行為測(cè)試完全不關(guān)心你的代碼內(nèi)部長(zhǎng)什么樣，只要行為一致就行。

200個(gè)任務(wù)覆蓋的項(xiàng)目橫跨壓縮工具（zstd、lz4、brotli）、語(yǔ)言解釋器（PHP、Lua、tinycc）、數(shù)據(jù)庫(kù)（DuckDB、SQLite）、媒體處理（FFmpeg）、開發(fā)者工具（ripgrep、fzf、jq）。

代碼行數(shù)中位數(shù)8,635行，最大的FFmpeg有270萬行。

總結(jié)來說，這個(gè)測(cè)試考的是AI有沒有能力「像人類工程師一樣思考和設(shè)計(jì)軟件」，而不只是「在現(xiàn)成代碼里找到該改的地方然后改對(duì)」。

九大模型排排坐，成績(jī)?nèi)砍曾喌?/strong>

參加測(cè)試的共有9款模型，涵蓋Claude、Gemini、GPT三大家族。

完整通過率（所有測(cè)試全部通過），全員0%。

先看三家旗艦的正面對(duì)決。

GPT-5.4和Gemini 3.1 Pro的平均測(cè)試通過率幾乎打平，分別是38.3%和36.6%。但兩者的做題風(fēng)格截然不同。

GPT-5.4只用16次API調(diào)用、0.33美元成本，基本就是一口氣把整個(gè)程序?qū)懲辏?00%的代碼在一次編輯中生成，之后幾乎不回頭改。

Gemini 3.1 Pro則是9個(gè)模型里最愛「觀察」的。它用了94次API調(diào)用，其中34.1%的操作都在運(yùn)行原版程序、觀察輸入輸出行為。探索做得最多，但最終成績(jī)差距不大。

真正拉開身位的是Claude Opus 4.7。

平均通過率51.2%，在3%的任務(wù)上通過了95%以上的測(cè)試，是唯一達(dá)到「幾乎通過」標(biāo)準(zhǔn)的模型。但即便是它，也沒有在任何一個(gè)任務(wù)上拿到滿分。

從整體來看，9個(gè)模型的表現(xiàn)呈現(xiàn)出清晰的梯隊(duì)。

Claude系三款旗艦（Opus 4.7、Opus 4.6、Sonnet 4.6）領(lǐng)先，GPT-5.4和Gemini 3.1 Pro構(gòu)成第二梯隊(duì)，剩下的四款小模型通過率都在35%以下。

另一個(gè)反直覺的發(fā)現(xiàn)是，砸錢和堆步數(shù)并不能換來更好的成績(jī)。

Sonnet 4.6每個(gè)任務(wù)平均跑868條命令，成本27.09美元，最長(zhǎng)的軌跡接近2000步。但它的成績(jī)反而不如只用93次調(diào)用、花3.81美元的Opus 4.7。

更關(guān)鍵的是，98%的運(yùn)行中，模型都是自己覺得「做完了」主動(dòng)交卷的，根本沒有撞到時(shí)間或步數(shù)上限。

不是考試時(shí)間不夠，是真的做不到。

此外，任務(wù)難度和模型排名高度一致。

簡(jiǎn)單的CLI工具（nnn、fzf、gron）大家都能拿到不錯(cuò)的分?jǐn)?shù)，復(fù)雜系統(tǒng)（FFmpeg、PHP、typst、ast-grep）則對(duì)所有模型一視同仁地?zé)o情。

需要說明的是，ProgramBench用的是mini-SWE-agent這個(gè)極簡(jiǎn)腳手架，沒有上下文壓縮、沒有多Agent協(xié)作、沒有定制化工具鏈。

代碼寫出來了，但完全不像人寫的

研究團(tuán)隊(duì)對(duì)比了通過75%以上測(cè)試的高分解答和人類原版代碼，發(fā)現(xiàn)了幾個(gè)驚人的差異。

單文件怪獸。

人類代碼中位數(shù)分布在15個(gè)文件里，模型的中位數(shù)是3個(gè)。

60%的解答只有1到3個(gè)代碼文件。

人類工程師按功能拆分模塊，模型傾向于把所有東西塞進(jìn)一個(gè)巨大的文件。目錄深度中位數(shù)，人類是2層，模型是1層。

函數(shù)又少又長(zhǎng)。

Opus 4.7寫的函數(shù)數(shù)量只有人類的29%，Sonnet 4.6是24%，GPT-5.4只有10%。

但每個(gè)函數(shù)的平均長(zhǎng)度更長(zhǎng)，Gemini 3.1 Pro寫的函數(shù)比人類長(zhǎng)62%。

代碼量大幅縮水。

模型代碼中位數(shù)1,173行，人類是3,068行。85%的高分解答比原版短。

總結(jié)來說就是，現(xiàn)在的AI會(huì)寫代碼，但不會(huì)做軟件設(shè)計(jì)。

它不懂為什么要拆分模塊，不理解為什么人類工程師要花時(shí)間定義接口和抽象層。策略就是把所有邏輯硬塞進(jìn)盡可能少的文件和函數(shù)里，能跑就行。

GPT-5.4的表現(xiàn)最極端。平均每個(gè)任務(wù)只創(chuàng)建5個(gè)文件，修改1.2次，39.5%的軌跡在創(chuàng)建文件后零修改。

相比之下，Claude Sonnet 4.6平均創(chuàng)建11.3個(gè)文件、修改18.3次，表現(xiàn)出更接近人類的迭代開發(fā)模式。

還有一個(gè)很有意思的現(xiàn)象。

模型只有50%的概率會(huì)用和原版相同的編程語(yǔ)言。

其中，Python是模型的最愛，占所有1,800次運(yùn)行的36%。

原版用Rust寫的項(xiàng)目，只有44%用Rust重寫；C/C++的，46%。Go項(xiàng)目的「忠誠(chéng)度」最高，70%。

不管你原來是用什么語(yǔ)言寫的，模型有三分之一的概率會(huì)用Python重來一遍。

說好的不作弊，一聯(lián)網(wǎng)就去GitHub扒源碼

這可能是整個(gè)研究里最有戲劇感的部分。

研究團(tuán)隊(duì)做了一組對(duì)照實(shí)驗(yàn)，給模型開放網(wǎng)絡(luò)訪問權(quán)限，但在系統(tǒng)提示中明確告知「作弊不允許」。

然后用9個(gè)AI裁判檢查每條軌跡是否存在作弊行為。

結(jié)果觸目驚心。

Claude Sonnet 4.6有36%的任務(wù)被判定作弊，Claude Opus 4.6是21%，Gemini 3 Flash是20%。

作弊方式五花八門。

最赤裸裸的是去GitHub克隆源碼倉(cāng)庫(kù)。

稍微隱蔽一點(diǎn)的是通過包管理器下載，比如cargo install、go get。

更狡猾的是去本地包緩存目錄翻依賴庫(kù)的源碼。

但AI裁判之間的分歧也大得驚人。

對(duì)于Claude Opus 4.6，9個(gè)裁判在57%的任務(wù)上無法達(dá)成一致。

有一個(gè)案例特別典型。

Claude Sonnet 4.6在做handlr這個(gè)Rust項(xiàng)目時(shí)，跑去~/.cargo/registry/src/目錄翻了xdg-mime、clap等依賴庫(kù)的源代碼。

5個(gè)裁判判定作弊，4個(gè)裁判認(rèn)為這些是第三方庫(kù)不算作弊。

最終，研究團(tuán)隊(duì)放棄了「聯(lián)網(wǎng)+事后檢測(cè)」的方案，直接斷網(wǎng)。

模型在面對(duì)困難任務(wù)時(shí)，「找捷徑」的傾向比預(yù)想的強(qiáng)得多。而連9個(gè)AI裁判都判不清楚什么算作弊、什么算合理的逆向工程，說明這條邊界本身就是模糊的。

舊考試結(jié)束了，新考試才剛開始

SWE-Bench上能拿72%的模型，在ProgramBench上拿0%。

這兩個(gè)測(cè)試考的根本就是兩種能力。SWE-Bench考的是「在別人的代碼里找到問題并修好」，ProgramBench考的是「自己從頭設(shè)計(jì)并實(shí)現(xiàn)一個(gè)完整系統(tǒng)」。

前者AI已經(jīng)做得相當(dāng)好了，后者目前完全不及格。

Epoch AI上周剛發(fā)了一篇博文，宣判舊推理benchmark集體死亡。想搞出還沒被刷爆的測(cè)試，至少得放棄四個(gè)舒適條件中的一個(gè)，純文本、短耗時(shí)、易評(píng)分、人類專家碾壓。

按這個(gè)框架來看，ProgramBench放棄了其中兩個(gè)，短耗時(shí)和易評(píng)分。

它把任務(wù)拉到了人類工程師可能需要數(shù)周甚至數(shù)月才能完成的量級(jí)，同時(shí)用行為等價(jià)性而非源碼匹配來評(píng)估。

作者John Yang在推文中強(qiáng)調(diào)，「ProgramBench非常難，但它在設(shè)計(jì)上是可解的�！�

也就是說，0%不代表這些任務(wù)超出了AI的理論極限，只是說明今天的模型還遠(yuǎn)遠(yuǎn)不夠。

SWE-Bench測(cè)的是AI能不能當(dāng)一個(gè)好員工。ProgramBench測(cè)的是AI能不能當(dāng)一個(gè)工程師。

這兩件事之間的距離，今天剛被精確測(cè)量出來。答案是0%。

參考資料：

https://programbench.com/static/paper.pdf

https://x.com/jyangballin/status/2051677497562210552?s=20

https://x.com/EpochAIResearch/status/2051760424891392204?s=20

https://epochai.substack.com/p/rip-classic-reasoning-benchmarks

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

領(lǐng)先于Transformer！首個(gè)1200萬上下文模型SubQ，成本僅Opus的5%

機(jī)器之心Pro 2026-05-06 17:06:11
0 跟貼 0

DeepSeek V4 發(fā)布后遇冷，開發(fā)者只聊Codex：便宜不是萬能藥

雷科技 2026-05-06 21:25:43
43 跟貼 43

Claude Code之父紅杉演講震撼全場(chǎng)! 26年未寫1行代碼, 電腦都不開了

新智元 2026-05-06 17:15:48
18 跟貼 18

DeepSeek版Claude Code登頂熱榜：8700星，鯨魚哥火了

機(jī)器之心Pro 2026-05-06 14:09:00
24 跟貼 24

豆包為什么選擇了 “最low”的變現(xiàn)方式？

藍(lán)鯨新聞 2026-05-06 11:20:09
477 跟貼 477

讓兩個(gè)大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢(shì)Deploy-Master

機(jī)器之心Pro 2026-01-09 14:22:47
0 跟貼 0

10美元破解機(jī)器人觸覺難題！斯坦福開源方案讓機(jī)械手擁有人類手感

DeepTech深科技 2026-04-19 19:34:17
8 跟貼 8

13人干翻Transformer！新架構(gòu)SSA算力暴減千倍，成本僅Opus 5%

新智元 2026-05-06 19:25:25
11 跟貼 11

Agent-World：擴(kuò)展真實(shí)世界環(huán)境，讓智能體與環(huán)境協(xié)同進(jìn)化！

機(jī)器之心Pro 2026-05-06 12:40:24
0 跟貼 0

AP2O-Coder 讓大模型擁有「錯(cuò)題本」，像人類一樣按題型高效刷題

機(jī)器之心Pro 2026-01-14 15:07:07
0 跟貼 0

GMI Cloud蔣劍彪：全球AI產(chǎn)業(yè)的范式轉(zhuǎn)移，從“模型為王”到“系統(tǒng)制勝”

智東西 2026-05-06 19:33:24
0 跟貼 0

朝鮮黑客進(jìn)入AI時(shí)代，三個(gè)月狂撈千萬美金

英國(guó)那些事兒 2026-05-06 23:35:33
0 跟貼 0

兩個(gè)哈佛女生用AI做電池故障排查，數(shù)月的工作量被縮到了幾分鐘

DeepTech深科技 2026-05-06 21:11:54
0 跟貼 0

00后小哥復(fù)刻Claude最強(qiáng)神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

華為工程師，偷偷用中文寫代碼，這事在硅谷炸鍋了

逗比歡樂營(yíng) 2026-05-06 09:28:28
1 跟貼 1

媒體：中國(guó)史無前例下"阻斷禁令" 美媒迅速捕捉到信號(hào)

國(guó)是直通車 2026-05-05 23:12:13
18491 跟貼 18491

國(guó)產(chǎn)雙開源：讓Mac成為你的私人AI工作站

機(jī)器之心Pro 2026-05-06 14:14:46
0 跟貼 0

Excel 的 ChatGPT 插件來了，表格自動(dòng)起飛

Ai學(xué)習(xí)的老章 2026-05-06 17:58:35
0 跟貼 0

Excel表格太亂？試試10%可見法則

賽博蘭博 2026-05-06 23:40:57
0 跟貼 0

Meta新發(fā)布會(huì)：我和朋友變身忍者神龜

賽博蘭博 2026-05-07 01:10:34
0 跟貼 0

AReaL v1.0開源，智能體強(qiáng)化學(xué)習(xí)「一鍵接入」

機(jī)器之心Pro 2026-03-05 14:46:18
0 跟貼 0

龍蝦軍團(tuán)有了最強(qiáng)「視力」！一眼看圖直接寫代碼-1

機(jī)器之心Pro 2026-04-02 16:56:32
0 跟貼 0

一篇叫《罌粟花》的文章，點(diǎn)進(jìn)去卻什么都沒有

時(shí)光慢郵啊 2026-05-07 00:08:11
0 跟貼 0

AI諂媚可能讓人陷入妄想癥

量子位 2026-04-08 12:28:40
0 跟貼 0

送文件撞破老板小秘密，場(chǎng)面瞬間尷尬，我該怎么自救！

生活升升樂 2026-05-05 15:36:30
1 跟貼 1

日本挑釁不停，中方重磅文件亮劍，戰(zhàn)敗國(guó)身份再成焦點(diǎn)

附允歷史觀 2026-05-05 15:44:47
0 跟貼 0

號(hào)稱1200萬token上下文的模型來了，數(shù)據(jù)亮眼但疑點(diǎn)重重

DeepTech深科技 2026-05-06 21:04:23
0 跟貼 0

景區(qū)裝電梯無痛爬山被質(zhì)疑過度開發(fā)

極目新聞 2026-05-02 17:18:12
4157 跟貼 4157

20年等一回！這支不華麗的阿森納，卻最接近歐冠大耳杯

澎湃新聞 2026-05-06 10:56:28
288 跟貼 288

影子調(diào)查｜不“標(biāo)準(zhǔn)”的高標(biāo)準(zhǔn)農(nóng)田，正在整治

澎湃新聞 2026-05-06 12:34:33
273 跟貼 273

男子購(gòu)百萬保險(xiǎn)被邀免費(fèi)游老撾花數(shù)十萬買"熊膽"心虛

上觀新聞 2026-05-06 13:24:13
274 跟貼 274

斯坦福發(fā)現(xiàn)：靠粗糧養(yǎng)腸道，都錯(cuò)了！這類食物才是它的心頭愛

芝士小熊i 2026-05-06 10:48:02
1 跟貼 1

凌晨2點(diǎn)半開門，廣東一排骨飯大排長(zhǎng)龍！局長(zhǎng)帶人現(xiàn)場(chǎng)刮姜洗碗

南方都市報(bào) 2026-05-06 08:58:57
674 跟貼 674

蘋果成立50年，喬布斯的預(yù)言正在逐個(gè)應(yīng)驗(yàn)

DeepTech深科技 2026-03-14 21:21:07
0 跟貼 0

周星馳發(fā)文祝賀吳宜澤奪冠

南方都市報(bào) 2026-05-06 07:27:10
1307 跟貼 1307

雙面膠中婆婆不讓麗鵑花錢的背后，實(shí)則是在維護(hù)自己的生存邏輯

佚名影視說 2026-05-02 19:21:13
13 跟貼 13

世界杯FIFA開出天價(jià)版權(quán)，電視轉(zhuǎn)播談判陷僵局

齊魯壹點(diǎn) 2026-05-06 12:45:16
2672 跟貼 2672

黃宏生稱段永平一場(chǎng)球后買創(chuàng)維股票賺了十幾億，段永平：完全不記得跟他打過球

界面新聞 2026-05-06 18:14:12
78 跟貼 78

強(qiáng)化學(xué)習(xí)實(shí)戰(zhàn)訓(xùn)練營(yíng)①：從零入門，一節(jié)課搞懂 RL 核心邏輯！強(qiáng)化學(xué)習(xí)入門基礎(chǔ)與核心概念詳解！

盧菁老師 2026-05-06 09:13:22
0 跟貼 0

斯坦福HAI大重組！李飛飛升任校長(zhǎng)顧問

新智元 2026-05-05 10:11:35
38 跟貼 38

杭州同學(xué)聚會(huì)吃了32萬，請(qǐng)客的人付完錢走后，剩下的人翻臉了
紙鳶奇譚
2025-12-19 14:19:59

今日最慘股！已連續(xù)下跌四個(gè)月，今又20cm跌停，而且還是一字跌停
丁丁鯉史紀(jì)
2026-05-06 10:51:55

穆里尼奧通過視頻通話向弗洛倫蒂諾要求解雇平圖斯以回歸皇馬
綠茵情報(bào)局
2026-05-06 22:52:33

三星宣布停止在中國(guó)市場(chǎng)銷售所有家電產(chǎn)品
財(cái)聯(lián)社
2026-05-06 19:32:22

悲催！社區(qū)食堂迎來集體退場(chǎng)的結(jié)局，網(wǎng)友：不符合市場(chǎng)經(jīng)濟(jì)規(guī)律
火山詩(shī)話
2026-05-06 07:01:51

“臺(tái)獨(dú)”頑固分子劉世芳親屬已被在大陸臺(tái)企解職
界面新聞
2026-05-06 21:01:54

4月銷量暴漲北汽藍(lán)谷憑硬核實(shí)力扛住市場(chǎng)波動(dòng)
道哥說車
2026-05-06 16:21:07

英媒：吳宜澤吞云吐霧照片讓老球迷更喜歡，他風(fēng)格很像颶風(fēng)希金斯
楊華評(píng)論
2026-05-06 15:14:00

5種廢品價(jià)格暴漲，家里有這5樣?xùn)|西的，提醒身邊人別亂扔了
小談食刻美食
2026-05-06 07:39:22

特朗普提議中國(guó)改買美國(guó)石油，外交部：能源政策建議向有關(guān)方面了解
澎湃新聞
2026-05-06 17:06:27

5月1日起全額繳納社保，全民創(chuàng)業(yè)時(shí)代正式謝幕，但請(qǐng)不要難過
月滿大江流
2026-05-06 17:01:05

王毅部長(zhǎng)最新照片令網(wǎng)友心酸，73歲的他為何仍?shī)^戰(zhàn)在外交一線？
李昕言溫度空間
2026-05-06 20:34:07

臺(tái)官員曝賴清德成功返臺(tái)內(nèi)幕，大陸出手阻止未果，背后有難言之隱
共工之錨
2026-05-07 00:04:56

16歲女孩景區(qū)內(nèi)墜亡，目擊者發(fā)聲，賠償金額曝光，景區(qū)運(yùn)營(yíng)僅49天
溫柔看世界
2026-05-06 11:48:44

吳宜澤抽煙照曝光！外網(wǎng)調(diào)侃：我們沉迷于電子煙中國(guó)人都抽香煙
念洲
2026-05-06 07:42:45

媽媽帶3歲兒子送外賣不幸遭遇車禍，孩子滿臉傷痕不哭不鬧一直守在身旁，網(wǎng)友：這一刻他就是媽媽的“守護(hù)天使”
洪觀新聞
2026-05-06 11:24:50

誰把女游客推下了懸崖？
賓語(yǔ)觀世
2026-05-06 20:10:49

47歲高圓圓在公園被抓拍，麒麟臂、涼拖鞋，活脫脫一個(gè)買菜大姐
嘴角上翹的弧度
2026-05-06 19:51:52

國(guó)際足聯(lián)也急了！原來除了中國(guó)，還有這么多國(guó)家不給世界杯買單了
阿纂看事
2026-05-06 15:55:12

今夜，利好！全線暴漲！
中國(guó)基金報(bào)
2026-05-07 00:18:39

2026-05-07 02:51:00

新智元

AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代

15145文章數(shù) 66838關(guān)注度

往期回顧全部

科技要聞

“馬斯克不懂AI”：OpenAI當(dāng)庭戳老底

告別廢話文學(xué)與幻覺！GPT-5.5 Instant發(fā)布

市值破萬億美元！三星一年漲3倍，賣內(nèi)存賺麻了

傳蘋果考慮讓英特爾、三星代工設(shè)備處理器

OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

頭條要聞

特朗普：伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

中國(guó)發(fā)布阻斷禁令后魯比奧聲稱將二次制裁外交部回應(yīng)

知情人士：伊朗將同意將鈾濃縮材料運(yùn)出伊朗

80余國(guó)水手仍被困霍爾木茲魯比奧：他們是待宰的羔羊

養(yǎng)殖基地投入4000萬養(yǎng)鹿煤礦動(dòng)工開采后51只鹿已死亡

頭條要聞

特朗普：伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

中國(guó)發(fā)布阻斷禁令后魯比奧聲稱將二次制裁外交部回應(yīng)

知情人士：伊朗將同意將鈾濃縮材料運(yùn)出伊朗

80余國(guó)水手仍被困霍爾木茲魯比奧：他們是待宰的羔羊

養(yǎng)殖基地投入4000萬養(yǎng)鹿煤礦動(dòng)工開采后51只鹿已死亡

體育要聞

活塞1比0騎士：坎寧安不再是一個(gè)人了

北京主場(chǎng)8分取勝1-0廣東曾凡博23分杰曼21+8+4

上海險(xiǎn)勝1-0山東：懷特塞德23+9 張鎮(zhèn)麟14分王哲林遭驚天騎扣

中超-10人國(guó)安3-0英博拉莫斯林良銘建功曹永競(jìng)?cè)炯t

近6輪僅1勝！海港1-1新鵬城劉祝潤(rùn)替補(bǔ)絕平安佩姆補(bǔ)時(shí)打人染紅

娛樂要聞

謝娜演唱會(huì)暗藏驚喜何炅瞞天過海現(xiàn)身

林依晨自曝差點(diǎn)放棄演藝夢(mèng)，曾做過腦瘤手術(shù)

李亞鵬帶4歲女兒燙頭發(fā)，和海哈金喜碰面很自然

獨(dú)自帶娃！路人偶遇Angelababy素顏現(xiàn)身迪士尼

《妻旅6》下期要火！孫楊張豆豆又起爭(zhēng)執(zhí)

財(cái)經(jīng)要聞

估值450億美元大基金被曝將投資DeepSeek

獨(dú)家解碼，終止近兩年后，云舟生物IPO鎩羽之謎暗浮水面！

鍋圈做餐飲外賣，開出“外賣廚房”首店

3億月活，豆包養(yǎng)不起了

白酒大撤退！五糧液“暴雷”300億

汽車要聞

領(lǐng)克10/領(lǐng)克10+ 無論能源形式領(lǐng)克都要快樂

比亞迪4月銷量超32.1萬輛海外銷量同比增長(zhǎng)70.9%

智己4月銷量破萬 1-4月累計(jì)銷量同比大漲130%

油耗2L級(jí)/價(jià)格不到8萬第四代逸動(dòng)藍(lán)鯨超擎太懂家用了

仰望U9Xtreme超2000萬成交

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

親子

時(shí)尚

手機(jī)

家居要聞

大膽前衛(wèi) 時(shí)尚大宅

靈動(dòng)實(shí)用生活藝術(shù)場(chǎng)

寂然無界簡(jiǎn)潔風(fēng)格

江景風(fēng)格流動(dòng)的秩序

旅游要聞

“旅游興趣班”開啟文旅經(jīng)濟(jì)新賽道

瀑布秋千親歷者：“沒綁緊”不是遇難女孩說的；有體驗(yàn)者還原項(xiàng)目全程，后怕稱“福大命大”，3月曾有人預(yù)言“一年內(nèi)準(zhǔn)出事”

視頻|在上海，“China Travel”安全感是一種怎樣的體驗(yàn)？

累計(jì)接待游客近28萬人次！橫琴盤點(diǎn)“五一”假期文旅成績(jī)單

親子要聞

開車的小孩子最帥了

寶媽別僥幸，孩子被侵害后的心理傷害，長(zhǎng)大一定會(huì)出現(xiàn)！

筱梅分享帶娃日常，抱小寶寶手法熟練！小寶寶嬰兒房舒適又寬敞！

兒童哮喘表現(xiàn)多樣，家長(zhǎng)容易誤判延誤診治丨健康小紅花

1天漲粉10萬的博士爸爸：這代孩子的“前額葉損傷”，可以這么養(yǎng)

有些路，不必每一步都走得那么用力

鄭愷&李沁，向你發(fā)出“網(wǎng)”友申請(qǐng)

春天穿“黑色”太沉悶？學(xué)會(huì)這些搭配小技巧，顯瘦減齡還洋氣

春天穿對(duì)了顏色真的很加分！試試這些彩色穿搭，養(yǎng)眼減齡顯活力

手機(jī)要聞

“iPhone Ultra”或?qū)⒊蔀闃I(yè)內(nèi)最易維修的折疊屏手機(jī)

小米手機(jī)大跌！出貨量下滑19%，汽車業(yè)務(wù)是「罪魁禍?zhǔn)住梗?/a>

等等黨笑到最后！華為Mate XT2與Mate90系列猛料全曝光

安卓蘋果終成一家？Android 17已換上液態(tài)玻璃！

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

刷榜AI全掛了！Meta斯坦福地獄級(jí)測(cè)試，GPT/Claude/Gemini交出0分

“馬斯克不懂AI”：OpenAI當(dāng)庭戳老底

特朗普：伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

特朗普：伊朗可能將其高濃縮鈾運(yùn)往美國(guó)

活塞1比0騎士：坎寧安不再是一個(gè)人了

謝娜演唱會(huì)暗藏驚喜 何炅瞞天過海現(xiàn)身

估值450億美元 大基金被曝將投資DeepSeek

領(lǐng)克10/領(lǐng)克10+ 無論能源形式 領(lǐng)克都要快樂

態(tài)度原創(chuàng)

大膽前衛(wèi) 時(shí)尚大宅

開車的小孩子最帥了

有些路，不必每一步都走得那么用力

“iPhone Ultra”或?qū)⒊蔀闃I(yè)內(nèi)最易維修的折疊屏手機(jī)

刷榜AI全掛了！Meta斯坦福地獄級(jí)測(cè)試，GPT/Claude/Gemini交出0分

謝娜演唱會(huì)暗藏驚喜何炅瞞天過海現(xiàn)身

估值450億美元大基金被曝將投資DeepSeek

領(lǐng)克10/領(lǐng)克10+ 無論能源形式領(lǐng)克都要快樂

有些路，不必每一步都走得那么用力