国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

「雙線實(shí)測(cè)」Qwen 3.6-Plus,Agentic Coding 已經(jīng)這么能“扛活兒”了?

0
分享至


全球最強(qiáng)編程模型,中國(guó)造。

作者丨吳海明

編輯丨梁丙鑒 馬曉寧

你可以從同事.skill 的爆火中看到兩種截然不同的時(shí)代情緒,其一固然是對(duì) Markdown 文件“大變活人”這一魔幻現(xiàn)實(shí)的試探,而反面則是如今對(duì)模型能力的評(píng)價(jià),已經(jīng)離不開工作級(jí)任務(wù)的場(chǎng)景。

“AI 能不能替代程序員”的老生常談之下,今天的真問題是,國(guó)產(chǎn)大模型能在多大程度上接管開發(fā)工作流。

這背后是一個(gè)被反復(fù)驗(yàn)證的痛點(diǎn):當(dāng) AI Agent 被放進(jìn)真實(shí)項(xiàng)目,它并沒有想象中那么“能扛活”。它能開始任務(wù),但執(zhí)行過程反復(fù)中斷,多輪對(duì)話后上下文丟失,結(jié)果前后不一致。面對(duì)非標(biāo)準(zhǔn)需求時(shí),工具調(diào)用也頻頻失誤。你一覺醒來(lái),發(fā)現(xiàn)流程早已卡死,標(biāo)準(zhǔn)結(jié)局總是如此。

問題的根源不在 Agent 的外殼,而在底層大模型本身還缺乏穩(wěn)定可靠的“執(zhí)行力”和“決策力”。

4月7日,阿里云通義千問 Qwen3.6-Plus 正式上線,在 Terminal-Bench 2.0 編程測(cè)試中超越了 Claude Opus 4.5,拿下全球編程模型榜首。

但我們決定換一種更接近真實(shí)場(chǎng)景的方式測(cè)一次,不用單點(diǎn)的 Benchmark,而是用兩套真實(shí)復(fù)雜任務(wù),覆蓋“決策”與“執(zhí)行”兩條能力軸,全面評(píng)估 Qwen 3.6-Plus 的智能體能力上限。

01


核心實(shí)測(cè)——“雙線”考核:

復(fù)雜決策 × Agentic Coding

現(xiàn)實(shí)中高價(jià)值的工作級(jí)任務(wù),往往是多因素、多步驟、有約束、有風(fēng)險(xiǎn),和“一步到位”的 ChatBot 對(duì)模型有著完全不同的能力需求。因此,大模型從“聊天工具”變成真正的智能體,復(fù)雜決策能力是一個(gè)分水嶺。

在本次測(cè)評(píng)中,我們選擇智能體決策與智能體編程兩個(gè)高難度、高價(jià)值場(chǎng)景,構(gòu)建了雙線考核體系,檢驗(yàn)?zāi)P驮谡鎸?shí)復(fù)雜任務(wù)中的自主規(guī)劃、動(dòng)態(tài)決策與工程落地能力:

case1 教育改革試點(diǎn)方案設(shè)計(jì):復(fù)雜規(guī)劃與現(xiàn)實(shí)決策

我們采用具備主動(dòng)執(zhí)行能力的代表性智能體框架 OpenClaw 進(jìn)行測(cè)試,在教育改革背景下要求模型設(shè)計(jì)貼近真實(shí)場(chǎng)景的復(fù)雜規(guī)劃任務(wù),從而系統(tǒng)評(píng)估模型在目標(biāo)理解、任務(wù)拆解、路徑規(guī)劃、方案細(xì)化與執(zhí)行決策等全流程環(huán)節(jié)中的表現(xiàn)。

這不是一道作文題,我們?cè)O(shè)計(jì)的任務(wù)難度遠(yuǎn)超常規(guī):

代碼塊

某市教育局計(jì)劃在 6 個(gè)月內(nèi),為 20 所公立中學(xué)試點(diǎn)部署一套“AI 學(xué)習(xí)助手”系統(tǒng),幫助學(xué)生進(jìn)行課后答疑、個(gè)性化練習(xí)和學(xué)習(xí)反饋。

已知條件如下:

- 總預(yù)算上限為 800 萬(wàn)元人民幣

- 試點(diǎn)學(xué)校中,城區(qū)學(xué)校 8 所,縣鎮(zhèn)學(xué)校 12 所,數(shù)字化基礎(chǔ)差異明顯

- 部分教師擔(dān)心 AI 會(huì)增加備課和管理負(fù)擔(dān)

- 家長(zhǎng)對(duì)于學(xué)生數(shù)據(jù)隱私、沉迷使用、以及答案依賴問題存在顧慮

- 教育局要求項(xiàng)目不能明顯擴(kuò)大不同地區(qū)、不同家庭背景學(xué)生之間的教育差距

- 項(xiàng)目必須在下學(xué)期開始前完成首輪部署,且不能額外長(zhǎng)期新增大量編制

- 若試點(diǎn)效果良好,未來(lái) 2 年內(nèi)將考慮擴(kuò)大到全市 200 所學(xué)校

請(qǐng)你作為項(xiàng)目顧問,完成一份試點(diǎn)實(shí)施方案。你的回答至少需要包括:

1. 問題定義

2. 目標(biāo)與約束拆解

3. 6 個(gè)月試點(diǎn)方案

4. 公平性與風(fēng)險(xiǎn)控制

5. 評(píng)估體系

6. 是否擴(kuò)大到 200 所學(xué)校的決策標(biāo)準(zhǔn)

額外要求:

- 明確說明關(guān)鍵假設(shè)

- 至少提出 2 個(gè)備選方案,并解釋推薦理由

- 體現(xiàn)短期可落地性與長(zhǎng)期可擴(kuò)展性的平衡

- 盡量給出可執(zhí)行機(jī)制,而不是只講原則

補(bǔ)充條件:試點(diǎn)開始 2 個(gè)月后,媒體報(bào)道某校學(xué)生過度依賴 AI 完成作業(yè),引發(fā)家長(zhǎng)爭(zhēng)議;同時(shí)另有 3 所縣鎮(zhèn)學(xué)校反饋網(wǎng)絡(luò)與終端條件不足,實(shí)際使用率遠(yuǎn)低于城區(qū)學(xué)校。請(qǐng)?jiān)谠桨富A(chǔ)上動(dòng)態(tài)調(diào)整你的策略。

任務(wù)要求模型輸出:?jiǎn)栴}定義、目標(biāo)約束拆解、6個(gè)月試點(diǎn)方案、公平性風(fēng)險(xiǎn)控制、評(píng)估體系、是否擴(kuò)大的決策標(biāo)準(zhǔn),以及要求至少2個(gè)備選方案并說明推薦理由。

這考驗(yàn)的不是文字生成能力,而是真正的“任務(wù)拆解與組織執(zhí)行”能力。一般模型很容易輸出一堆空洞的規(guī)劃方案,且極難把控資源分配與具體任務(wù)拆解,看看 OpenClaw 在 Qwen3.6-Plus 模型下是怎么完成工作的:

1.復(fù)雜問題結(jié)構(gòu)化拆解

把模糊需求快速轉(zhuǎn)化為問題定義、目標(biāo)分層、約束清單、預(yù)算分配、時(shí)間線、評(píng)估體系等完整框架,邏輯嚴(yán)密、層級(jí)清晰,全程無(wú)口號(hào)空話,體現(xiàn)專業(yè)級(jí)復(fù)雜決策與任務(wù)拆解水平。

2.多約束下精準(zhǔn)資源平衡

在 800 萬(wàn)預(yù)算、6 個(gè)月周期、城鄉(xiāng)差異、教師負(fù)擔(dān)、公平底線、無(wú)新增編制等多重強(qiáng)約束下,給出可執(zhí)行、可量化、可評(píng)審的落地方案,預(yù)算一分不差、資源向縣鎮(zhèn)傾斜,兼顧效率與公平。

3.動(dòng)態(tài)風(fēng)險(xiǎn)應(yīng)急與迭代決策

面對(duì)試點(diǎn)第 2 個(gè)月輿情危機(jī) + 縣鎮(zhèn)設(shè)備網(wǎng)絡(luò)不足雙突發(fā)事件,模型快速給出應(yīng)急響應(yīng)、功能調(diào)整、預(yù)算內(nèi)部調(diào)劑、部署重排,做到不超預(yù)算、不延期、閉環(huán)解決,展現(xiàn)真實(shí)智能體動(dòng)態(tài)決策能力。

4.全周期規(guī)劃與規(guī)模化擴(kuò)展思維

Qwen3.6-Plus 不僅完成了 6 個(gè)月試點(diǎn)設(shè)計(jì),還同步給出試點(diǎn)規(guī)模擴(kuò)展至 200 所學(xué)校的 Go/No-Go 硬標(biāo)準(zhǔn)、三階段擴(kuò)展路徑、成本優(yōu)化機(jī)制,從架構(gòu)、制度、人員、數(shù)據(jù)全方面預(yù)留接口,短期可落地、長(zhǎng)期可擴(kuò)展,思維閉環(huán)且專業(yè)。

可以看到,Qwen3.6-Plus 在本次政府級(jí)復(fù)雜決策任務(wù)中,交付了完成度極高的方案,這背后是高水平的目標(biāo)理解、全鏈路規(guī)劃、動(dòng)態(tài)風(fēng)險(xiǎn)應(yīng)對(duì)、多約束平衡能力,正是我們對(duì)智能體在面對(duì)復(fù)雜決策時(shí)所期待的。


case2 AI TODO Board 全流程開發(fā):Coding 能力考核

如果說 case1 是考察復(fù)雜場(chǎng)景的決策能力,那么 case2 則側(cè)重于 Qwen3.6-Plus 在 Coding 任務(wù)中的工程閉環(huán)水平。

我們采用開源智能編程工具 OpenCode 進(jìn)行測(cè)試,重點(diǎn)考察模型是否具備從需求理解到完整項(xiàng)目交付的全鏈路工程實(shí)現(xiàn)能力。評(píng)估內(nèi)容不僅包括最終項(xiàng)目是否可運(yùn)行、功能是否完整有效、代碼結(jié)構(gòu)是否清晰合理,還覆蓋模型在編程全流程中的關(guān)鍵能力,任務(wù)拆解、實(shí)現(xiàn)路徑規(guī)劃、階段性決策、測(cè)試與調(diào)試、問題定位與修復(fù),以及基于反饋持續(xù)迭代并收斂到可用結(jié)果的能力。


# Coding Evaluation Task

你是一個(gè)高級(jí)軟件工程 Agent,請(qǐng)完成一個(gè)可運(yùn)行的 **TODO** 項(xiàng)目,并體現(xiàn)完整閉環(huán)能力:需求理解、任務(wù)拆解、實(shí)現(xiàn)規(guī)劃、編碼、測(cè)試、修復(fù)、交付。

任務(wù):開發(fā)一個(gè) **AI TODO Board**,讓用戶通過自然語(yǔ)言創(chuàng)建 TODO,在看板中管理狀態(tài),并通過 AI 風(fēng)格能力自動(dòng)拆解子任務(wù)、識(shí)別優(yōu)先級(jí)、提示風(fēng)險(xiǎn)和下一步動(dòng)作。

技術(shù)要求:Next.js 15+ 或 React + Vite,TypeScript,Tailwind CSS,可使用 shadcn/ui 或 Radix UI,測(cè)試使用 Vitest / Jest + Testing Library,可使用 mock 數(shù)據(jù),不要求真實(shí)后端。

功能要求:實(shí)現(xiàn)三列 TODO 看板 Todo、Doing、Done;每個(gè) TODO 卡片至少包含標(biāo)題、描述、優(yōu)先級(jí)、截止時(shí)間、標(biāo)簽、子任務(wù)摘要、完成進(jìn)度;支持狀態(tài)流轉(zhuǎn),可拖拽,如不使用拖拽需提供合理替代交互。提供自然語(yǔ)言輸入框,例如“明天下午前完成招聘首頁(yè)改版,包含 Hero、崗位列表、FAQ,優(yōu)先級(jí)高”,系統(tǒng)需自動(dòng)提取標(biāo)題、解析時(shí)間、推斷優(yōu)先級(jí)、生成 3–5 個(gè)子任務(wù),并允許用戶在提交前編輯。右側(cè)提供 AI Assistant 面板,支持 TODO 拆解建議、風(fēng)險(xiǎn)提示、下一步建議、逾期提醒。需要支持搜索、按優(yōu)先級(jí)篩選、僅看逾期、快速標(biāo)記完成、空狀態(tài)、加載態(tài)、錯(cuò)誤態(tài)。

UI / UX 要求:暗色模式優(yōu)先,現(xiàn)代、精致、未來(lái)感 SaaS 風(fēng)格,有明顯層級(jí)、留白、卡片質(zhì)感和細(xì)微動(dòng)效,桌面端完整可用,移動(dòng)端基本可用,不能是腳手架默認(rèn)后臺(tái)風(fēng)格。

你必須輸出:1. 需求理解,2. 實(shí)現(xiàn)計(jì)劃,3. 項(xiàng)目結(jié)構(gòu),4. 核心代碼,5. 測(cè)試代碼,6. 修復(fù)過程,7. 運(yùn)行說明,8. 權(quán)衡與不足。

必須測(cè)試:自然語(yǔ)言解析函數(shù)、創(chuàng)建 TODO 流程、TODO 狀態(tài)切換邏輯、篩選邏輯。

實(shí)現(xiàn)后繼續(xù)修復(fù)并說明過程:移動(dòng)端橫向溢出,輸入“明天”時(shí)時(shí)間解析不穩(wěn)定,Done 列 TODO 很多時(shí)滾動(dòng)體驗(yàn)差,篩選后狀態(tài)切換導(dǎo)致列表顯示異常;你需要說明如何定位問題、如何修改、如何驗(yàn)證修復(fù)成功。

你還將收到一張參考 UI 截圖,請(qǐng)分析其布局、層級(jí)、配色、間距、組件關(guān)系,并高保真復(fù)刻該頁(yè)面,說明哪些部分完全復(fù)刻,哪些部分做工程化折中,然后基于截圖繼續(xù)修改代碼直到盡量接近。

不要只寫思路,必須給出可運(yùn)行代碼、測(cè)試代碼、修復(fù)后的最終實(shí)現(xiàn)。

這不是一個(gè)能靠蠻干硬生生“寫”出來(lái)的任務(wù)。

開發(fā)一個(gè) AI TODO Board,需實(shí)現(xiàn)三列看板(Todo、Doing、Done),支持自然語(yǔ)言創(chuàng)建 TODO 并自動(dòng)提取標(biāo)題、時(shí)間、優(yōu)先級(jí)、子任務(wù),還要提供 AI Assistant 面板進(jìn)行拆解建議和風(fēng)險(xiǎn)提示,支持搜索、篩選,輸出完整實(shí)現(xiàn)計(jì)劃、項(xiàng)目結(jié)構(gòu)、核心代碼、測(cè)試代碼、修復(fù)過程說明。

傳統(tǒng)大模型在這種場(chǎng)景下,即使表面上能完成交付,也往往難以實(shí)際運(yùn)行。但是 Qwen3.6-Plus 表現(xiàn)得像是一位非常老道的架構(gòu)工程師和 UI 設(shè)計(jì)師。

1.全流程閉環(huán)開發(fā),任務(wù)規(guī)劃與實(shí)時(shí)進(jìn)展可視化

項(xiàng)目啟動(dòng)階段,Qwen3.6-Plus 首先進(jìn)行了需求拆解,精準(zhǔn)把握 AI TODO Board 開發(fā)的核心技術(shù),還制定了包含 16 個(gè)步驟的清晰實(shí)現(xiàn)計(jì)劃。從項(xiàng)目初始化、依賴安裝,到核心功能開發(fā)、測(cè)試編寫,再到問題修復(fù),這套方案可以直接交給工業(yè)級(jí)軟件工程團(tuán)隊(duì)去執(zhí)行,而且每一步均以可視化進(jìn)度條實(shí)時(shí)呈現(xiàn)進(jìn)展。

開發(fā)過程中,模型嚴(yán)格遵循軟件工程規(guī)范,像專業(yè)的開發(fā)團(tuán)隊(duì)一樣,依次完成了從任務(wù)拆解到測(cè)試交付的全鏈路環(huán)節(jié),不僅實(shí)現(xiàn)了測(cè)試用例全部通過,還針對(duì)移動(dòng)端橫向溢出、時(shí)間解析不穩(wěn)定、滾動(dòng)體驗(yàn)差等核心問題進(jìn)行系統(tǒng)性修復(fù),確保項(xiàng)目從原型到成品的平穩(wěn)落地。

值得注意的是,在開發(fā)服務(wù)器啟動(dòng)、本地部署等環(huán)節(jié) Qwen3.6-Plus 均一次成功,交付效率遠(yuǎn)超常規(guī)開發(fā)流程。



2.代碼迭代與精準(zhǔn)返修,工程化能力拉滿

在代碼實(shí)現(xiàn)階段,Qwen3.6-Plus 展現(xiàn)出扎實(shí)的技術(shù)功底與嚴(yán)謹(jǐn)?shù)拇a迭代邏輯。針對(duì)項(xiàng)目核心模塊,模型完成了從組件設(shè)計(jì)到狀態(tài)管理的全棧開發(fā):

? 基于 Radix UI 與 shadcn/ui 搭建現(xiàn)代化 UI 組件庫(kù),打造沉浸式暗色 SaaS 風(fēng)格界面;

? 開發(fā)自然語(yǔ)言解析器,實(shí)現(xiàn)中英文時(shí)間、優(yōu)先級(jí)智能提取與子任務(wù)自動(dòng)生成;

? 利用 Zustand 完成 TODO 狀態(tài)管理,支持拖拽流轉(zhuǎn)、搜索篩選、逾期提醒等全功能;

返修是軟件工程不可避免的環(huán)節(jié),能否精準(zhǔn)定位問題所在進(jìn)行針對(duì)性修改,再完成驗(yàn)證的閉環(huán),是模型在工作級(jí)任務(wù)中會(huì)面對(duì)的真實(shí)考驗(yàn)。在 AI TODO Board 的開發(fā)中,Qwen3.6-Plus 也有著不俗的表現(xiàn)。

移動(dòng)端橫向溢出問題,通過調(diào)整容器寬度與布局屬性解決,優(yōu)化時(shí)間解析邏輯,統(tǒng)一使用 UTC 時(shí)間處理避免解析偏差,替換滾動(dòng)組件提升 Done 列大數(shù)量場(chǎng)景的滾動(dòng)體驗(yàn),重構(gòu)篩選邏輯消除狀態(tài)切換后的顯示異?!?/p>

每一次修復(fù)均配套新增測(cè)試用例驗(yàn)證,確保問題徹底解決且不引入新 bug。這些過程都是由模型自主完成,我看到的,只有開發(fā)日志里一行行清晰可追溯的記錄。



3.高保真 UI 復(fù)刻與功能全覆蓋,交付質(zhì)量達(dá)標(biāo)

原生多模態(tài)能力使得 Qwen3.6-Plus 能嚴(yán)格參考 UI 截圖完成高保真復(fù)刻,在布局層級(jí)、配色風(fēng)格、組件交互上高度還原設(shè)計(jì)要求。

在功能層面,交付成果也完全覆蓋需求。應(yīng)用支持自然語(yǔ)言輸入,可自動(dòng)提取標(biāo)題、解析時(shí)間,然后生成 3-5 個(gè)子任務(wù)且支持編輯;AI 助手面板提供拆解建議、風(fēng)險(xiǎn)提示等能力;搜索、優(yōu)先級(jí)篩選、逾期查看等實(shí)用功能也逐一實(shí)現(xiàn)。最終交付的項(xiàng)目,可直接本地部署運(yùn)行,界面與功能均達(dá)到預(yù)期交付標(biāo)準(zhǔn)。


4.極致測(cè)試與問題閉環(huán),質(zhì)量把控體系完善

測(cè)試環(huán)節(jié)是模型交付的核心亮點(diǎn)之一。Qwen3.6-Plus 針對(duì)核心模塊編寫了全覆蓋測(cè)試用例,包括 23 個(gè)自然語(yǔ)言解析測(cè)試、14 個(gè)狀態(tài)管理與流程測(cè)試,全面驗(yàn)證自然語(yǔ)言解析、TODO 創(chuàng)建、狀態(tài)切換、篩選邏輯等核心功能的穩(wěn)定性。

在修復(fù)環(huán)節(jié),模型針對(duì)每一個(gè)暴露的問題均完成了 “定位 - 修改 - 驗(yàn)證” 的全流程,新增邊緣測(cè)試用例確保修復(fù)效果的穩(wěn)定性,最終實(shí)現(xiàn)項(xiàng)目零核心 bug、測(cè)試全通過的高質(zhì)量交付狀態(tài)。



當(dāng)然,測(cè)試案例也暴露了 Qwen 3.6-Plus 不穩(wěn)定的一面。在實(shí)測(cè)中我們觀察到了明顯短板:

? 首字延遲(TTFT):免費(fèi)預(yù)覽版首字出現(xiàn)時(shí)間有時(shí)高達(dá)11秒,在需要快速反饋的場(chǎng)景下會(huì)破壞開發(fā)者心流

?偶發(fā)性輸出循環(huán)(Looping):在極高復(fù)雜度任務(wù)中,模型有時(shí)會(huì)陷入重復(fù)輸出同一段內(nèi)容的循環(huán)

?API頻率限制較嚴(yán)格:Rate Limit 在高頻Agent自動(dòng)化任務(wù)中容易觸發(fā),可能中斷長(zhǎng)流程執(zhí)行

?安全邊界能力不足:在安全相關(guān)任務(wù)(權(quán)限管理、加密實(shí)現(xiàn))上成功率僅為43.3%,不建議在涉及高安全級(jí)別的自動(dòng)化流程中單獨(dú)使用

但兩項(xiàng)測(cè)試完成后,一個(gè)感受仍然很清晰,Qwen 3.6-Plus 好像一支完整的團(tuán)隊(duì),在任務(wù)規(guī)劃、代碼迭代和問題精準(zhǔn)修復(fù)上,表現(xiàn)出了工業(yè)級(jí)軟件工程的交付水準(zhǔn)。

02


Agentic Coding 的工程高地

Qwen 3.6-Plus 的特別之處在于,雙線并行的格局首次在國(guó)產(chǎn)模型中出現(xiàn)。過往國(guó)產(chǎn)模型往往只在某一維度上突出,能寫代碼但決策弱,能規(guī)劃但執(zhí)行崩,但工業(yè)級(jí) Agentic Coding 需要的恰恰是二者兼具。Qwen 3.6-Plus 做到了這一點(diǎn),在編程智能體和復(fù)雜流程決策兩條戰(zhàn)線上同時(shí)逼近第一梯隊(duì):

? Terminal-Bench 2.0:61.6分,超越Claude Opus 4.5(59.3),在shell操作、文件管理、進(jìn)程控制等硬核終端任務(wù)上,它是目前最強(qiáng)的模型之一;

? Claw-Eval:58.7分,極接近Claude Opus 4.5(59.6),在真實(shí)世界多步Agent任務(wù)中進(jìn)入第一梯隊(duì);

? Claw-Eval:58.7分,極接近Claude Opus 4.5(59.6),在真實(shí)世界多步Agent任務(wù)中進(jìn)入第一梯隊(duì);

? SWE-bench Verified:78.8%,處理大多數(shù)企業(yè)級(jí)Bug修復(fù)和代碼重構(gòu)已綽綽有余;

? 成本:輸入¥2/M,輸出¥12/M,約為Claude的1/10;


這意味著什么?

在 Terminal 操控和工具調(diào)用上的領(lǐng)先,使 Qwen 3.6-Plus 成為了當(dāng)前最適合丟進(jìn) OpenClaw 這類 Agent 框架中“跑起來(lái)”的國(guó)產(chǎn)模型。不是輔助寫代碼,它真的能做到像你的 AI 開發(fā)搭檔那樣,驅(qū)動(dòng)產(chǎn)品長(zhǎng)出來(lái)。在 Coding 賽道已經(jīng)成為一片紅海的今天,Qwen 3.6-Plus 再一次讓軟件開發(fā)的門檻降了一截。

從被調(diào)用的工具到執(zhí)行任務(wù)的參與者,當(dāng)模型角色的這一轉(zhuǎn)型越發(fā)成為各大廠商的共識(shí),我們看到阿里做出了自己的選擇。Qwen 3.6-Plus 的戰(zhàn)略定位并非全能型選手,更像是專攻 Agentic Coding 這一垂直場(chǎng)景的作品。背后的原因不難理解,當(dāng)基礎(chǔ)模型的能力趨于同質(zhì)化,能否在真實(shí)工程環(huán)境中自主完成任務(wù)已經(jīng)成為了最重要的競(jìng)爭(zhēng)高地。

03


模型層,走向參數(shù)效率之爭(zhēng)

更值得注意之處在于,Qwen 3.6-Plus 在參數(shù)效率上表現(xiàn)出了顯著的優(yōu)勢(shì)。橫向?qū)Ρ龋珿LM-5、Kimi-K2.5 等模型的參數(shù)量均是其 2-3 倍。

用更少的參數(shù)實(shí)現(xiàn)更好的性能,這在大模型此前普遍以參數(shù)規(guī)模換智能水平的背景下,可以被視為一種全新的范式轉(zhuǎn)移。

比起小模型的“妥協(xié)”,一個(gè)越來(lái)越無(wú)法忽視的視角是,大模型的商業(yè)化正在重新定義 AI 性能的標(biāo)準(zhǔn)。模型訓(xùn)練、推理一向以重投入的面目示人,也順理成章地成為了大模型商業(yè)化的瓶頸,而更高的參數(shù)效率會(huì)讓模型廠商在上述領(lǐng)域擁有寶貴的競(jìng)爭(zhēng)力。

Benchmark 仍有意義,但今天單位成本下的有效智能更能說明問題。在當(dāng)前的技術(shù)脈絡(luò)中,參數(shù)效率,已經(jīng)成為了模型規(guī)?;涞氐蔫€匙。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

巔峰之夜!亞冠決賽今晚打響:吉達(dá)vs町田 馬寧擔(dān)任第四官員

新英體育
2026-04-25 09:09:10
中組部人社部規(guī)定:公職人員違紀(jì)后待遇一文講清

中組部人社部規(guī)定:公職人員違紀(jì)后待遇一文講清

笑熬漿糊111
2026-04-23 00:05:18
曝克洛普同意接掌皇馬!提出九大轉(zhuǎn)會(huì)要求,這三人必須買

曝克洛普同意接掌皇馬!提出九大轉(zhuǎn)會(huì)要求,這三人必須買

瀾歸序
2026-04-25 05:46:16
丁俊暉4-4逼平趙心童!聽聽賽后媒體專家都怎么說,墨菲壓力很大

丁俊暉4-4逼平趙心童!聽聽賽后媒體專家都怎么說,墨菲壓力很大

觀察鑒娛
2026-04-25 09:45:26
上海德云社換明星陣容也不火,上座率不高,觀眾評(píng)價(jià)更不好

上海德云社換明星陣容也不火,上座率不高,觀眾評(píng)價(jià)更不好

我就是個(gè)碼字的
2026-04-23 07:30:03
052D過橫當(dāng)水道后,遼寧艦抵臺(tái)海,日本向中國(guó)抗議,不滿東海行動(dòng)

052D過橫當(dāng)水道后,遼寧艦抵臺(tái)海,日本向中國(guó)抗議,不滿東海行動(dòng)

老赳說歷史
2026-04-23 16:08:53
兩性關(guān)系:60歲后男人必深交的3種女人,第三種定晚年質(zhì)量

兩性關(guān)系:60歲后男人必深交的3種女人,第三種定晚年質(zhì)量

王二哥老搞笑
2026-04-25 17:12:08
“濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

“濕氣”最怕這種豆,中老年人每周吃2次,利尿消水腫,健脾祛濕

江江食研社
2026-04-21 22:30:03
烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

馬蹄燙嘴說美食
2026-04-24 18:45:06
眼紅??!從年薪20萬(wàn)到125萬(wàn),一上海交大碩士特斯拉6年收入345萬(wàn)

眼紅??!從年薪20萬(wàn)到125萬(wàn),一上海交大碩士特斯拉6年收入345萬(wàn)

火山詩(shī)話
2026-04-23 07:11:53
建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

華庭講美食
2026-04-25 17:36:42
又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國(guó)犬種爭(zhēng)了口氣

又奪冠了!霍思燕的蒙古獒爆火,狠狠給中國(guó)犬種爭(zhēng)了口氣

超人強(qiáng)動(dòng)物俱樂部
2026-04-25 13:16:54
長(zhǎng)川科技(300604.SZ):2025年年報(bào)凈利潤(rùn)為13.31億元

長(zhǎng)川科技(300604.SZ):2025年年報(bào)凈利潤(rùn)為13.31億元

界面新聞
2026-04-25 10:33:11
古裝劇都是騙人的:真實(shí)的古代百姓餐桌,現(xiàn)代人看一眼就想吐

古裝劇都是騙人的:真實(shí)的古代百姓餐桌,現(xiàn)代人看一眼就想吐

富貴說
2026-04-19 14:52:13
丁寶楨為何敢殺安德海?除了手握重兵,他還擁有這2項(xiàng)大權(quán)

丁寶楨為何敢殺安德海?除了手握重兵,他還擁有這2項(xiàng)大權(quán)

雍親王府
2026-04-22 19:20:03
離橫掃只差1場(chǎng),湖人怎么贏的,4件事很正確,一人要拿大合同了

離橫掃只差1場(chǎng),湖人怎么贏的,4件事很正確,一人要拿大合同了

體壇大辣椒
2026-04-25 11:16:37
剛剛宣布,降息50個(gè)基點(diǎn)

剛剛宣布,降息50個(gè)基點(diǎn)

中國(guó)基金報(bào)
2026-04-24 19:35:36
穆里尼奧:帥位問題該說的都說了,賽季結(jié)束后我有10天做決定

穆里尼奧:帥位問題該說的都說了,賽季結(jié)束后我有10天做決定

懂球帝
2026-04-24 21:15:11
文班亞馬缺陣,馬刺20歲+21歲組合橫空出世!NBA未來(lái)是他們的?

文班亞馬缺陣,馬刺20歲+21歲組合橫空出世!NBA未來(lái)是他們的?

體育妞世界
2026-04-25 15:26:33
詹姆斯29+13+6絕平三分拯救湖人!41歲季后賽父子連線

詹姆斯29+13+6絕平三分拯救湖人!41歲季后賽父子連線

布斯基
2026-04-25 19:09:47
2026-04-25 19:44:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7222文章數(shù) 20749關(guān)注度
往期回顧 全部

科技要聞

DeepSeek V4發(fā)布!黃仁勛預(yù)言的"災(zāi)難"降臨

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

頭條要聞

現(xiàn)場(chǎng)視頻:殲-15掛彈起飛硬剛外軍航母編隊(duì)滋擾

體育要聞

火箭0-3觸發(fā)百分百出局定律:本季加時(shí)賽9戰(zhàn)8敗

娛樂要聞

鄧超最大的幸運(yùn),就是遇見孫儷

財(cái)經(jīng)要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
家居
旅游
軍事航空

上新|| 入夏第一件短袖,買它!

房產(chǎn)要聞

新一輪教育大爆發(fā)來(lái)了!???,開始瘋狂建學(xué)校!

家居要聞

自然肌理 溫潤(rùn)美學(xué)

旅游要聞

去馬登鄉(xiāng)尋找杜鵑花海,結(jié)果誤打誤撞,領(lǐng)略了數(shù)千畝蘋果花的風(fēng)韻

軍事要聞

美防長(zhǎng):戰(zhàn)事不會(huì)“沒完沒了”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版