造福or替代程序員？實(shí)測阿里新模型

2025-07-23 22:42:47　來源: 虎嗅APP

北京舉報

分享至

題圖｜視覺中國

坦白說，過去幾年，作為一名開發(fā)者，我感覺自己越來越像一個高薪的“代碼搬運(yùn)工”。

我的日常，是在StackOverflow的問答、GitHub的開源項(xiàng)目和公司陳舊的代碼庫之間，進(jìn)行無休止地“搬運(yùn)”。

Ctrl+C，Ctrl+V，然后花上數(shù)小時修復(fù)那些瑣碎的bug，搭建那些千篇一律的腳手架。這不僅枯燥，更是對創(chuàng)造力的一種緩慢扼殺——我們本該是創(chuàng)造未來的建筑師，但“復(fù)制粘貼”卻占據(jù)了工作的絕大部分。

我們都用過Copilot類的工具，它們很棒，能幫你補(bǔ)全下一行代碼，甚至一小段函數(shù)。但它們始終是“副手”，無法理解你真正的意圖，更別提獨(dú)立承擔(dān)一項(xiàng)完整的任務(wù)。你依然是那個殫精竭慮的“主駕駛”。

但如果，AI不再只是一個幫你補(bǔ)全代碼的“副駕駛”，而是能理解整個任務(wù)、獨(dú)當(dāng)一面的“全棧工程師”呢？

就在今天，我體驗(yàn)到了阿里剛剛開源的Qwen3-Coder。說實(shí)話，一開始我只是抱著“又一個國產(chǎn)模型”的心態(tài)去嘗試。但經(jīng)過一天的深度體驗(yàn)后，這個HuggingfaceCEO點(diǎn)贊的Qwen3-Coder 新模型徹底震撼到我了。

它的意義，不僅僅是評測表單中的超越GPT-4.1，比肩全球最強(qiáng)Claude4的全球第一梯隊強(qiáng)勁性能，更重要的是，是它讓我親眼看到了終結(jié)“搬磚”日常的曙光。

這，可能就是那場我們期待已久的、真正的生產(chǎn)力革命。

上手即封神，我的Qwen3-Coder“初體驗(yàn)”

先說說我跟幾個程序員朋友最直觀的共同感受。

速度很快，沒有思考過程，體驗(yàn)比Gemini還好。雖然寫出來的代碼偶爾有一點(diǎn)點(diǎn)小問題，但跟它說下現(xiàn)象就能自己糾正好了。而且隨著對能力的探索，token使用量大幅增加。

它已經(jīng)是一個完整版的生產(chǎn)力工具了。

你可以通過三種方式與這位新來的“AI開發(fā)者”協(xié)作：在QwenChat網(wǎng)頁端和它免費(fèi)暢聊；通過阿里云百煉的API將其能力注入萬物；或者，如果你偏好本地部署的話，也可以直接從HuggingFace或魔搭社區(qū)下載模型，讓它在你的本地為你工作，數(shù)據(jù)絕對安全。

我選擇了最直接的網(wǎng)頁端，開始了我這一天的“瘋狂測試”。

1.開胃菜：會動的“天氣預(yù)報卡”

我給它的第一個指令很簡單：“創(chuàng)建一個帶動畫效果的天氣預(yù)報卡，能根據(jù)不同天氣（晴天、雨天、多云）顯示不同的動畫。”

過去，這種任務(wù)AI通常能生成個靜態(tài)框架，但動畫和交互邏輯總是一團(tuán)糟。

然而Qwen3-Coder幾乎是瞬間就給出了結(jié)果——一個漂亮的卡片，上面不僅有城市和溫度，點(diǎn)擊不同的天氣按鈕，背景真的會流暢地切換成陽光、雨滴和云朵的動畫。代碼一次性跑通，零bug。

這感覺就像，你讓助理幫你畫個草圖，他直接給了你一個可以交互的精美原型。

2.硬菜：一個完整的科技新聞官網(wǎng)首頁

接下來，我提升了難度，用了我最喜歡測AI代碼工具的案例：“給我創(chuàng)建一個科技新聞媒體產(chǎn)品的官網(wǎng)首頁，要有導(dǎo)航欄、HeroSection、媒體介紹、會員定價表格和頁腳?！?/p>

這是檢驗(yàn)AI設(shè)計品味和布局能力的“照妖鏡”。還記得幾個月前，AI生成的頁面還停留在上世紀(jì)90年代的審美嗎？布局混亂，配色辣眼。

但Qwen3-Coder的出品，讓我驚掉了下巴。

一個設(shè)計現(xiàn)代、響應(yīng)式布局、UI/UX考究的完整頁面呈現(xiàn)在我眼前。它甚至貼心地加入了微交互動畫。

如果我不說，你絕對會以為這是出自一位資深前端設(shè)計師之手。而如今，一個開源模型就能輕松做到，而且是免費(fèi)的。

時代真的變了。

3.炫技時刻：可視化“神經(jīng)網(wǎng)絡(luò)”

“用p5.js創(chuàng)建一個可視化的神經(jīng)網(wǎng)絡(luò)，節(jié)點(diǎn)和連接要有脈沖和發(fā)光的動畫效果。”這個任務(wù)考驗(yàn)的是它整合多語言（HTML/CSS/JS/p5.js）和實(shí)現(xiàn)復(fù)雜邏輯與動畫的能力。

很快，一個帶控制面板的交互式神經(jīng)網(wǎng)絡(luò)模擬器誕生了。你可以重置網(wǎng)絡(luò)、開始/暫停動畫，甚至調(diào)節(jié)動畫速度。代碼邏輯清晰，藝術(shù)與技術(shù)的結(jié)合堪稱完美。

它不僅理解了“神經(jīng)網(wǎng)絡(luò)”這個技術(shù)概念，還理解了“脈沖”和“發(fā)光”這種感性的藝術(shù)表達(dá)。

4.生產(chǎn)力測試：秒建“CSV數(shù)據(jù)看板”

最后，我扔給它一份包含姓名、郵件、性別的模擬CSV數(shù)據(jù)，要求它“構(gòu)建一個單頁Web應(yīng)用，能解析用戶上傳的CSV文件，并動態(tài)生成多種圖表（條形圖、折線圖等）來可視化數(shù)據(jù)?！?/p>

這幾乎是每個數(shù)據(jù)分析師和后端開發(fā)者的日常工作。Qwen3-Coder幾乎在瞬間就構(gòu)建了一個功能完備的數(shù)據(jù)看板。它不僅正確解析了我提供的數(shù)據(jù)，還生成了條形圖和對比圖，整個儀表盤的設(shè)計模塊化且交互性十足。

一天測試下來，我的結(jié)論顯而易見：它不再是‘生成代碼’，而是在‘交付產(chǎn)品’。Qwen3-Coder已經(jīng)進(jìn)入了功能、設(shè)計和用戶體驗(yàn)的層面。

為什么Qwen3-Coder能這么強(qiáng)？

Qwen3-Coder的真正革命性在于，它已經(jīng)從一個“代碼補(bǔ)全器(Copilot)”進(jìn)化為了一個“自主開發(fā)者(Agent)”。

它思考的不再是“下一行代碼該寫什么”，而是“為了完成這個任務(wù)，我需要分幾步，調(diào)用哪些工具，如何驗(yàn)證結(jié)果”。

這背后，是三大核心技術(shù)支柱的支撐：

1.架構(gòu)選擇：混合專家（MoE）帶來的規(guī)模與效率

Qwen3-Coder是千問系列首個采用混合專家（MoE）架構(gòu)的代碼模型。其最強(qiáng)版本總參數(shù)規(guī)模高達(dá)4800億（480B），但在每次推理時，僅激活其中的350億（35B）參數(shù)。

這種架構(gòu)的優(yōu)勢是顯而易見的。

它允許模型擁有巨大的知識容量和參數(shù)規(guī)模，從而在處理復(fù)雜問題時具備更強(qiáng)的泛化能力和更高的天花板。同時，通過稀疏激活的機(jī)制，它又將單次推理的計算成本控制在了一個相對合理的范圍內(nèi)。

這是一種在模型能力和推理效率之間取得精妙平衡的先進(jìn)架構(gòu)，也是Qwen3-Coder能夠?qū)崿F(xiàn)頂級性能的關(guān)鍵基礎(chǔ)。

2.能力核心：為Agent能力打造的強(qiáng)化學(xué)習(xí)（RL）設(shè)施

Qwen3-Coder卓越的Agent能力并非偶然。阿里Qwen團(tuán)隊認(rèn)為，編程任務(wù)“天然適合執(zhí)行驅(qū)動的強(qiáng)化學(xué)習(xí)”，因?yàn)榇a的正確性可以通過實(shí)際運(yùn)行結(jié)果來直接驗(yàn)證。

基于此，他們構(gòu)建了一個能夠并行運(yùn)行2萬個獨(dú)立環(huán)境的大規(guī)模強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。在這個設(shè)施中，模型可以模擬真實(shí)的軟件工程流程：接收任務(wù)、規(guī)劃解決方案、調(diào)用外部工具（如代碼執(zhí)行器、測試框架）、獲取環(huán)境反饋（成功、失敗、錯誤信息），并根據(jù)反饋進(jìn)行迭代和改進(jìn)。

通過在這種大規(guī)模、高并發(fā)的真實(shí)編碼環(huán)境中進(jìn)行海量訓(xùn)練，Qwen3-Coder成功地學(xué)會了如何解決復(fù)雜、多步驟的“長視距”任務(wù)。這直接使其代碼執(zhí)行成功率和工具使用效率得到顯著提升，也解釋了為何它在處理需要自主規(guī)劃和工具調(diào)用的Agent任務(wù)時，表現(xiàn)得比許多競爭對手更加出色和高效。

3.上下文長度：處理大規(guī)模代碼庫的基石

軟件工程往往涉及對龐大代碼庫的理解。Qwen3-Coder在這方面具備了物理層面的優(yōu)勢：它原生支持256K tokens的上下文窗口，并通過技術(shù)手段可擴(kuò)展至1M tokens。

這意味著模型可以在一次交互中處理數(shù)百萬字符的代碼和文檔。它能夠完整地通觀大型項(xiàng)目，閱讀整個代碼庫、需求文檔甚至多個文件的變更歷史，從而實(shí)現(xiàn)對項(xiàng)目全局的理解和跨文件的代碼生成。

這種處理“倉庫級”代碼的能力，是解決復(fù)雜系統(tǒng)級問題、進(jìn)行代碼重構(gòu)和深入理解遺留系統(tǒng)的先決條件，也是許多上下文窗口較小的模型所不具備的。

新王登基，阿里再次展現(xiàn)自己AI的強(qiáng)大能力

是的，是時候談?wù)勛罴尤诵牡牟糠至恕?/p>

Qwen3-Coder不僅在體驗(yàn)上令人驚艷，在評測數(shù)據(jù)上，它更是直接向美國最頂尖的模型發(fā)起了挑戰(zhàn)，并且成功站上了全球第一梯隊——超預(yù)GPT4.1，與Claude 4并駕齊驅(qū)。

1.正面硬剛，數(shù)據(jù)說話

·對決GPT-4.1:

在衡量代碼模型解決真實(shí)世界軟件問題的權(quán)威榜單SWE-Bench、以及其他多項(xiàng)Agent編碼基準(zhǔn)測試中，Qwen3-Coder的得分實(shí)現(xiàn)了對GPT-4.1的明確超越。

這意味著，在處理復(fù)雜、真實(shí)的編程任務(wù)時，這個來自中國的開源模型，比OpenAI最強(qiáng)的閉源模型之一更有效。

·比肩Claude4:

Claude一直是AgenticCoding領(lǐng)域的標(biāo)桿。

然而，Qwen3-Coder在多個編程智能體任務(wù)上，已經(jīng)可以和Claude4平起平坐。更關(guān)鍵的是，在Agent的核心能力——工具調(diào)用上，實(shí)測數(shù)據(jù)顯示其調(diào)用的工具數(shù)量甚至“比Claude多幾倍”。

這意味著在解決同一個復(fù)雜問題時，Qwen3-Coder的自主規(guī)劃和問題分解能力更強(qiáng)，解決問題的手段更多樣。

2.成本的“降維打擊”

如果說性能上的超越已經(jīng)足夠震撼，那么成本上的優(yōu)勢則是“致命一擊”。

Claude4很強(qiáng)，但它也很“貴”。而Qwen3-Coder呢？

·API價格：以約200K輸入為例，Qwen3-Coder的API輸入價格約為Claude4的1/2，輸出價格接近1/3。綜合成本優(yōu)勢巨大。

·終極殺招：完全免費(fèi)：別忘了，它是一個開源模型，遵循Apache-2.0許可。只要你愿意，你可以一分錢不花地在本地?fù)碛羞@個世界頂級的編程大腦，并可免費(fèi)商用。

“免費(fèi)”與“最強(qiáng)”，這兩個本不該同時出現(xiàn)的詞，被阿里硬生生地捏合在了一起。這對昂貴的閉源API服務(wù)來說，無異于一場降維打擊。

3.戰(zhàn)略的勝利：開源即是王道

在OpenAI等競爭對手日益封閉的今天，阿里選擇了一條截然相反的道路——將自己最頂尖、最具生產(chǎn)力的產(chǎn)品，無償分享給全世界。

這背后，是期待通過定義下一代開發(fā)工具的標(biāo)準(zhǔn)，來構(gòu)建一個繁榮的全球開發(fā)者生態(tài)。

當(dāng)全世界的開發(fā)者都開始基于Qwen構(gòu)建應(yīng)用、插件和工具時，它就成了這個時代的“Android”或“Linux”，成為了不可或逾越的“新基建”。

而阿里云作為基礎(chǔ)，自然將受益這個token消耗快速增長的時代。

Qwen3-Coder，讓我看到中國推理流量爆發(fā)的潛力

Qwen3-Coder的發(fā)布，影響的絕不僅僅是技術(shù)圈的排名，是我們每一個人。

對于開發(fā)者來說，我想說，請忘掉那些關(guān)于“AI 取代程序員”的陳舊焦慮吧。Qwen3-Coder 的出現(xiàn)，不是為了取代誰，而是為了武裝誰。它把一個資深開發(fā)團(tuán)隊的綜合能力，壓縮進(jìn)一個任何人都可以調(diào)用的工具里，然后交到你的手上。

你將從一個敲擊鍵盤的“代碼工人”，升級為一名運(yùn)籌帷幄的“創(chuàng)意指揮家”。你負(fù)責(zé)提出構(gòu)想、定義架構(gòu)、指揮AI執(zhí)行，而那些繁重、重復(fù)的實(shí)現(xiàn)細(xì)節(jié)，將由你的AI伙伴高效完成。你的價值，將更多地體現(xiàn)在創(chuàng)造力、審美和系統(tǒng)性思考上。

對于普通人來說，一個激動人心的“氛圍編程(VibeCoding)”時代正在到來。

你不需要懂

或for循環(huán)，你只需要用最自然的大白話描述你的想法——“我想要一個記錄寶寶成長的網(wǎng)站，粉色主題，能上傳照片和視頻”——AI就能為你構(gòu)建出應(yīng)用的雛形。創(chuàng)造的門檻，從未如此之低。

今天我們看到的是編程領(lǐng)域的革命，明天，當(dāng)這些強(qiáng)大的Agent被應(yīng)用于更多領(lǐng)域時，制藥、新材料、金融建模、科學(xué)研究……所有行業(yè)的生產(chǎn)力都將被重新定義。

Qwen3-Coder的發(fā)布，為全球AI發(fā)展設(shè)定了一個全新的、更高的基準(zhǔn)線。最強(qiáng)的力量，第一次以最開放的形式，普惠給了每一個人。

AI 革命的入場券，從未如此便宜，也從未如此強(qiáng)大。

我想，它一定會催生一個“超級個體”的時代。無論你是一個開發(fā)者、一個產(chǎn)品經(jīng)理，還是一個只有絕妙創(chuàng)意的普通人，你都可以借助這種前所未有的強(qiáng)大工具，以驚人的效率，將腦海中的想法變?yōu)楝F(xiàn)實(shí)。

對了，經(jīng)過這一天的嘗試，Qwen3-Coder讓我看到了中國推理流量，像美國過去半年一樣暴增的潛力。

也就在今天的晚間，阿里云官網(wǎng)掛出了更低的定價，比目前最主流編程模型Claude Sonnet4下降了很多。

我想現(xiàn)在，你最該做的，就是立刻去魔搭社區(qū)或Hugging Face下載它，或者打開它的網(wǎng)頁。去試試看，用一句話，創(chuàng)造一個屬于你的世界。

本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表虎嗅立場。未經(jīng)允許不得轉(zhuǎn)載，授權(quán)事宜請聯(lián)系 hezuo@huxiu.com

本文來自虎嗅，原文鏈接：https://www.huxiu.com/article/4611051.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.