国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Vibe Coding 在代碼生成與協(xié)作中的實踐與思考

0
分享至


演講嘉賓|向邦宇

編輯|Kitty

策劃|QCon 全球軟件開發(fā)大會

AI 發(fā)展過程中誕生了許多優(yōu)秀的 Coding 產(chǎn)品,但非專業(yè)開發(fā)者需要掌握一些簡單的研發(fā)知識才能完成研發(fā)任務,而這些工具和研發(fā)知識的匱乏,都在不同程度上影響非專業(yè)開發(fā)者的熱情。

本文整理自阿里巴巴高級技術專家向邦宇在 2025 QCon 全球軟件開發(fā)大會(上海站)的分享 “Vibe Coding 在代碼生成與協(xié)作中的實踐與思考”。主要探討如何構建下一代 Vibe Coding 工具,從阿里當前的挑戰(zhàn)出發(fā),提出以用戶為中心、強化工具質(zhì)量、深化場景適配、支持協(xié)作與包容不確定性的核心設計原則與實踐。

內(nèi)容亮點

  • Vibe Coding 工具在建設過程中遇到的問題,以及解決的辦法

  • 構建 Vibe Coding 工具所趟過的產(chǎn)品方面的坑

  • 構建 Vibe Coding 工具時的技術創(chuàng)新與落地實踐

以下是演講實錄(經(jīng) InfoQ 進行不改變原意的編輯整理)。

多年來,我一直在阿里巴巴內(nèi)部的技術研發(fā)設施平臺上從事研發(fā)者工具的工作,其中包括內(nèi)部的 AI 編程工具以及 Web IDE 工具等。從 2023 年開始,我參與了相關工作的轉(zhuǎn)型,從之前的內(nèi)部 Copilot 逐步轉(zhuǎn)向如今的 Agent 方向。

當我拿到這次演講選題時,我在思考 Vibe Coding 這一主題。雖然 Vibe Coding 已經(jīng)出現(xiàn)幾個月了,但它似乎還不是一個非常確定性的概念,因為大家對它的理解以及所使用的相關工具都存在差異。而我由于接觸了大量內(nèi)部用戶對這些工具的使用情況,包括他們在使用過程中遇到的問題,以及作為產(chǎn)品提供方,面對眾多用戶在使用工具時所遇到的問題,我需要思考如何解決這些問題。

首先,我會簡單介紹一下我們內(nèi)部在哪些行業(yè)以及具體使用了哪些 Vibe Coding 工具。接著,我會講述用戶在使用 Web 編程工具過程中遇到的一些問題。然后,作為 Vibe Coding 工具的兩位核心主導者之一,我會分享我是如何思考這些問題的。最后,我在之前的許多分享中已經(jīng)介紹過我們?nèi)绾问褂脟a(chǎn)模型以及在適配國產(chǎn)模型過程中遇到的問題。

Vibe Coding 產(chǎn)品形態(tài)

目前,Vibe Coding 工具大致可以分為四類。首先是 Native IDE,例如近年來較為流行的 Cursor、Trae,以及我們阿里巴巴的 QCoder 等,它們都以本地集成開發(fā)環(huán)境的形式存在。第二類是 IDE 插件,比如我們內(nèi)部的 Aone Copilot 等工具,這些插件大多是基于現(xiàn)有的開發(fā)環(huán)境,如 VSCode 或 JetBrains 的插件形式存在。目前來看,內(nèi)部用戶使用這類插件仍是一種比較主流的習慣,盡管其靈活性可能不如 Native IDE 那么高。第三類是 Web Agent,它的入口在瀏覽器上,整個執(zhí)行過程在一個異步容器中進行,可能是沙箱環(huán)境。它可以解決信任問題以及云端執(zhí)行中的安全問題,并且對于協(xié)作更加友好,能夠在 Web Agent 中實現(xiàn)多人同步協(xié)作和分享。這類主要是跨平臺工具,具有廣泛的適用性。最后一類是 CLI 命令行工具,這其實是一個比較意外的類別。我們之前并沒有預料到像 Claude Code 這樣的 CLI 工具會如此受歡迎。最初,我們認為這種工具不會受到主流研發(fā)人員的歡迎,但后來發(fā)現(xiàn)大家其實非常接受這種模式。現(xiàn)在我們認為,CLI 模式在被集成的方式中,比如 CI 或一些異步容器中執(zhí)行垂直任務時,具有更高的可用性。這就是我對 Vibe Coding 工具大致分類的介紹。


Vibe Coding 在阿里內(nèi)部的發(fā)展現(xiàn)狀

接下來,我主要介紹一下我主導的兩個 Vibe Coding 工具的使用情況。首先是基于 IDE 的 Vibe Coding 工具。我們內(nèi)部有一個名為 Aone Copilot 的工具,它已經(jīng)存在多年,擁有眾多用戶,每周大約有數(shù)千的活躍用戶。目前,用戶在使用 IDE 的 Vibe Agent 工具時,主要場景包括新增代碼、修復漏洞以及代碼分析等。在后端場景中,這種工具的滲透率相對較高,而在前端場景中,大家可能更傾向于使用 Native IDE,如 Cursor 或 QCoder。

另一個我主導的項目是 Aone Agent。這是一個以外部容器發(fā)起的異步任務工具。它強調(diào)用戶可以通過自然語言發(fā)起任務,我們在異步容器中啟動一個 Agent,這個 Agent 會自行調(diào)用各種工具,無論是搜索工具、文件讀取工具還是 Shell 工具。這種在容器內(nèi)執(zhí)行的異步 Agent 與前面提到的 IDE Agent 有本質(zhì)區(qū)別。雖然用戶主要是后端人員,但我們發(fā)現(xiàn)測試人員、前端人員、算法工程師、產(chǎn)品經(jīng)理、運營人員、設計師以及運維人員等都在使用這種工具。它的用戶群體更加多元,提交的任務類型也更加豐富多樣,包括代碼分析、代碼修改、單元測試、代碼生成以及文案方案調(diào)研等,用戶通過這種工具進行各種探索。


在 Vibe Coding,尤其是 Agent 模式發(fā)展之后,我們看到了一些顯著的變化。以 Aone Copilot 的 Agent 模式為例,從 4 月份開始,我們觀察到用戶提交代碼行數(shù)的變化。藍色的線表示高頻用戶,即那些經(jīng)常使用該工具的用戶。我們發(fā)現(xiàn),在 Agent 模式下,這些高頻用戶的代碼提交行數(shù)有了顯著提升。雖然整體趨勢都在上升,但高頻用戶的提升更為明顯。從定量角度來看,9 月份高頻用戶每天提交的代碼行數(shù)約為 560 行,而其他用戶只有 400 多行。這至少證明了 Agent 模式在提高效率方面是有效的。

我們還發(fā)現(xiàn),不同用戶對這些工具的使用方式有所不同。前 10% 的用戶提交的代碼行數(shù)是其他用戶的兩倍。但我認為,Agent 對人的效率提升可能不止兩倍,因為大量的工作可能涉及協(xié)作或會議等。我們還發(fā)現(xiàn),TOP 10 用戶的 Token 消耗占總消耗的 80%。在 Vibe Coding 工具的使用下,由 AI 生成的代碼提交占比越來越高。隨著 Vibe Coding 工具的發(fā)展,像 JDK 升級、NPM 包升級或 SDK 升級等任務已經(jīng)可以由 AI 完成,尤其是 JDK 11 及以上版本的升級場景,我們內(nèi)部幾乎全部交由 Vibe Coding 工具來完成。此外,數(shù)據(jù)分析和數(shù)據(jù)整理工作也部分交給了 Agent。過去,一些必須由人工完成的任務,如大促過程中的截圖或壓力測試中的重復任務,現(xiàn)在都可以由 Agent 完成。還有一些在研發(fā)過程中成本過高而無法進行的事情,比如一次發(fā)布是否會引發(fā)其他相關系統(tǒng)的故障,現(xiàn)在也在探索使用 Agent 來解決。過去,由于無法審查每一行代碼對其他系統(tǒng)的影響,這類問題很難處理,但如今 Agent 可以承擔這項任務。

用戶在 Vibe Coding 過程中遇到的挑戰(zhàn)

在審視當前技術發(fā)展現(xiàn)狀時,從用戶的角度來看,技術和產(chǎn)品都面臨著一些亟待解決的問題。首先,用戶常常因為 AI 的表現(xiàn)不盡如人意而感到沮喪。從后臺日志中,我們可以看到大量用戶抱怨“電腦太笨了”等類似的不滿情緒,這些反饋充滿了挫敗感。同時,用戶頻繁地刪除和修改代碼的現(xiàn)象也屢見不鮮。無論是公司內(nèi)部還是在社區(qū)中,都存在許多用戶因 Agent 能力不足而陷入困境的情況。此前,甚至有用戶在 GitHub 上分享關于 AI 的“八榮八恥”提示詞,其中不乏諸如“以不修改原始代碼為榮”等觀點。


綜合來看,Vibe Coding 工具給用戶帶來的問題主要體現(xiàn)在以下幾個方面。首先是代碼質(zhì)量問題,生成的代碼往往缺乏質(zhì)量把控。其次是調(diào)試和維護困難,這給用戶帶來了額外的負擔。第三是用戶體驗不佳,目前的 AI 編程工具尚未達到讓用戶滿意的程度。最后是成本與效率問題,這些問題也在一定程度上影響了工具的使用效果。


我認為代碼質(zhì)量不足主要體現(xiàn)在幾個方面。首先是代碼一致性不足。在不同場景下,生成代碼的質(zhì)量和風格存在較大差異。例如,在存量代碼倉庫中編寫代碼時,AI 往往會按照自己的風格生成代碼,這與現(xiàn)有代碼風格不一致。其次,邊界條件的處理不夠完善。對于復雜業(yè)務邏輯的邊界情況,AI 生成的代碼往往處理得不夠充分。此外,生成的代碼還存在性能缺失的問題。最后,安全漏洞問題尤為突出,尤其是 SQL 注入類漏洞。斯坦福大學的一項研究指出,AI 生成的代碼中存在注入類漏洞的比例約為 45%。

在實際應用中,我們發(fā)現(xiàn)了一些典型案例。首先是安全漏洞,包括 SQL 注入和 XSS 攻擊。其次是在邊界邏輯處理方面,邏輯錯誤和邊界條件處理不當?shù)那闆r較為常見,例如空指針異常和數(shù)組越界等問題,這些都是我們在用戶使用過程中觀察到的現(xiàn)象。


我們發(fā)現(xiàn) AI 在代碼生成過程中存在自洽問題。過去,我們曾考慮讓 AI 生成代碼的同時,也生成對應的單元測試,以此來解決代碼質(zhì)量問題。然而,我們很快發(fā)現(xiàn),如果讓 AI 同時負責代碼邏輯和單元測試的生成,它無法保證質(zhì)量,因為 AI 會在邏輯上進行自洽。例如,下圖展示的一段數(shù)組去重函數(shù)及其對應的測試代碼,雖然測試通過率達到了 100%,但其邏輯實際上是存在問題的。這說明,如果完全依賴 AI 來完成代碼和測試,很容易出現(xiàn)自我擬合的情況。因此,我們建議用戶在使用 AI 生成代碼時,至少有一項由人工進行 Review 或主導,以確保質(zhì)量


在用戶使用 Vibe Coding 工具的過程中,我們還發(fā)現(xiàn)調(diào)試時間增加了 30% 到 50%。這是因為 Vibe Coding 更傾向于生成黑盒代碼邏輯,盡管最終會讓人確認代碼的差異(DIFF)后才能提交,但生成過程和代碼本身通常不會被逐條仔細檢查。因此,我們將其視為一種黑盒操作,AI 生成代碼就像一種“黑魔法”,一旦出現(xiàn)問題,用戶可能不知道從何處入手,技術債務也會不斷累積。

另一個問題是上下文理解的局限性。對于存量任務,其業(yè)務邏輯往往是經(jīng)過多年積累形成的,一些代碼為何如此編寫,是否可以刪除等問題,對于 Agent 來說都是難題。我們認為,Vibe Coding 工具缺乏全局思維,生成的代碼模塊化程度不足,代碼耦合度較高。為了解決這一問題,目前有一些方案,例如 Repo Wiki 或 Deep Wiki 等。

此外,Vibe Coding 缺乏可追溯性,這限制了工具的使用。由于 Vibe Coding 一次性生成大量代碼,我們很難確定是新的需求導致代碼出錯,還是最初生成時就存在錯誤。因此,如何引入版本管理的概念,以便在代碼出錯后能夠回滾到正確狀態(tài),是一個亟待解決的問題。目前有一些方法,例如在每次修改并通過測試后提交一個 Commit,以便后續(xù)能夠從該 Commit 回滾。也有一些工具,如 Cursor 或其他回滾工具,但總體而言,Vibe Coding 在可追溯性方面仍有不足。用戶在生成大量代碼或經(jīng)過多次迭代后,往往無法進行有效的版本管理,只能選擇回滾或重新開始。

目前 Vibe Coding 工具還無法像人類開發(fā)者那樣熟練運用常見的調(diào)試工具。在過去傳統(tǒng)的編程模式中,開發(fā)者們常常會大量使用調(diào)試工具,例如在代碼中設置斷點,或者在瀏覽器中進行調(diào)試。然而,對于 Vibe Coding 工具來說,要利用這些調(diào)試工具來定位問題的堆棧信息,幾乎是不可能完成的任務。那么,Vibe Coding 工具是如何應對這種情況的呢?它們通常會通過大量打印日志(如 console log)來解決問題。它們要求用戶在執(zhí)行代碼后,將控制臺中的報錯信息或打印內(nèi)容復制并粘貼給工具,以便進一步分析。這種模式不僅需要人工介入,而且效率低下。因此,我認為大型模型的調(diào)試手段相對單一,傳統(tǒng)的調(diào)試方法很難被這些模型有效利用。



從用戶使用 Vibe Coding 工具的角度來看,除了編碼層面的問題外,工具本身也存在諸多不足。首先,穩(wěn)定性和成功率是最大的問題之一。Vibe Coding 工具的執(zhí)行時間往往較長,用戶可能需要等待 30 秒到 5 分鐘才能得到結果,而且并非每次都能成功。失敗的原因可能是模型返回錯誤、工具調(diào)用出錯,或者 IDE 本身不穩(wěn)定等。一些用戶在初次使用后,發(fā)現(xiàn)結果不穩(wěn)定,尤其是在時間緊迫、任務繁重的情況下,他們就不再愿意使用這類工具。

其次,交互界面設計也存在一些問題。這并非缺陷,而是因為許多 Vibe Coding 工具頻繁改版,導致用戶難以找到以前的功能,或者工具中不斷增加新功能,使得用戶感到困惑。以 Devin 為例,它在改版過程中,曾經(jīng)引入了劇本、MCP 市場和知識庫等功能,但后來又取消了。這種頻繁的改版讓用戶難以適應。

第三,溝通和交互存在障礙,主要表現(xiàn)為 AI 的理解能力不足。用戶需要反復確認意圖,尤其是在不同場景下,這種確認雖然有意義,但也增加了溝通成本。例如,在最近流行的 Spark Coding 中,用戶先提出需求,生成設計稿,再讓 Agent 執(zhí)行。對于復雜的任務,這種模式可能是必要的,但對于其他任務,可能需要 Agent 自由探索。此外,長鏈路任務的執(zhí)行能力也存在不足,無法維持長期的上下文對話。由于 Agent 大模型的 Token 有上限,當上下文過長時,其記憶和召回能力就會下降。

最后,工程工作流程的中斷也是一個問題。目前有大量 Vibe Coding 工具,包括 IDE、CLI 和 Web Agent 等,每種工具都有其擅長的領域,但它們無法讓用戶在一個統(tǒng)一的流程或上下文中解決問題。例如,用戶在 IDE 中完成一項任務后,如果切換到 CLI,就需要重新向新的 Agent 介紹需求。這種頻繁切換不僅增加了用戶的負擔,也降低了工作效率。



Vibe Coding 產(chǎn)品自身遇到的挑戰(zhàn)

隨著 Agent 和模型能力的不斷提升,產(chǎn)品功能也在不斷演進。從最初的單代碼補全場景,單個任務 4000 個 Token,到后來的 Chat 模式,單個任務 1000 個 Token,輸出約為 4000 個 Token。再到 IDE 或 CLI 模式,Token 消耗量達到十萬級別。如今,Web Agent 模式具備獨立容器,能夠廣泛使用各種工具,實現(xiàn)多種任務類型的 Agent 模式,Token 消耗量更是達到百萬級別。像 Cursor、Trae 等 Native IDE 工具正在探索 Sub-Agent 或 Multi-Agent 架構,單個任務的 Token 消耗量甚至可能達到上億級別。這種演進模式雖然為用戶提供了更強大的功能,但也給產(chǎn)品設計帶來了挑戰(zhàn)。一方面,我們需要讓用戶滿意,另一方面,成本控制必須與用戶規(guī)模相匹配。


在產(chǎn)品設計方面,Vibe Coding 工具,無論是 IDE Agent 還是 Web Agent,都處于摸索階段。盡管模型能力的提升推動了產(chǎn)品功能的不斷變化,但產(chǎn)品界面的區(qū)分度卻不夠。例如,Chat、Deep Research、Agent 等產(chǎn)品都采用對話框形式,用戶難以區(qū)分不同產(chǎn)品的功能差異。此外,用戶缺乏引導,面對 Vibe Coding 的對話框,用戶往往不知道該輸入什么內(nèi)容。不同工具適用于不同場景,但用戶常常一刀切地認為某個產(chǎn)品應該滿足他們的需求,然而在實際使用中,他們發(fā)現(xiàn)產(chǎn)品無法達到預期目標。這不僅增加了用戶的學習成本,也降低了產(chǎn)品的使用頻次。我們觀察到,像 Devin 這樣的 Web Agent 工具,留存率非常低,這反映出用戶在使用過程中遇到的諸多問題。另一個問題是缺乏一站式的功能閉環(huán)。用戶面臨的不僅僅是代碼編寫問題,還包括發(fā)布、部署、調(diào)試等多方面的問題。目前的 Vibe Coding 工具無法在一個產(chǎn)品中同時解決不同難度問題。比如,初學者可能需要更多指導和簡化功能,而復雜問題則需要更強大的工具支持。這種功能上的割裂導致用戶在使用過程中需要頻繁切換工具,增加了使用成本和學習難度。


Vibe Coding 工具的安全性問題值得我們高度關注??赡艽蠹矣兴劊?Cursor 曾出現(xiàn)過刪除用戶本地代碼的情況,雖然這類事件相對較少,但今年已經(jīng)發(fā)生了好幾次。另一個案例是 Anthropic 的 Claude Code 被劫持,攻擊者利用 Vibe Coding 工具在用戶網(wǎng)絡中探測漏洞,并編寫代碼將敏感信息暴露出來。

在內(nèi)網(wǎng)環(huán)境中,我們可能還無法完全信任 Vibe Coding 工具。當前,供應鏈攻擊和開源代碼的發(fā)展帶來了新的挑戰(zhàn)。許多人會在開源社區(qū)中潛入木馬,一旦我們稍不留意,拉取的 SDK 或代碼可能本身就存在漏洞。Vibe Coding 工具由于對代碼或當前電腦具有一定的控制能力,能夠進行自由探索,可能會發(fā)現(xiàn)系統(tǒng)中的漏洞并加以利用。因此,我們在使用 Vibe Coding 工具時,必須謹慎對待其安全性問題,確保在安全的環(huán)境中使用,并對工具的權限進行嚴格管理。

Agent 建設過程中的一些經(jīng)驗

在參與 Agent 建設的過程中,我積累了一些經(jīng)驗,這些經(jīng)驗對我們后續(xù)的工作有著重要的啟示。

最初,我們采用了一種 All In One 架構,這種架構在建設 Vibe Agent 時帶來了諸多問題。當時,Vibe Agent 的核心是一個輸入框,圍繞這個輸入框的是 MCP 工具、知識庫(Knowledge)以及各種劇本(Playbook)。這些外圍工具構成了一個完整的場景圖,涵蓋了數(shù)據(jù)處理、后端開發(fā)、前端開發(fā)、代碼審查、風險管理等多個方面。在這種架構下,所有工具和知識都需要放入上下文中,導致上下文內(nèi)容異常龐大,成本難以壓縮。例如,當時我們使用 Claude 模型執(zhí)行一個任務,成本高達幾百元,這顯然是不可持續(xù)的。

此外,這種 All In One 架構還導致任務成功率較低。當所有工具和知識集中在一起時,上下文過長,消耗大量 Token,不僅增加了成本,還降低了任務執(zhí)行的效率。更重要的是,這種架構難以針對不同場景進行優(yōu)化。例如,當我們對比其他類似產(chǎn)品時,我們的 Vibe Agent 在前端場景上的表現(xiàn)卻不盡如人意。這說明,我們的架構缺乏靈活性,無法根據(jù)不同場景進行針對性的調(diào)整和優(yōu)化。


在后續(xù)的 Agent 建設過程中,我們采取了一系列措施來優(yōu)化工具的性能和用戶體驗。首先,我們對知識和數(shù)據(jù)進行了調(diào)整,特別是在代碼數(shù)據(jù)建設方面,通過構建 Repo Wiki 和 Embedding 數(shù)據(jù)庫,提升了對整體代碼庫的搜索理解和搜索能力。此外,我們還將研發(fā)行為數(shù)據(jù)納入考量,包括構建 CI、CR、發(fā)布監(jiān)控等行為。由于我們依托的是集團內(nèi)部的發(fā)布平臺和代碼平臺,因此能夠?qū)⒋a數(shù)據(jù)與需求數(shù)據(jù)相結合,形成一個綜合的數(shù)據(jù)體系。

我們意識到,傳統(tǒng)的文檔知識庫難以直接被 Agent 使用,原因在于這些知識庫可能存在信息過時、前后矛盾、圖文混雜以及錯誤信息等問題。這些問題如果直接傳遞給 Agent,可能會導致誤導。因此,我們沒有采用傳統(tǒng)的 RAG 技術,而是通過建立一個中間層來處理面向 Agent 的數(shù)據(jù)協(xié)議,從而解決文檔知識庫的引入問題。

在 Agent 的建設過程中,我們還發(fā)現(xiàn)很多知識并不在文檔或代碼中,而是存在于開發(fā)者的頭腦中。因此,我們思考如何設計一個產(chǎn)品,幫助用戶將這些知識沉淀下來。這并非通過自動生成實現(xiàn),而是需要用戶主動參與編寫。


在上下文記憶方面,我們進行了大量處理工作,包括寫入、提取、壓縮和隔離等操作。我們的 Agent 工具旨在滿足大多數(shù)用戶的需求。為此,我們在容器中集成了大量工具,涵蓋任務管理、基本交互、文件操作(讀寫、編輯、管理)、命令行執(zhí)行監(jiān)控等功能。由于 Agent 可以執(zhí)行命令行,對于一些耗時較長的命令,我們需要監(jiān)聽其執(zhí)行結果,并在超時后進行中斷處理。


我們還加入了瀏覽器自動化工具,例如使用 Playwright 等工具進行網(wǎng)頁操作,幫助用戶完成登錄等交互任務。同時,我們還集成了多媒體開發(fā)工具,支持用戶將代碼部署到特定環(huán)境進行調(diào)試。在協(xié)作方面,我們設計了團隊協(xié)作功能,用戶可以將任務分享給他人,基于任務繼續(xù)協(xié)作。我們還加入了高級功能,如并行執(zhí)行優(yōu)化和網(wǎng)絡搜索等


在面對模板和成本過高的問題時,我們采取了一系列措施來優(yōu)化和解決。最初,我們發(fā)現(xiàn)單個任務的 Token 消耗量接近 400 萬到 1000 萬,這是一個極為嚴重的問題。為了降低 Token 成本,我們進行了一些操作和設計調(diào)整。


積極適配和擁抱國產(chǎn)開源模型

在探討為何要解決成本問題時,我相信從事相關工作的人都能理解其重要性。實際上,解決成本問題的另一個重要方向是積極擁抱國產(chǎn)開源模型。然而,國產(chǎn)開源模型并非針對我們的具體場景進行訓練,因此仍存在諸多問題。

使用國外的 SOTA 閉源模型也存在諸多風險。首先,這類模型非常昂貴,尤其是處理復雜問題時,需要在長鏈路任務中運行,成本極高。其次,隱私問題不容忽視,閉源模型可能存在合規(guī)風險。第三,我們還發(fā)現(xiàn)了被限流和性能下降的問題,即使是同一模型、同一供應商,在不同時間的表現(xiàn)也可能不同,有時會出現(xiàn)格式錯誤或陷入死循環(huán)等問題。最后,國外模型在面向 C 端用戶時,可能還存在備案等額外問題。

相比之下,國產(chǎn)模型在短鏈任務中表現(xiàn)良好,但在長鏈任務中仍存在一些問題。例如,死循環(huán)問題較為常見,因為 Agent 有多種選擇和入口,可能在執(zhí)行過程中陷入某種循環(huán),無法跳出。另一個問題是格式遵循能力不足,例如 XML 標簽格式不準確,前后無法匹配,導致無法正確解析,容易失敗。此外,還存在指令遵循問題,在處理大量 Token 的上下文時,模型可能忘記某些指令,尤其是在未被充分訓練的情況下。最后,我們還發(fā)現(xiàn)全局智能方面存在缺陷,模型容易陷入“走一步看一步”的情況,導致 Token 消耗大,步驟時間長。


為了應對這些問題,我們采取了一系列措施。首先,針對穩(wěn)定性問題,我們設計了主備模型切換和重試機制。其次,為了解決速度慢或 Infra 穩(wěn)定性問題,當模型輸出被截斷時,我們引入了流式輸出和續(xù)寫設計。此外,我們還進行了健康檢查和死循環(huán)檢測,在 Agent 中針對重復執(zhí)行指令或相同錯誤點的無限循環(huán)問題進行了優(yōu)化。當檢測到明顯錯誤邏輯時,我們能夠及時干預。同時,我們還進行了格式檢查和修復,針對模型生成的 XML 標簽格式錯誤,通過堆棧或自動補齊方式解決格式缺失問題。

目前,我們已經(jīng)將所有國外模型替換為國產(chǎn)模型。在運行過程中,我們會實時檢測任務是否進入死循環(huán),一旦發(fā)現(xiàn),會采取干預措施,例如截斷后續(xù)任務執(zhí)行,或?qū)θ蝿者M行總結和壓縮,使其能夠繼續(xù)執(zhí)行。這些措施都是我們在上下文管理方面的探索和實踐。


在思考如何提升產(chǎn)品用戶體驗和降低使用成本時,我發(fā)現(xiàn)了一個核心問題:普通用戶甚至小白用戶在使用我們的產(chǎn)品時,往往不清楚產(chǎn)品能做什么。即便他們知道自己需要什么,也難以準確地提出需求,不知道如何在產(chǎn)品中選擇合適的工具或知識。這導致產(chǎn)品的任務成功率很低,同時 Token 消耗量卻很大。

為了解決這些問題,我考慮是否可以將一些已經(jīng)成功完成的垂直任務進行抽象和模板化。例如,如果某個任務經(jīng)過多次探索后成功完成且用戶非常滿意,我們能否將其經(jīng)驗抽象出來,形成一套標準化的模板?通過這種方式,我們可以針對不同的垂直場景不斷積累模板,從而提高任務的成功率,降低 Token 消耗。當用戶面對對話框時,模板也能提供一定的引導性,幫助他們更好地使用產(chǎn)品。

在模板設計方面,這些模板可以被理解為工具組合和知識組合的集合。有了模板后,用戶在使用對話框時可以先選擇一個模板,這大大提高了任務的完成率。目前,大約有 50% 的用戶任務都使用了模板,任務完成率提高到了 95% 以上。通過固化 Prompt、工具和知識,形成模板后,用戶在下次生成或執(zhí)行任務時可以先選擇模板,再進行具體操作。


Manus 1.5 提出了一個新概念:Agent 也是一種工具。這意味著我們可以將 Agent 視為一個工具,例如一個專門用于深度調(diào)研的工具,它可以獨立完成網(wǎng)頁搜索和內(nèi)容總結。這樣,主 Agent 只需要調(diào)用這個工具即可,從而將部分任務抽象化,形成一個工具。從最初的“函數(shù)即工具”,到“LLM 即工具”,再到現(xiàn)在的“Agent 即工具”,我們將所有任務都視為子任務,通過工具化的方式進行處理。


以上內(nèi)容是我關于產(chǎn)品和用戶體驗方面的分享。實際上,我們的工作不僅局限于內(nèi)部,也已經(jīng)向外部用戶開放使用。未來,我們還將進一步把內(nèi)部的技術成果開放給社區(qū),以促進更廣泛的交流與合作。


演講嘉賓介紹

向邦宇,阿里巴巴代碼平臺負責人,在代碼管理、代碼結構化數(shù)據(jù)處理、代碼搜索、代碼評審以及編輯器技術等領域擁有豐富的專業(yè)知識和實踐經(jīng)驗。在阿里,負責了包括 CloudIDE、代碼搜索、CodeReview 等多個關鍵產(chǎn)品的開發(fā)與管理,成功引領了代碼智能平臺的建設與發(fā)展。他主導實現(xiàn)的阿里內(nèi)部多個 AI Coding 工具,包括 Aone Copilot 和 Aone Agent 等,在阿里內(nèi)部被廣泛使用。他還主導開發(fā)了 AI Development 產(chǎn)品“搭叩”。

會議推薦

2026,AI 正在以更工程化的方式深度融入軟件生產(chǎn),Agentic AI 的探索也將從局部試點邁向體系化工程建設!

QCon 北京 2026 已正式啟動,本屆大會以“Agentic AI 時代的軟件工程重塑”為核心主線,推動技術探索從「AI For What」真正落地到可持續(xù)的「Value From AI」。從前沿技術雷達、架構設計與數(shù)據(jù)底座、效能與成本、產(chǎn)品與交互、可信落地、研發(fā)組織進化六大維度,系統(tǒng)性展開深度探索。QCon 北京 2026,邀你一起,站在拐點之上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
歐洲天然氣價格漲幅擴大至42%,創(chuàng)2022年3月以來最大漲幅

歐洲天然氣價格漲幅擴大至42%,創(chuàng)2022年3月以來最大漲幅

每日經(jīng)濟新聞
2026-03-02 20:22:09
伊朗人拿的清末劇本,答案在我們中學課本

伊朗人拿的清末劇本,答案在我們中學課本

鑒茶院
2026-03-03 08:03:31
伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

伊朗最高國家安全委員會秘書:已為長期戰(zhàn)爭做好準備

財聯(lián)社
2026-03-02 20:44:25
中東激戰(zhàn),日本相當難受!

中東激戰(zhàn),日本相當難受!

環(huán)球時報國際
2026-03-02 21:31:30
“以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

“以為是六個博士,結果是六個送外賣的!”六個兒子征婚視頻火了

阿凱銷售場
2026-03-01 01:46:42
痛心!深圳一醫(yī)院工地出事,張某才(男,29歲,汕頭人)身亡,事故原因公布

痛心!深圳一醫(yī)院工地出事,張某才(男,29歲,汕頭人)身亡,事故原因公布

南方都市報
2026-03-02 23:28:00
43歲阿Sa承認與男友同居,已帶男友見過家長,疑好事將近

43歲阿Sa承認與男友同居,已帶男友見過家長,疑好事將近

扒蝦侃娛
2026-03-02 22:27:05
這條無恥新聞,引起公憤了!

這條無恥新聞,引起公憤了!

胖胖說他不胖
2026-03-02 12:58:07
椰樹集團被約談,不能任由其將低俗進行到底

椰樹集團被約談,不能任由其將低俗進行到底

極目新聞
2026-03-03 09:00:42
慘遭15分大逆轉(zhuǎn)!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

慘遭15分大逆轉(zhuǎn)!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

籃球快餐車
2026-03-03 01:57:58
英媒:歐美要死死守住這5項技術,一旦被中國突破那將勢不可擋

英媒:歐美要死死守住這5項技術,一旦被中國突破那將勢不可擋

林子說事
2026-03-03 01:07:19
央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

央視首次曝光!每臺4億美元重180噸,全世界最先進光刻機揭開面紗

凡知
2026-03-03 01:52:38
衛(wèi)星證實!林肯號航母被伊朗導彈襲擊時,進行90度機動規(guī)避!

衛(wèi)星證實!林肯號航母被伊朗導彈襲擊時,進行90度機動規(guī)避!

52赫茲實驗室
2026-03-02 21:00:37
美軍再度動用B-2轟炸伊朗,加固導彈基地是首批目標

美軍再度動用B-2轟炸伊朗,加固導彈基地是首批目標

中國青年報
2026-03-02 11:33:08
內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

內(nèi)塔尼亞胡辦公室遭猛烈襲擊!伊朗:摧毀美國一總領館及一軍事基地,擊落3架美軍機

新民晚報
2026-03-02 19:04:01
男子送相親對象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒用

男子送相親對象回家遇其忘帶鑰匙,開房遭拒后女子怒斥男子真沒用

朗威談星座
2026-03-02 16:54:30
所有發(fā)達國家都有一個共性:人工很貴,勞動很值錢。

所有發(fā)達國家都有一個共性:人工很貴,勞動很值錢。

流蘇晚晴
2026-01-27 18:18:22
油價或飆升至每桶130美元?伊朗警告:若油氣設施遭襲,將摧毀地區(qū)所有國家油氣設施

油價或飆升至每桶130美元?伊朗警告:若油氣設施遭襲,將摧毀地區(qū)所有國家油氣設施

紅星新聞
2026-03-02 11:33:13
記者:沙特足協(xié)與參加亞冠球隊的代表開會,商討后續(xù)賽程解決方案

記者:沙特足協(xié)與參加亞冠球隊的代表開會,商討后續(xù)賽程解決方案

懂球帝
2026-03-03 00:25:10
為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

為什么科學家說:如果宇宙中只有人類,比找到外星人更可怕?

觀察宇宙
2026-03-01 20:46:19
2026-03-03 10:11:00
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
12095文章數(shù) 51783關注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術
公開課
軍事航空

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

親子要聞

孕吐是胎兒的自我保護?孕吐越嚴重,孩子越聰明?聽專家怎么說

藝術要聞

14個字,您能全認嗎?探討情緒對人際關系的影響。

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國中央司令部透露對伊朗動武全部武器裝備清單

無障礙瀏覽 進入關懷版