国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

CREAO用Agentic Harness,重構(gòu)了智能體的執(zhí)行范式

0
分享至


2026年春天的硅谷,Harness Engineering已經(jīng)成了AI圈子里繞不開的熱詞。

從OpenAI Codex團隊五個月內(nèi)用Agent生成了超過一百萬行生產(chǎn)級代碼,到斯坦福和MIT的研究團隊提出讓AI自己寫Harness的Meta-Harness方案,整個行業(yè)正在形成一個新共識:

模型能力決定了天花板,但Harness決定了你能在多長時間里穩(wěn)定地夠到那個天花板。

AI落地不只是一道算法題,更是一道工程題,同樣的模型能力下,不同的腳手架設(shè)計對實際使用效果和成本影響非常大。

換句話說,Agent能不能干活,不完全看模型有多聰明,更要看你怎么讓它聽話、怎么讓它不跑偏、怎么讓它在對話窗口關(guān)掉之后還能繼續(xù)跑。

看到硅谷的CREAO團隊,在Agent Harness這個賽道上,拿出了全球第一個真正面向普通用戶的答案。


官網(wǎng):https://creao.ai/

01為什么是Harness Engineering

先花幾分鐘把Harness這個東西說清楚。

這個詞在中文里最貼切的翻譯大概是“駕馭工程”或者“腳手架工程”。

它不算是一個新的算法或者模型架構(gòu),是一整套讓AI Agent穩(wěn)定執(zhí)行復(fù)雜任務(wù)的工程框架。

你把它理解成AI的操作系統(tǒng)也可以。


OpenAI那篇引爆行業(yè)討論的博客里講了一個實驗:

一個只有三名工程師的小團隊,用Codex Agent在五個月內(nèi)生成了超過一百萬行生產(chǎn)級代碼,合并了約一千五百個Pull Request,整個過程中沒有一行代碼是人類手寫的。

但這個數(shù)字本身不是重點,重點是團隊事后復(fù)盤得出的結(jié)論:Agent不難,Harness才難。

后續(xù)的實驗中得到了反復(fù)驗證。

SWE-Bench Mobile的論文里有一個非常扎眼的數(shù)據(jù):同一個Claude Opus 4.5模型,在不同Harness配置下的編程基準成功率分別是百分之二和百分之十二,差了整整六倍。

LangChain的編碼Agent在Terminal Bench 2.0上,只優(yōu)化了Harness而沒有動任何模型底層代碼,得分從百分之五十二點八躍升到百分之六十六點五,排名直接從第三十位沖到了第五位。

換句話說,你在AI身上花了多少錢搞模型,跟你花多少心思設(shè)計它的運行框架,兩者之間的投入產(chǎn)出比可能完全不在一個量級上。

2026年整個AI行業(yè)的焦點,正在從模型本身向模型之外的東西轉(zhuǎn)移。

大模型的基礎(chǔ)能力在飛速提升,已經(jīng)超過了普通人的平均水平,AI Agent也能自主執(zhí)行多步驟的長任務(wù)了。

但問題變成了:怎么讓這些Agent在生產(chǎn)環(huán)境里穩(wěn)定跑完不翻車?


這就是Harness要回答的問題,也是CREAO這家公司切入賽道的邏輯起點。

02CREAO怎么用

打開CREAO,非常簡潔,和其他Agent給人的感覺都不一樣:


從Feed、Agents、Workspaces到Files再到Agent Brain,邏輯很清晰,上手很簡單。

用慣Claude Code、OpenClaw或者其他Agent的朋友,乍一看可能覺得CREAO很親切,它很自然地融入了各項能力,而且很可靠可控。

但是用的更深入后,會發(fā)現(xiàn)因為對Harness的理解,CREAO很像處女座,很細節(jié)控,給人的體驗很細膩。


一點開就能看到,如何創(chuàng)建記憶、如何創(chuàng)建Agent,這些問題是引導(dǎo)充分的,上手用就可以。

相比有些Agent的memory、soul等設(shè)定,CREAO給我的第一感覺是,上手很容易,用法非常簡單。


我試著讓CREAO給我做一個多Agent分工協(xié)作的數(shù)據(jù)看板,訴求非常貼合我的Agent個性用法,功能要求也很綜合。


Harness的核心價值,在于解決AI執(zhí)行復(fù)雜任務(wù)時的失控問題。

像ChatGPT,它很能聊,但你要讓它幫你做一個需要持續(xù)監(jiān)控、定時運行、跨多個工具協(xié)同的事情,就需要Claude Code或者更多個性手段了。

聊天窗口一關(guān),所有的執(zhí)行就跟著消失了。

這就是典型的Harness缺失,模型有意圖理解能力,但沒有一個讓它持久運行的框架。


創(chuàng)建智能體,實際的效果也很讓人驚喜。

有主動式的引導(dǎo)提問,輔助我來把智能體建的更滿足心意。

創(chuàng)建完成后的智能體,后續(xù)也會成為隨時調(diào)用的角色對象,能融入到日常的工作流里。


還嘗試做了一個新聞Agent,每天幫我定時整理AI資訊。

比較讓人欣喜的是,CREAO默認用的是Claude Sonnet 4.6,還能選Opus,效果比很多模型好的不止一點半點,再加上很多Agent設(shè)計的優(yōu)化,讓人使用體驗非常流暢愉悅。


除了定時的能力,還會和「AI異類弗蘭克研究Agent」聯(lián)動起來,定期采集更符合我需求的高價值信息。

所以用上了CREAO之后,它真的成了我每天甚至每個小時都會打開的產(chǎn)品,時不時就想看看任務(wù)完成的怎么樣、有沒有主動給我?guī)硪恍┬逻M展。


還有一些很日常的小任務(wù),效果也不錯。

比如我想給自己的「AI異類弗蘭克」媒體品牌,升級一下品牌Logo。


生成的logo效果還不錯,風(fēng)格很多樣。

我尤其喜歡后來生成的簡潔扁平無襯線的版本,已經(jīng)計劃用在我的未來各種對外露出場景里。



做數(shù)據(jù)看板,想讓監(jiān)測一下我的公眾號運營情況。

這個需求不算復(fù)雜,但上限很高,能把數(shù)據(jù)動態(tài)呈現(xiàn)并且可視化做的好的,CREAO算是獨一份。


做視頻,我也嘗試了一下。

用我自己的頭像作為人物IP,生成了一段簡單的個人動漫視頻。

可以說,如果單單把CREAO作為一個Agent來理解,很全面、很強大、很周到,常見的使用場景里,效果都不錯。

以上案例測下來,我覺得這是一個對用戶來說非常友好、細節(jié)很到位的產(chǎn)品。

但是這還不足以讓CREAO能在硅谷、在投資圈這么受歡迎。

CREAO還做對了什么呢?

03CREAO到底做對了什么

CREAO是最近這段時間,在硅谷正式發(fā)布了新一代產(chǎn)品。

發(fā)布當(dāng)天,CREAO在X平臺上連續(xù)五個小時霸占全球熱搜榜單前三名, 話題下涌入了來自北美、歐洲、東南亞、拉美等地區(qū)的大量科技創(chuàng)作者和開發(fā)者。

全球超過五十位頭部科技KOL幾乎同步發(fā)布了深度體驗內(nèi)容,覆蓋英語、西班牙語、葡萄牙語、韓語等多個語種市場,形成了一個非常少見的多語種自來水的傳播效應(yīng)。


仔細一研究,發(fā)現(xiàn)這支團隊也不是一夜之間冒出來的。

CREAO總部位于硅谷,核心團隊匯聚了來自Google、Meta等硅谷一線大廠的華人AI精英,以及國內(nèi)頭部大模型創(chuàng)業(yè)公司和明星互聯(lián)網(wǎng)企業(yè)的技術(shù)骨干,是一支國際化的復(fù)合型團隊。

公司的融資節(jié)奏也相當(dāng)凌厲:成立不到一年就連續(xù)完成了兩輪數(shù)千萬美金的融資。

我就更好奇了:CREAO到底憑什么,能同時讓全球的開發(fā)者和投資人,給出這樣的反應(yīng)?

一句話來形容:CREAO是全球第一個真正面向普通用戶的AI Agent Harness。

他們自己做了一個叫Super Agent的東西,本質(zhì)上就是一個Agent馴化系統(tǒng);

用戶用自然語言描述一個工作流程,系統(tǒng)自動理解意圖、編寫執(zhí)行代碼、連接各種工具平臺、實時執(zhí)行、一鍵保存為可復(fù)用的Agent、然后按設(shè)定的時間表自動運行。

聽起來好像就是一個自動化工具?

不,這里面的差異遠比看上去要大得多。

OpenClaw、Claude Code、Devin這些產(chǎn)品能力很強,但都需要一定的編程理解力,面向的是開發(fā)者。

ChatGPT和Claude雖然交互簡單,但本質(zhì)上只是聊天窗口,關(guān)掉之后就沒有了,無法持久執(zhí)行任何任務(wù)。

n8n和Zapier這類自動化工具雖然功能豐富,但需要大量手動配置,每一步都要人工介入,缺乏AI對意圖的理解能力。

中間存在一個巨大的真空地帶:一個既能理解自然語言,又能真正持久執(zhí)行任務(wù)的消費級產(chǎn)品。

CREAO填的就是這個空白。


假設(shè)說,想讓AI幫你做這樣一件事:每周一早上九點,掃描三個競品網(wǎng)站的價格變動,記錄到Google Sheets里,如果價格波動超過百分之十就在Slack上通知你。

用OpenClaw,你需要自己配置運行環(huán)境、處理各種技術(shù)細節(jié)。

但用CREAO,你只需要用自然語言把這個需求描述出來,剩下的全部交給系統(tǒng)。

它自動理解你的意圖、編寫執(zhí)行代碼、連接Gmail和Google Sheets和Slack等工具平臺,你可以看著它完成整個流程,一鍵保存為可復(fù)用的Agent,然后按你的時間表定時自動運行。

對話結(jié)束之后,系統(tǒng)還在運行。這是CREAO和所有聊天式AI產(chǎn)品的根本區(qū)別。

04跨國精英團隊對消費級AI Agent的重新定義

CREAO的核心團隊配置在今天的AI創(chuàng)業(yè)圈子里算是相當(dāng)硬核的。

創(chuàng)始人兼CEO程凱的履歷本身就很有故事性。

他擁有加拿大多倫多大學(xué)數(shù)學(xué)學(xué)士和美國哥倫比亞大學(xué)統(tǒng)計學(xué)碩士學(xué)位。

畢業(yè)后他在iPerceptions擔(dān)任數(shù)學(xué)科學(xué)家,為戴爾、NASA、康卡斯特等公司開發(fā)過機器學(xué)習(xí)算法,入選過福布斯中國三十歲以下精英榜。


這不是程凱第一次創(chuàng)業(yè)。

他之前創(chuàng)立的語憶科技,是一家專注于用戶體驗管理與消費者洞察的AI公司,累計服務(wù)超過三百家品牌客戶,并且實現(xiàn)盈利。

在上?輪企業(yè)AI浪潮中,已經(jīng)驗證過從 0–1 到商業(yè)化閉環(huán)的能?。

聯(lián)合創(chuàng)始人兼CTO Peter P.的履歷也相當(dāng)扎實。

他之前在Meta任職近六年,隸屬于GenAI團隊,參與過LLaMA體系下的Agentic系統(tǒng)相關(guān)研究。

再往前,他還在蘋果擔(dān)任過機器學(xué)習(xí)工程師,做NLP和遷移學(xué)習(xí)方向的工作。

CPO Clark,兼具數(shù)據(jù)科學(xué)、產(chǎn)品、戰(zhàn)略與創(chuàng)業(yè)經(jīng)驗。

曾在硅?兩家創(chuàng)業(yè)公司擔(dān)任創(chuàng)始團隊核?成員,橫跨中美市場與多種業(yè)態(tài),對早期產(chǎn)品從 0–1、市場驗證與融資節(jié)奏有?線實戰(zhàn)經(jīng)驗。商業(yè)化能力非常強。

三位聯(lián)合創(chuàng)始人,一位做底層模型出身的CTO,一位資深產(chǎn)品操盤和商業(yè)化經(jīng)驗的CPO,一位連續(xù)創(chuàng)業(yè)且有成功經(jīng)歷的CEO……技術(shù)、產(chǎn)品、商業(yè)化,三要素齊全而且充分閉環(huán)了。

這種組合,在Agent基礎(chǔ)設(shè)施這個方向上,其實很稀缺,尤其這樣高包容度、高整合能力的團隊。

CREAO整個團隊的構(gòu)成很多元,來自中國、美國、加拿大、印度等多個國家;核心成員的履歷涵蓋硅谷大廠的AI研發(fā)經(jīng)驗,也有海內(nèi)外頭部互聯(lián)網(wǎng)公司的產(chǎn)品落地經(jīng)驗。

這種國際化復(fù)合型背景,讓他們在技術(shù)理解和產(chǎn)品體驗之間,找到了一條不同于純粹硅谷創(chuàng)業(yè)公司的路徑。

能感覺到,CREAO團隊對C端平臺級產(chǎn)品體驗,有一種近乎執(zhí)念的追求。

他們花了很長時間解決:如何讓AI的輸出在對話結(jié)束后依然存活。

代碼生成的確定性、多工具編排的穩(wěn)定性、用戶心智模型的重新設(shè)計,每一個環(huán)節(jié)都需要反復(fù)打磨。

而CREAO團隊,恰恰在這個維度上做出了全球范圍內(nèi)的優(yōu)解。

05從技術(shù)驅(qū)動到體驗驅(qū)動的范式轉(zhuǎn)換

4月初,Anthropic因為npm包打包失誤,導(dǎo)致Claude Code大約五十一萬行源代碼被泄露,包含了四千七百多個源文件、四十多個工具模塊以及多項未發(fā)布的功能。

雖然這次泄露沒有涉及模型權(quán)重和用戶數(shù)據(jù),但Claude Code的架構(gòu)、提示詞及工具調(diào)用機制全部暴露在了公眾面前,包括Kairos持久進程、臥底模式等未公開功能。

這一事件在開發(fā)者社區(qū)引發(fā)的討論很有意思。

有人擔(dān)心安全和競爭問題,但也有不少觀點認為這次泄露反而會加速整個AI Agent行業(yè)的研發(fā)進度——因為大家終于有機會看到Anthropic這種級別的團隊是怎么做Harness設(shè)計的。

而Claude Code團隊在內(nèi)部早就堅持一個理念:所有秘密武器在模型本身,Harness應(yīng)該追求最薄的包裝。

Claude Code這個選擇本身說明了一個問題:Harness的厚度不是靜態(tài)的。

當(dāng)模型能力足夠強的時候,Harness應(yīng)該被剝離和簡化。Anthropic為Opus 4.5設(shè)計了一套相當(dāng)厚重的Harness方案——GAN式對抗架構(gòu)、三Agent分工、sprint合約。

但Opus 4.6出來之后,Harness直接做了減法:去掉sprint分解、整體簡化,運行時間從六小時降到三點八小時,成本從兩百美元降到一百二十五美元,性能反而更好。

這套操作被稱為Build to Delete——Harness的厚度取決于模型當(dāng)前的能力邊界,模型變強了,對應(yīng)的Harness就應(yīng)該被剝離。

CREAO的思路和這個邏輯是相通的。


他們的Super Agent本質(zhì)上是一個面向普通用戶的Harness系統(tǒng),讓非技術(shù)背景的人也能建立和馴化自己的自動化系統(tǒng)。

隨著底層模型能力的持續(xù)提升,這套Harness的復(fù)雜度也會逐步下降,最終無限接近用戶直覺——就像智能手機的觸摸屏最終成為所有人都能自然使用的交互方式。

CREAO產(chǎn)品發(fā)布后在海外資本市場引起廣泛關(guān)注,說實話,我一點也不意外。

Agent賽道從2024年到2026年已經(jīng)經(jīng)歷了從概念炒作到技術(shù)驗證再到商業(yè)落地的完整周期。

中信建投最近的研報也明確提到,Agent的任務(wù)交付能力正在變得越來越強,除模型能力提升外,Agent Harness是重要的驅(qū)動因素,看好2026年Agent快速落地。

AI Agent這個賽道正在經(jīng)歷從技術(shù)驅(qū)動到體驗驅(qū)動的范式轉(zhuǎn)換。

過去兩年所有人都在卷模型能力、卷Agent框架、卷開發(fā)者工具,但最終能跑出來的消費級AI產(chǎn)品,一定是讓普通人也能建立并馴化自己的自動化系統(tǒng)的那一個。這就像2007年的iPhone——不是因為觸摸屏技術(shù)最先進,而是因為它第一次讓普通人可以直覺地使用智能手機。

CREAO正在做同樣的事。

讓AI Agent從開發(fā)者專屬工具,馴化成每個人的執(zhí)行系統(tǒng)。

而這個產(chǎn)品,出自一支扎根硅谷、融合中美頂尖AI人才的團隊。

他們用了一年的時間,把Agent Harness從一個硬核的技術(shù)概念,變成了一個普通人打開網(wǎng)頁就能用的消費級產(chǎn)品。這個方向上的探索才剛剛開始,但方向本身已經(jīng)不需要再被驗證了。

接下來的十二個月,也許我們會看到更多類似CREAO的產(chǎn)品出現(xiàn)。

Agentic Harness會成為AI基礎(chǔ)設(shè)施層最核心的競爭領(lǐng)域之一,而誰能在降低使用門檻的同時保持執(zhí)行可靠性,誰就能真正占領(lǐng)這個市場。

不是技術(shù)最復(fù)雜的產(chǎn)品贏,而是讓普通人用得上的產(chǎn)品贏。這個道理在每一輪技術(shù)浪潮里都被反復(fù)驗證過,這一次也不會例外。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
51集諜戰(zhàn)大劇來襲,連續(xù)4天全國第一,這部諜戰(zhàn)作品值得一看

51集諜戰(zhàn)大劇來襲,連續(xù)4天全國第一,這部諜戰(zhàn)作品值得一看

樂楓電影
2026-04-09 14:10:12
三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

三峽大壩收支出爐:運行20余年,總投資近2500億,如今回本了嗎?

丁丁鯉史紀
2026-04-07 10:44:35
1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

1939年,一名波蘭女孩赤身露體被迫和德軍合影,低著頭一臉羞愧

浩舞默畫
2026-04-07 09:05:56
陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

陪玩陪睡都是毛毛雨!王思聰前女友曝“丑聞”,王家徹底坐不住了

一曲一場談
2026-04-09 13:56:12
燈滅之后的砂砂舞廳:五塊錢的舊時光與二十塊的新江湖

燈滅之后的砂砂舞廳:五塊錢的舊時光與二十塊的新江湖

成都人的故事
2026-04-09 17:55:06
以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國哀悼

以色列空襲一天內(nèi)致上千人死傷 黎巴嫩宣布全國哀悼

國際在線
2026-04-09 08:11:56
查了下資料,有點心疼遲重瑞了!

查了下資料,有點心疼遲重瑞了!

木子愛娛樂大號
2026-04-08 15:49:32
馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發(fā)聲,法國賭輸了

馬克龍簽涉臺聲明后,中方雙管齊下,朱鳳蓮強硬發(fā)聲,法國賭輸了

像夢一場a
2026-04-10 02:05:33
錯失最年輕147,中國17歲斯諾克少年橫空出世,10-5晉級第2輪

錯失最年輕147,中國17歲斯諾克少年橫空出世,10-5晉級第2輪

真理是我親戚
2026-04-09 11:14:21
小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

小女孩玩“拼豆”不幸離世,這些安全隱患要警惕

大象新聞
2026-04-09 18:21:08
原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

原來她已去世4年,曾穿旗袍滿身帝王綠,300間商鋪345套房隨便住

混沌錄
2026-04-09 18:24:16
美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

美伊停戰(zhàn)內(nèi)幕曝光:特朗普被猶太人釣成了翹嘴

木蹊說
2026-04-10 00:56:49
特別巨大是多大

特別巨大是多大

言立方
2026-04-07 12:02:41
CBA新排名!北京重返四強,廣東第五遼寧第九,深圳男籃連升三級

CBA新排名!北京重返四強,廣東第五遼寧第九,深圳男籃連升三級

中國籃壇快訊
2026-04-10 00:00:52
福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

福建車輛墜河5死后續(xù),親戚澄清3條真相,尤其痛心是車外男子身份

天天熱點見聞
2026-04-09 17:24:21
廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

廣東男子掃墓發(fā)現(xiàn)巨型蛇蛻,腹鱗比手掌都寬!網(wǎng)友:不能亂拿!

貍貓之一的動物圈
2026-04-09 09:00:30
四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計了

四小時摧毀伊朗,法國提前動手,中方罕見表態(tài),伊朗:美國中計了

云舟史策
2026-04-08 07:38:51
悲壯!美國或?qū)l(fā)動滅國之戰(zhàn),1400萬伊朗人甘愿為國犧牲

悲壯!美國或?qū)l(fā)動滅國之戰(zhàn),1400萬伊朗人甘愿為國犧牲

兵國大事
2026-04-08 00:05:08
“我們毫無勝算”本田社長來了趟中國,回國就把自家新車全給砍了

“我們毫無勝算”本田社長來了趟中國,回國就把自家新車全給砍了

半身Naked
2026-04-09 22:07:24
為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

有范又有料
2026-04-07 16:45:46
2026-04-10 03:28:49
AI異類 incentive-icons
AI異類
從硅谷到中關(guān)村,AI信息與測評
148文章數(shù) 6關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

以色列總理:同意與黎巴嫩直接談判

頭條要聞

以色列總理:同意與黎巴嫩直接談判

體育要聞

8萬人面前心臟驟停 現(xiàn)在他還站在球場上

娛樂要聞

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

財經(jīng)要聞

?;鹩謶伊?,最糟糕的情況要來了?

汽車要聞

文飛掌舵,給神行者帶來了什么?

態(tài)度原創(chuàng)

本地
教育
旅游
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

教育要聞

一年英碩是父母給你另一張地圖的體驗卡!

旅游要聞

溫州園博會來了!下高鐵10分鐘入園,100天免費逛

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

黎真主黨發(fā)射火箭彈 回應(yīng)以違反停火協(xié)議

無障礙瀏覽 進入關(guān)懷版