国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

不寫、不看、不審查:這家安全公司決定不再讓人類碰代碼,還把這套模式開源了

0
分享至


編譯 | Tina

沒人寫代碼,也沒人看代碼,軟件照樣交付?

2026 年 2 月,一家專注于基礎設施安全的公司 StrongDM 公開了一套“軟件黑燈工廠”式的生產線成果。

在這個生產線里,人類不再直接寫代碼、也不承擔代碼審查;開發(fā)從交互式協(xié)作變成“把 spec 和場景喂給系統(tǒng)”。隨后由 Agent 自動生成代碼、運行測試 / 評測 harness,并在反饋回路里反復迭代,直到結果收斂、可以交付為止。團隊把這套玩法寫進章程,最重要的只有一句話——No hand-coded software。


StrongDM AI 還不尋常的開源了它們:


其中一個倉庫是:
https://github.com/strongdm/attractor

這是他們“軟件工廠”體系中最核心的非交互式編碼 Agent。不過,這個倉庫本身一行代碼都沒有:里面只有三份 Markdown 文件,極其細致地描述了軟件的完整規(guī)格說明(spec),以及 README 里的一句提示——把這些規(guī)格說明交給你選擇的編碼 Agent 去執(zhí)行即可。



另一個倉庫
https://github.com/strongdm/cxdb

這個則更接近傳統(tǒng)意義上的軟件發(fā)布:包含 1.6 萬行 Rust、9500 行 Go,以及 6700 行 TypeScript。這是他們的 “AI Context Store”——一個用于存儲對話歷史和工具輸出的系統(tǒng),數據以不可變 DAG 的形式組織。


在 Hacker News 的討論中,很快就有開發(fā)者按圖索驥,實際跑了一遍這套流程。他表示,自己仔細閱讀了 Attractor 倉庫中的文檔,并嚴格按照 StrongDM 提供的規(guī)范,讓 Claude 基于 spec 構建了一個完整應用。最終生成的是一個可以直接使用 Claude API Key 的 AI 代理,其整體質量“明顯好于讓模型自由發(fā)揮時生成的結果”。

讓他印象最深的,是這套規(guī)格說明的體量和細節(jié)程度:整套 spec 大約6000–7000 行,覆蓋了行為約束、接口語義以及系統(tǒng)邊界?!拔乙郧敖o代理布置項目時,規(guī)格說明最多也就一頁紙,這次的細節(jié)密度讓我非常震驚?!?/p>

當然,這次開源并不是一個“打磨完畢”的展示版本。代碼一經放出,Hacker News 上就有開發(fā)者迅速上手檢查,指出其中存在疑似 bug、Rust 反模式,以及相對寬松的錯誤處理方式。對此,StrongDM AI 團隊成員 Jay Taylor 在評論區(qū)回應稱,這批項目“是最近幾天才決定開源的”,尚未經過充分的技術優(yōu)化,目前已經安排代理繼續(xù)對 CXDB 進行清理和改進。

這套實踐也很快得到了學界的點名。沃頓商學院研究 AI 與組織變革的教授 Ethan Mollick 在轉發(fā) StrongDM 的公開內容時直言,這是一次“真正激進的軟件開發(fā)方式”:“幾乎沒有任何人類介入。即便這種方式未必適用于大多數場景,我們也需要更多這樣的跳級式設想,去重新設計流程,而不是只把 AI 塞進舊流程里?!?/p>

在他看來,真正有價值的進步,不是在原有流程上“多加一點 AI”,而是圍繞 AI,把流程本身重做一遍


一條“禁止手寫代碼”的內部實驗線

StrongDM 是一家專注于基礎設施訪問與身份安全的公司,核心工作是管理人類與非人類身份如何安全地連接到數據庫、云資源和各類內部系統(tǒng)。

而他們的 AI 團隊成立于半年前, 2025 年 7 月 14 日這天,Jay Taylor、Navan Chauhan 與 StrongDM 的聯(lián)合創(chuàng)始人兼首席技術官 Justin McCarthy 一起,正式把一條原本分散在內部的探索工作,獨立成一個專門的團隊。

新團隊成立后,第一天的工作并不是寫代碼,而是寫一份章程。Justin McCarthy 在回顧中提到,在團隊成立的第一個小時,他們就先明確了一組接下來必須遵守的約束條件。

代碼不得由人類編寫。 代碼不得由人類審查。 如果你今天在每位人類工程師身上花費的 token 成本還不到 1000 美元,那么你的軟件工廠還有很大的改進空間。

在 StrongDM 自己的回顧里,這個決定并不是一時沖動。其背景要追溯到 2024 年末。隨著 Claude 3.5 在 2024 年 10 月的第二次修訂發(fā)布,團隊開始觀察到一個此前并不常見的變化:在長時序的 Agentic 編程任務中,結果開始疊加正確性,而不再只是不斷疊加錯誤。


到了 2024 年 12 月,這一變化已經可以通過 Cursor 的 YOLO 模式清晰地觀察到。

StrongDM 在博客中寫道,在此之前,將 LLM 反復用于編碼任務,往往會累積誤解、幻覺、語法錯誤、依賴不兼容等問題,最終讓系統(tǒng)“慢慢壞掉”;而結合 YOLO 模式,Anthropic 的更新模型第一次展現出他們后來在內部稱之為“非交互式開發(fā)”或“成長型軟件”的雛形。

在這樣的背景下,新成立的團隊從一開始就確立了一條極端的實驗前提:不允許任何手寫代碼。在 2025 年 7 月,這聽起來依然相當激進。

其中最耐人尋味的,是第二條規(guī)則:代碼不得由人類審查。畢竟大家都很清楚,大語言模型極其容易犯下一些“非人類式”的錯誤;在這樣的前提下,徹底放棄人工 code review,本身就顯得反直覺。

更何況,安全軟件向來是最不愿意交給“未經人工審查的 LLM 代碼”去支撐的一類系統(tǒng)。



規(guī)則落地后,問題也隨之出現:如果什么都不手寫,怎么確保代碼真的能跑?讓 Agent 自己寫測試,只在一個前提下有用——它們不會“作弊”,比如直接寫個 assert true。

這也迅速被他們提煉成一個更根本的問題:當實現和測試都由編碼 Agent 生成時,你要如何證明自己交付的軟件是可工作的?StrongDM 的答案,受到了場景測試(Scenario Testing,Cem Kaner,2003) 的啟發(fā)。他們是這樣描述的:

我們重新定義了“場景(scenario)”這個詞,用它來表示一個端到端的“用戶故事”。這些場景通常存放在代碼庫之外(類似模型訓練中的“留出集”),既能被 LLM 直觀理解,又可以靈活地進行驗證。

由于他們構建的軟件本身往往就包含 Agentic 組件,StrongDM 也隨之放棄了“測試全綠”這種布爾式成功定義,轉而采用一種更接近真實體驗的度量方式。他們引入了“滿意度(satisfaction)”這個概念,用來量化驗證結果:在所有場景中觀察到的執(zhí)行軌跡里,有多大比例可能令用戶滿意?

他們把這些場景當作“隔離集”,不存放在編碼 Agent 能直接訪問的地方,用來評估系統(tǒng)整體行為。這個設計本身就很有意思,它在某種程度上,模擬的是傳統(tǒng)軟件工程中一種極其昂貴、但也極其有效的做法——由外部 QA 團隊執(zhí)行的強力端到端測試。


合成場景策劃與塑造界面

從軟件工廠的整體原則來看,StrongDM 把這一切總結為一條清晰的流程:“種子 → 驗證 → 反饋回路”。系統(tǒng)先接收一個最小起點——幾句話、截圖,或一個已有代碼庫;然后在盡量貼近真實世界的驗證環(huán)境中跑場景,把輸出持續(xù)反饋回輸入,讓系統(tǒng)在閉環(huán)中自我糾錯、不斷疊加正確性;循環(huán)會一直運行,直到所有被隔離出來的場景不僅通過,而且能持續(xù)通過。token 被他們形容為這條生產線的燃料。


將“驗收”交給 spec?

在 StrongDM 的軟件工廠里,spec 并不是用來給人看的設計說明書,而是整個系統(tǒng)能夠啟動、糾偏和收斂的核心輸入。

在傳統(tǒng)開發(fā)流程中,spec 更多是一種“對齊工具”:它幫助工程師理解要做什么,但真正的實現細節(jié)、權衡和妥協(xié),往往發(fā)生在代碼和 code review 過程中。而在 StrongDM 的設定下,當“人不寫代碼、人不看代碼”成為前提,spec 的角色被徹底前移——它不再是參考材料,而是事實上的控制面。


團隊要求系統(tǒng)能夠“從層層遞進的自然語言規(guī)范中生長”,并且必須能夠在“不對源代碼做語義層面檢查的情況下完成驗證”。在這種設定下,“驗收”本身也被重寫了。spec 與場景(scenario)一起,構成一個不斷運行的評測基準:模型生成的行為是否符合規(guī)范,不是靠人去讀代碼判斷,而是靠它在這些場景中跑出來的結果是否持續(xù)滿足預期。



換句話說,StrongDM 的方法把覆蓋率從“人為寫了多少測試”這一維度轉向了“規(guī)范 / 場景是否足夠多與足夠準確”+“驗證生態(tài)能否在閉環(huán)中捕獲異常”這一維度。

基于這一理念,StrongDM 還進一步提出了他們的另一個關鍵概念:數字孿生宇宙(Digital Twin Universe, DTU)。

StrongDM 的定義是:數字孿生宇宙是一組對第三方服務的行為級克隆體。他們構建了 Okta、Jira、Slack、Google Docs、Google Drive 和 Google Sheets 的孿生系統(tǒng),復刻這些服務的 API、邊界情況以及可觀察到的行為。


有了 DTU,他們就能在遠超生產環(huán)境限制的規(guī)模和速率下做驗證:既能測試那些在真實服務上危險、甚至根本不可能嘗試的失敗模式,也能每小時運行成千上萬個場景,而不必擔心觸及限流、觸發(fā)濫用檢測,或累積 API 成本。

那這些 Okta、Jira、Slack 的關鍵行為是怎么“克隆”出來的?答案是:用編碼 Agent。



有人將這套做法概括為一條可復用流水線:把某個服務的完整公開 API 文檔直接喂進 Agent harness,讓它生成一個自包含的 Go 二進制程序去模擬這些 API;然后在此基礎上再快速搭一個簡化 UI,方便把整套仿真跑通、跑順。

隨后,DTU 的創(chuàng)建者 Jay Taylor 在 Hacker News 上補充了一些背景,分享了一條關鍵的提示策略:

我最初有一個關鍵洞察,最終形成了一套可重復的方法,用來確保 DTU 與官方 SaaS 服務之間具有高度一致性:以最流行、公開可用的官方 SDK 客戶端庫作為兼容性目標,始終追求 100% 兼容。

當這些不受限流和配額約束的服務克隆體跑起來后,一整支“模擬測試 Agent”隊伍也就能徹底放開手腳。場景測試不再是一錘子買賣的驗收環(huán)節(jié),而是變成了 Agent 會反復、持續(xù)執(zhí)行的腳本:系統(tǒng)一邊搭建,一邊就被不停拉出來跑場景、做驗證。

他們的 Slack 孿生系統(tǒng)截圖也直觀展示了這種測試方式:一批模擬的 Okta 用戶不斷出現,并分別去申請訪問不同的模擬系統(tǒng)。


問題依然是:太燒錢了?

在驚艷之外,這次實驗也迅速暴露出一個無法回避的現實問題:成本。

在 Hacker News 的實操反饋中,有開發(fā)者提到,按照 StrongDM 提供的 spec,讓 Claude 構建完整應用時,TypeScript 路線的 token 消耗極高,不得不中途給賬戶充值,才能在一個晚上把流程跑完。他甚至計劃改用 Rust 或 Go 再試一次,只是為了看看是否能把成本壓下來。

這個反饋并非個例,也不是枝節(jié)問題。StrongDM 團隊在內部曾提出過一個頗具沖擊力的衡量標準:如果你今天在每位人類工程師身上花費的 token 成本還不到 1000 美元,那么你的軟件工廠還有很大的改進空間。

這句話一旦落到現實,就更像是一個商業(yè)模式的探討:你能否打造出一條足夠盈利的產品線,從而負擔得起以這種方式開發(fā)軟件所帶來的巨大成本?當任何競爭對手只需幾個小時的編碼代理工作就能克隆你的最新功能時,構建可持續(xù)的軟件業(yè)務也變得截然不同。

另外,正如 StrongDM 團隊在回顧中所說,其實這一切技術上是可行的,只是以前從經濟上來說不劃算:

“構建一個高保真 SaaS 應用的克隆在技術上一直可行,但在經濟上從未現實過。幾代工程師都可能想過,做一個完整、內存級的 CRM 副本來測試,但最終往往會在心里把這個提案按下去——‘算了,太不劃算了’。

即使對于那些不打算在 token 成本上一次性投入數千美元的團隊和個人來說,StrongDM 這種做法依然有很多值得思考的地方,尤其是在人力成本和個人投入回報這一層面。對程序員個人而言,真正的問題或許不只是“現在貴不貴”,而是:當算力成本持續(xù)下降幾乎成為共識時,你是否已經開始為新的角色和分工做技能投資——還是仍然把全部價值押在“寫代碼本身”上。


這是個很有意思的觀點,不過我想從另一個角度補充一下:如果按每個月 20 個工作日來算,那就是 2 萬 × 12 = 24 萬美元一年,差不多等于一個 FANG 新畢業(yè)生的總包(TC)。我和不少初級到中初級的軟件工程師(SDE)共事過,說實話,其中 80% 的表現并不比 Claude 好。(我也見過一些 staff 級別的工程師寫出的代碼比 AI 還差,但他們通常會用領域知識和技術負責人職責把短板補回來。) 我確實看到,AI 正在把軟件工程進一步推向一種 金字塔結構:頂層只有極少數人類,其余大量工作由 AI 承擔。


雖然從按現在的成本算,AI“還沒便宜到值得完全替代人”,但有網友認為成本下降也許能夠預期:“我在想,這會不會只是軟件工廠還處在非常早期、效率極低階段的副產品。Yegge 和 Huntley 都承認,他們在做的自治工廠實驗既昂貴又浪費。從制造業(yè)的歷史經驗來看,我反而會預期:隨著方法逐漸成熟、流程被不斷優(yōu)化,成本會慢慢降下來。”

而在博客中的最后,他們給出的結論,也為這條實驗線畫上了一個頗具警示意義的注腳:“我們這些構建軟件工廠的人,必須刻意保持一種天真:主動識別并移除軟件 1.0 時代留下的習慣、慣例和限制。數字孿生宇宙(DTU)就是最好的證明——六個月前還不可想象的事情,如今已經成了日常?!?/p>

https://factory.strongdm.ai/

https://simonwillison.net/2026/Feb/7/software-factory/

https://news.ycombinator.com/item?id=46924426

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業(yè)落地,從技術前沿到行業(yè)應用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業(yè)落地痛點,探索前沿領域、聚焦產業(yè)賦能,獲取實戰(zhàn)落地方案與前瞻產業(yè)洞察,高效實現技術價值轉化。把握行業(yè)變革關鍵節(jié)點,搶占 2026 智能升級發(fā)展先機!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
從康波周期來看,2026年處于什么階段?

從康波周期來看,2026年處于什么階段?

楓冷慕詩
2026-02-05 13:35:30
上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

上海著名主持人直播中淚目!中東戰(zhàn)火下,有人平安返航、有人新婚分離、有人只想回家

新民晚報
2026-03-02 14:52:26
剛剛發(fā)布的iPhone 17e,價格太良心了!

剛剛發(fā)布的iPhone 17e,價格太良心了!

機智貓
2026-03-02 23:46:07
印度公司欺騙中國,轉賣稀土給美國雷神造導彈,阿三既蠢又邪惡

印度公司欺騙中國,轉賣稀土給美國雷神造導彈,阿三既蠢又邪惡

我心縱橫天地間
2026-01-29 21:09:12
突發(fā)!李雨桐實名開撕薛之謙,劇情反轉比翻書還快,結局全網傻眼

突發(fā)!李雨桐實名開撕薛之謙,劇情反轉比翻書還快,結局全網傻眼

阿廢冷眼觀察所
2026-03-03 07:19:00
誰能想到她已經62了,說18都有人信,怎么做到這么好的狀態(tài)的

誰能想到她已經62了,說18都有人信,怎么做到這么好的狀態(tài)的

白宸侃片
2026-02-11 11:56:19
汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

汪小菲沒想到,小兒子才生7天,S家汪家“兩重天”,王思聰沒說錯

千言娛樂記
2026-03-02 21:47:06
鴻蒙智行處罰違規(guī)營銷門店

鴻蒙智行處罰違規(guī)營銷門店

每日經濟新聞
2026-03-02 17:08:50
27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

27天入賬330萬,趙心童和女友林薇的“頂配愛情”沖上熱搜

科學發(fā)掘
2026-03-02 16:46:08
13勝2平!亞足聯(lián)確認 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

13勝2平!亞足聯(lián)確認 中國女足創(chuàng)36年神跡 今日亞洲杯首秀保底5-0

侃球熊弟
2026-03-03 00:10:03
2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

2歲的兒媳婦自己找上門!驚呆了!生活里那些驚人的巧合

另子維愛讀史
2026-02-05 23:23:06
不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

不拼GDP、不炫富,浙江第二有錢的城市,吊打眾多省會

毒sir財經
2026-03-02 21:00:47
1991 年,鄧小平特派代表赴美團聚張學良,邀他重返故土,張學良回應:“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團聚張學良,邀他重返故土,張學良回應:“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
凌晨!河北突發(fā)地震!

凌晨!河北突發(fā)地震!

新牛城
2026-03-03 09:29:46
三十年后小孩終于認慫:行行行,《拳皇97》我打不過你們

三十年后小孩終于認慫:行行行,《拳皇97》我打不過你們

街機時代
2026-03-02 18:00:03
離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

離譜!一男子存500萬一年定期,利息151000。到期取錢,工作人員卻說,存單是假的!男子怒了直接告上法院!

上海約飯局
2025-12-02 18:47:01
伊朗吃肉的時候,對中國防得嚴嚴實實,生怕中國占一點便宜

伊朗吃肉的時候,對中國防得嚴嚴實實,生怕中國占一點便宜

百態(tài)人間
2026-02-24 15:37:37
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
特朗普列四大目標:戰(zhàn)爭恐拖更久,不排除派地面部隊

特朗普列四大目標:戰(zhàn)爭恐拖更久,不排除派地面部隊

觀察者網
2026-03-03 08:22:01
香港中聯(lián)辦原副主任祁斌,新職明確

香港中聯(lián)辦原副主任祁斌,新職明確

觀察者網
2026-03-02 21:29:04
2026-03-03 10:24:49
InfoQ incentive-icons
InfoQ
有內容的技術社區(qū)媒體
12096文章數 51783關注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級A19芯片

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

頭條要聞

牛彈琴:多國對轟炸保持沉默 西班牙首相確實是條漢子

體育要聞

伯納烏8萬人暴怒!高呼78歲老佛爺下課

娛樂要聞

李亞鵬與哥哥和解 只有一條真心話短信

財經要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗

態(tài)度原創(chuàng)

親子
教育
游戲
本地
時尚

親子要聞

孕吐是胎兒的自我保護?孕吐越嚴重,孩子越聰明?聽專家怎么說

教育要聞

內蒙古教育反腐風暴!千余人被處分后如何重建公平?

Xbox發(fā)彩蛋暗示《賽博朋克2077》將加入XGP!?

本地新聞

津南好·四時總相宜

普通人穿衣真的很簡單!單品選對、搭配合理,大方舒適又得體

無障礙瀏覽 進入關懷版