當有公司宣稱 90% 的上線程式由 AI 寫成、頂尖工程師單人產出抵得上 20 人團隊,「軟體工廠」就不再是名詞遊戲。它是一套把寫程式從「手工」變成「產線」的運作方式——而多數公司離真正的工廠還很遠。
軟體工廠不是「工程師用 AI 寫快一點」,而是一條 agent 負責寫、審、測、出貨 的產線,人類從「做工」升級為「設計這條線」。別再炫耀「AI 寫了幾 % 的程式」——真正的問題是:你的產線有多少步驟,已經沒有人在裡面了?
把行話拿掉,定義很簡單:一個工程組織,建構軟體的方式從「手工藝」轉向「生產線」。
人坐下來、一行一行親手寫程式。像是一次手工打造一台訂製車:靈活,但慢、不穩定。產能取決於你能請到幾個厲害的人、他們打字多快。多數情境是量身訂做,而且大部分脈絡只活在人的腦袋裡。
工作被工業化。像現代汽車組裝廠:更快、更可靠、可擴張,但需要先期投入流程與工具。有一條可重複的線(寫 → 審 → 測 → 部署 → 監控),軟體用標準化步驟通過它,搭配自動化品質檢查,盡量減少人工。人類設計這條線、處理例外,重複的事交給機器。
「程式不得由人類撰寫。」
「程式不得由人類審查。」
聽起來很瘋,但這正是重點(Simon Willison 寫過)。工廠不是「人類靠 AI 寫更快」,而是一套讓人類往上移一層的系統——從「動手做」變成「指揮」。
三件事同時發生。先看那些讓人沒辦法再唱反調的數字——
Ryan Carson 經營他口中的「Code Factory」:agent 寫程式、審查、跑測試、分類錯誤、看著 production,而他只負責設護欄。基本上是一人軟體公司。再加上 Anthropic、Google、OpenAI 的數字,這已經不是 demo。
Microsoft 開始把「Agent Factory」當成軟體被建構的新方式來推。Chamath 常談他在 8090 蓋的 Software Factory。Garry Tan 用 GStack、GBrain 切入這個概念。當巨頭採用同一套語言,它就會快速主流化。
「我們 X% 的程式由 AI 寫」成了 CEO 用來暗示自己領先的方式。這其實不是該拿來炫耀的指標——但它確實替「agentic engineering」這個題目帶來了關注。
要蓋一座軟體工廠,先得知道自己站在哪一級。五級,0 到 4,一分鐘內就能定位自己。下面用同一個情境跑完每一級:一位客戶遇到 bug——「下單」按鈕壞了。看著每一級,哪些步驟從「人」變成「AI」。
同一條產線的五個步驟,由誰負責—— 人 · 人+AI · AI
AI 完全缺席。每一步都是人。
完全一樣的步驟、一樣的人,差別只在工程師用 AI copilot 寫得快一點。產能上升,但流程沒變——人仍然「做」並「把關」每一步。
工程師把 bug 交給 agent。Agent 自己寫修復、自己開 PR。但每個 PR 合併前仍要人讀、人核准。槓桿是真的——但人類還是所有事情的閘門。因為產出大增,會讓人誤以為已經很先進。
一個 agent 監控 production、抓到錯誤、分類它。一個 coding agent 寫修復,第二個 agent 審查,測試自動跑。若是低風險且全部通過,就直接出貨——這個 bug 全程沒有人在迴圈裡。人類設護欄(「通過測試與審查的低風險修復自動合併;碰到金流的一律升級」),只在有風險時被拉進來。這是 Carson 的 Code Factory,是 StrongDM。
那個 bug 被抓到、修好、審查、測試、上線——團隊裡還沒人知道它發生過。人類不在看產線,他們在決定產品接下來該變成什麼。幾乎沒有人真正在 L4,但這是整個產業指向的方向。
先做這份 60 秒自評,再對照下面 Lieberman 的完整提問清單。
1. 修 bug 或做小功能時,第一版是誰寫的?
2. Agent 能不能自己開一個 PR?
3. 有沒有規則,讓「低風險變更」不經過人就自動上線?
4. Production 出錯時,先發現的是人還是系統?是誰 triage?
5. 有沒有可能——沒有任何人按啟動鍵,整條線自己跑完?
一次只移除一個步驟裡的人,而且只在你的安全網(測試、版本控制、內部平台)撐得住的速度下移除。
這一跳主要是組織問題,不是技術問題。給每個工程師一個 coding 助手,明確說清楚哪些工具是「核可的」、且鼓勵在真實工作上實驗,並清掉那些悄悄拖住採用的資安與法務阻力。這是最容易的一階,也是多數公司以為自己已經爬過的一階——但沒人打開的授權,仍然是 L0。
前置:清楚的 AI 立場,以及團隊真的被允許在真實 codebase 上用的工具。
現在工程師只是用 AI 打字打更快,這就是天花板。動作是:把一個完整的工作單位交給 agent。挑你測試最完整、風險最低的部分,把一整張 bug ticket 指派給 agent——它寫修復、開 PR,人來審查。對接下來十個 bug 都這樣做。卡點幾乎從來不是技術,而是讓團隊停止親手寫每一行。
前置:清楚、範圍明確的 ticket,加上足夠的測試覆蓋,讓人能快速「信任但驗證」。
現在的限制是你——一個核准每一個 PR 的人。動作是讓低風險變更不經過人就上線。具體做法:寫下你的「低風險」定義(例如不碰金流、認證、資料遷移)、架一個第二 agent 去審查第一個 agent 的工作、要求自動測試套件通過,三者全過就自動合併,其餘升級給人。這是最難的一跳,需要真正的基建。依 DORA,優質的內部平台是「靠 AI 勝出」與「被 AI 埋掉」兩種團隊之間最大的分水嶺。
前置:你真的敢押注的自動測試,以及一個 agent 能接上去的內部平台。
L3 還是人按下啟動鍵;L4 是 agent 盯著 production、抓到 bug、開自己的 ticket、跑完整條線,而人類在決定接下來要做什麼。把這個迴圈關起來,主要靠監控與信任,不是更好的模型。老實說,多數公司不該急著衝這裡——任何碰到信任、金錢、安全的東西,可能很長一段時間都該留一個人在迴圈裡。但你該知道這是前沿移動的方向。
前置:agent 能據以行動的 production 監控,以及你敢放手不看的護欄。
工程只是第一座工廠。Carson 說:「先把你的 Code Factory 架好,因為下一步是 Company Factory。」但不是每個職能都同樣準備好——決定的,是一個主要條件加上幾個次要條件。
Karpathy 講得最好:傳統軟體自動化你能「明確規格」的事;AI 自動化你能「驗證」的事。如果一件任務有自動的成功訊號,機器就能反覆練習,你也能信任它的產出。這正是工程先走的原因——測試要嘛過、要嘛不過,有 ground truth。你叫 agent 修 bug,可以證明它有沒有修好;你叫它給架構建議,沒有訊號,它可能很神,也可能悄悄錯,而你幾個月後才會發現。
把你公司的每個職能丟進這四個條件,它們會自動排到一條光譜上(見下圖)。越靠左,越該先在那裡蓋工廠;越靠右,「對」越主觀、或要很久以後才看得出來,現階段越不適合。
對 GenAI 團隊來說,這張光譜也是「先自動化哪個內部流程」的優先序地圖。
Lieberman 真正會看的短名單。
最清楚的真實案例:一座運作中的 Code Factory。他公開的是實際設定,不是理論。
關於 agentic coding 能做什麼、不能做什麼,最可信、最不灌水的聲音。
OpenClaw 作者,持續推 agentic coding 的邊界。
最會把前沿組織(OpenAI、Anthropic)在做的事,翻譯成商業語言。
你指定的懷疑論者。他會戳破「90% 程式」這類宣稱,讓你保持誠實。
看深層的「為什麼」:哪些工作 AI 能吸收、哪些不能,以及原因。
不是人,但這是關於「哪些團隊靠 AI 勝出、哪些被埋掉」最有實證基礎的一份讀物。
軟體工廠不是「工程師用 AI」,而是一條 agent 寫、審、測、出貨,人類負責設計這條線而非在線上做工的生產線。
別再炫耀「AI 寫了幾 % 的程式」。問真正的問題:你的產線有多少跑起來是沒有人在裡面的?
你靠「一次移除一個步驟裡的人」往上爬,而且只快到你的安全網(測試、版本控制、內部平台)撐得住。工程只是第一座工廠,下一座是任何「可驗證、數位化、可重複、可逆」的職能——在競爭對手之前去找到它。