原文標題:Meta-Meta-Prompting:使 AI 代理工作的秘密
原文作者:Garry Tan
編譯:Peggy
編者按:當多數人還將 AI 視為一種更智能的聊天視窗時,Y Combinator 現任 CEO Garry Tan 已經在嘗試將其改造為一套個人作業系統。
AI 時代個人生產力的基礎結構正在發生變化:模型只是引擎,真正產生複利的,是圍繞個人知識、工作流、上下文和判斷力構建起來的一整套系統。
在這套系統裡,每一次會議、每一本書、每一封郵件、每一個人脈關係,都不再是孤立信息,而會被持續寫入一個結構化的「第二大腦」;每一個重複出現的任務,也不再依賴臨時 prompt,而會被抽象成可重用的 skill,並在後續工作中不斷迭代。換句話說,AI 不只是幫人完成任務,而是在幫助個人把自己的工作方式產品化、系統化、基礎設施化。
更值得關注的是,作者提出了一種與中心化 AI 工具不同的個人路徑:未來的競爭力,可能不只屬於會使用 AI 的人,而屬於那些能圍繞自己真實生活和工作,訓練出一套複利型 AI 系統的人。聊天機器人給出答案,搜索引擎提供信息,而真正的個人 AI 系統,則會記住你的背景、理解你的語境、繼承你的判斷,並在每一次使用中變得更強。
這也是本文最有啟發性的地方:AI 的價值,不在於一次性生成了什麼,而在於它能否成為一個持續積累、持續連接、持續改進的神經系統。對於個人而言,這或許才是「AI 原生工作方式」的真正起點。
以下為原文:
人們總問我,為什麼我會把晚上都花在寫程式碼上,一直寫到凌晨 2 點。我有一份工作,而且是一份很重的工作——我是 Y Combinator 的 CEO。我們每年幫助成千上萬的創業者去實現他們的夢想:創辦真正有收入、真正高速增長的初創公司。
過去 5 個月裡,AI 讓我重新變回了一個 builder。去年年底,工具已經好到足以讓我重新開始動手構建。不是玩具項目,而是真正能夠複利增長的系統。我想用具體例子告訴你,當你不再把個人 AI 當作一個聊天視窗,而是把它當作一個作業系統時,它到底會是什麼樣子。我把這些東西開源出來,並寫成這樣的文章,是因為我希望你也能和我一起提速。
這是一個系列的一部分:《Fat Skills, Fat Code, Thin Harness》介紹了核心架構;《Resolvers》講的是智能的路由表;《The LOC Controversy》討論的是每個技術人如何把自己放大 100 倍到 1000 倍;《Naked models are stupider》提出,模型只是引擎,不是整輛車;而《skillify manifesto》則解釋了為什麼 LangChain 融資 1.6 億美元,卻給了你一套深蹲架和啞鈴,卻沒有訓練計劃,而這篇文章則給了你真正需要的那份訓練計劃。
上個月,我在讀 Pema Chödrön 的《When Things Fall Apart》。這本書一共 162 頁、22 章,講的是佛教如何看待痛苦、無根感和放下。一個朋友在我經歷一段艱難時期時向我推薦了它。
我讓我的 AI 做了一次「書籍鏡像」(book mirror)。
具體來說,這意味著:系統提取了這本書全部 22 章的內容,然後針對每一章運行一個子 agent,同時完成兩件事:總結作者的思想,並把每一個觀點映射到我的真實生活中。
不是那種泛泛而談的「這對領導者也適用」的空話,而是非常具體的映射。它知道我的家庭背景:移民父母,父親來自香港和新加坡,母親來自緬甸。它知道我的職業語境:我在管理 YC,構建開源工具,指導成千上萬名創始人。它知道我最近在讀什麼、凌晨 2 點在想什麼、我和治療師正在處理哪些問題。
最終輸出是一篇 3 萬字的「腦頁」(brain page)。每一章都被呈現為兩欄:一欄是 Pema 在說什麼,另一欄是這些內容如何映射到我正在真實經歷的事情上。講「無根感」的那一章,連接到了我前一周和某位創始人的一次具體談話;講「恐懼」的那一章,映射到了我的治療師曾指出過的一些行為模式;講「放下」的那一章,則引用了我某個深夜寫下的內容——關於我今年找到的那種創作自由。
整個過程大約花了 40 分鐘。一個時薪 300 美元的治療師,即便讀完這本書並把它應用到我的人生中,也不可能在 40 個小時內做到這一點。因為他們並沒有完整加載並可交叉引用我的職業語境、閱讀歷史、會議筆記和創始人關係網絡。
到目前為止,我已經用這種方式處理了 20 多本書:《Amplified》(Dion Lim)、《羅素自傳》、《Designing Your Life》、《天才兒童的悲劇》、《有限與無限的遊戲》、《海的禮物》(Lindbergh)、《悉達多》(黑塞)、《荒原狼》(黑塞)、《The Art of Doing Science and Engineering》(Hamming)、《The Dream Machine》、《The Book on the Taboo Against Knowing Who You Are》(Alan Watts)、《What Do You Care What Other People Think?》(Feynman)、《When Things Fall Apart》(Pema Chödrön)、《A Brief History of Everything》(Ken Wilber),等等。
每一本書都會讓這個「大腦」變得更豐富。第二次鏡像知道第一次的內容,第二十次鏡像則知道前十九次的全部內容。
我第一次做 book mirror 時,效果非常糟糕。
第一個版本裡,有三處關於我家庭的事實錯誤。它說我父母離婚了,但事實並非如此;還說我在香港長大,但我其實出生在加拿大。這些都是基礎錯誤,如果我把結果分享出去,很可能會破壞信任。
所以我加入了一個強制性的事實核查步驟。現在,每一次 mirror 在交付之前,都會針對大腦中已知事實進行跨模態評估。Opus 4.7 1M 會抓精確性錯誤;GPT-5.5 會發現缺失的上下文;DeepSeek V4-Pro 則會判斷某些內容是不是讀起來太泛泛而談。
後來,我又把它升級為基於 GBrain 工具調用的深度檢索。最初的版本擅長綜合,但在具體性上很弱。第三版開始進行逐節的大腦搜索。右欄中的每一條內容,都會引用真實存在的 brain page。
當書裡談到如何處理艱難對話時,它不會只是總結一些通用原則。它會調出我和那些正在與聯合創始人經歷艱難對話的創始人的真實會議筆記;或者是我某個星期四和弟弟 James 一起閒聊時冒出的一個想法;又或者是我 19 歲時和大學室友的一段即時通訊聊天記錄。那種感覺非常離奇。
這就是「技能化」(skillification,用 GBrain 裡的 /skillify)在實踐中的含義。我把第一次手動嘗試提煉成一個可重複的模式,寫成一個經過測試的 skill 檔案,裡面包含觸發條件和邊界情況。此後,每一次修復都會在所有未來的 book mirror 中繼續複利。
真正遞迴的地方來了,我認為這也是其中最大的洞見。
支撐我日常生活的系統,並不是以一個龐大單體的形式出現的。它是由一個個技能組裝起來的。而這些技能本身,又是由另一個技能創造出來的。
Skillify 是一個「元技能」——一個用來創造新技能的技能。每當我遇到一個未來會反覆執行的工作流時,我就會說:「把這個技能化。」然後它會回看剛才發生了什麼,提取出其中可重複的模式,寫成一個經過測試的 skill 檔案,包含觸發條件和邊界情況,並把它註冊到 resolver 裡。
前面提到的 book-mirror 流水線,就是從我第一次手動完成這個流程之後被技能化出來的。meeting-prep 工作流也是如此:當我意識到自己每次通話前都在做相同步驟時,就把它技能化了。
技能可以組合。Book-mirror 會調用 brain-ops 做存儲,調用 enrich 補充上下文,調用 cross-modal-eval 做質量評估,調用 pdf-generation 輸出結果。每個技能只專注於一件事,但它們可以串聯起來,形成複雜的工作流。
當我改進其中一個技能時,所有使用這個技能的工作流都會自動變得更好。不再有那種「我忘了在 prompt 裡提到這個邊界情況」的問題。技能會記住。
Demis Hassabis 來 YC 做了一場爐邊談話。Sebastian Mallaby 關於他的傳記剛剛出版。
我讓系統幫我做準備。
不到兩分鐘,它就拉取出了:Demis 的完整 brain page——這頁內容已經從文章、播客轉錄稿和我自己的筆記中持續積累了幾個月;他公開表達過的關於 AGI 時間線的看法,比如「50% 靠規模擴展,50% 靠創新」,以及他認為 AGI 還需要 5 到 10 年;Mallaby 傳記中的重點內容;他明確提到過的研究優先級,包括持續學習、世界模型和長期記憶;他和我公開談過的 AI 觀點之間的交叉引用;三個用於在談話中展示這個「大腦」多跳推理能力的演示腳本;以及一組基於我們世界觀重疊和分歧之處設計的對話切入點。
這不只是一次更好的 Google 搜尋。它是一種基於上下文的準備:系統不僅使用了我長期積累的關於 Demis 的資訊,也結合了我自己的立場,以及這場對話的戰略目標。
它準備的不只是事實,而是角度。
我維護著一個結構化知識庫,大約有 10 萬頁。
我遇到的每個人,都會有一個頁面,裡面包括時間線、狀態欄——也就是目前真實情況、尚未結束的線索,以及一個評分。每一場會議都會有轉錄稿、結構化摘要,以及一個我稱為「實體傳播」(entity propagation)的流程:每次會議結束後,系統都會遍歷會議中提到的每個人和每家公司,並用這次討論的內容更新他們對應的 brain page。
我讀過的每一本書,都會得到一份逐章 book mirror。我接觸過的每篇文章、每期播客、每個視頻,都會被攝入、打標籤,並建立交叉引用。
這個 schema 很簡單。每個頁面都有三部分:最上方是「編譯後的真相」——也就是目前最好的理解;下方是只追加不修改的時間線,按時間順序記錄事件;旁邊則是原始數據 sidecar,用來存放來源材料。
你可以把它想象成一個個人版維基百科。每個頁面都由一個 AI 持續更新,而這個 AI 參加了會議、讀了郵件、看了演講,也消化了 PDF。
這裡有一個例子,可以說明這種系統是如何複利的。
我在 office hours 見了一位創始人。系統會創建或更新他的個人頁面、公司頁面,交叉引用會議筆記,檢查我之前是否見過他——如果見過,就浮現出上次我們談了什麼;它會檢查他的申請資料,拉取最新指標,並識別我的投資組合公司或聯繫人中,是否有人能幫到他正在處理的問題。
等我下一次走進和他的會議時,系統已經準備好了一整套上下文包。
這就是「檔案櫃」和「神經系統」之間的區別。檔案櫃只是儲存東西;神經系統會把它們連接起來,標記發生了什麼變化,並在當下浮現出最相關的信息。
它的工作方式是這樣的。我認為,這是構建個人 AI 的正確路徑,所以我把整套東西都開源了,你也可以自己搭建。
Harness 很薄。OpenClaw 是運行時。它接收我的消息,判斷適用哪個技能,然後進行分發。只有幾千行路由邏輯。它並不了解書、會議或創始人,它只是負責路由。
Skills 很厚。現在已經有 100 多個技能,每個都是一個自包含的 markdown 檔案,裡面為某個具體任務寫了詳細說明。前面你已經看到了 book-mirror 和 meeting-prep。下面是 GBrain 裡自帶的另外幾個技能:
meeting-ingestion:每次會議結束後,它會拉取轉錄稿,生成結構化摘要,然後遍歷會議中提到的每個人和每家公司,用討論內容更新他們的 brain page。會議頁面本身不是最終產品,真正的價值在於把這些信息傳播回每個人和每家公司頁面。
enrich:給它一個人的名字。它會從五個不同來源拉取信息,將所有內容合併成一個 brain page,包括職業軌跡、聯絡方式、會議歷史和關係上下文。每一個判斷都有來源引用。
media-ingest:處理視頻、音頻、PDF、截圖和 GitHub repo。它會轉錄內容、提取實體,並把材料歸檔到正確的大腦位置。我經常用它處理 YouTube 視頻、播客和語音備忘錄。
perplexity-research:這是帶有大腦增強能力的網路研究。它通過 Perplexity 搜索網頁,但在綜合之前,會先檢查大腦裡已經知道什麼,從而告訴你哪些信息是真正新的,哪些是你已經捕捉過的。
我還為自己的工作構建了幾十個技能,之後大概率也會開源:email-triage、investor-update-ingest——它可以識別我郵箱裡的投資組合更新,並把指標提取到公司頁面裡;calendar-check——用於檢測日程衝突和不可能完成的出行安排;還有一整套我用於公共事務工作的新聞研究棧。
每個技能都編碼了一種運營知識,而這些知識如果交給一位新人類助理,可能需要幾個月才能學會。有人問我如何「提示」我的 AI。答案是:我不提示。技能本身就是 prompt。
資料非常龐大。我的大腦存儲庫中擁有 10 萬頁結構化知識。我接觸過的每個人、每家公司、每場會議、每本書、每篇文章、每個想法,都被連接起來,可搜索,並且每天都在增長。
程式碼也非常龐大。供應給它的程式碼也非常重要:轉錄、OCR、社交媒體存檔、日曆同步、API 整合的腳本。但複利價值真正沉澱的地方,是資料。
我每天運行 100 多個 cron 任務,檢查所有我關注的事物:社交媒體、Slack、郵件,以及其他任何我會留意的資訊。我的 OpenClaw/Hermes Agents 也會替我看這些事物。
模型是可以替換的。為了精確性,我用 Opus 4.7 1M;為了召回和盡情提取,我用 GPT-5.5;為了創意工作和第三視角,我用 DeepSeek V4-Pro;為了速度,我用 Groq 加 Llama。由技能決定哪個任務調用哪個模型。Harness 並不在乎。
當有人問「哪個 AI 模型最好」時,答案是:你問錯問題了。模型只是引擎,除此之外的所有部分,才是整輛車。
人們問我關於生產力的問題。但我並不是這樣思考的。
我思考的是複利。
我參加的每一場會議,都會為這個大腦增加內容。我讀的每一本書,都會為下一本書豐富上下文。我構建的每一個技能,都會讓下一個工作流更快。我更新的每一個人物頁面,都會讓下一次會議準備更鋒利。
今天這個系統,已經是兩個月前的 10 倍。再過兩個月,它又會再變成現在的 10 倍。
當我凌晨 2 點還在寫程式碼時——而且我確實經常如此,因為 AI 讓我重新找回了構建的快樂——我不只是在寫軟體。我是在給一個每小時都會變得更好的系統增加能力。
100 個 cronjob 全天候運行。會議攝入自動執行。郵件分診每 10 分鐘跑一次。知識圖譜會從每一次對話中自我豐富。系統會處理每天的轉錄稿,並實時提取那些我沒注意到的模式。
這不是一個寫作工具,也不是搜尋引擎,更不是聊天機器人。
這是一個真正可運行的第二大腦。它不是隱喻,而是一個正在運行的系統:10 萬頁內容、100 多個技能、15 個 cron job,以及過去一年中我參與過的每一段職業關係、每一場會議、每一本書和每一個想法所積累的上下文。
我把整套技術棧都開源了。GStack 是一個編碼技能框架,已經有 8.7 萬多個 star,我就是用它構建了這個系統。當 agent 需要寫程式碼時,我仍然會把它作為 OpenClaw/Hermes Agent 裡的一個技能來使用。裡面還有一個很棒的可編程瀏覽器,既支持有頭模式,也支持無頭模式。
GBrain 是知識基礎設施。OpenClaw 和 Hermes Agent 是 harness,你可以二選一,但我通常兩個都會用。數據 repo 也都在 GitHub 上。
核心判斷很簡單:未來屬於那些能構建複利型 AI 系統的個體,而不是那些只會使用企業擁有的中心化 AI 工具的個體。
這兩者之間的差別,就像寫日記和擁有一個神經系統之間的差別。
如果你也想構建這樣一套系統:
先選一個 harness。可以用 OpenClaw、Hermes Agent,也可以基於 Pi 從零搭一個。關鍵是保持輕量。Harness 只是路由器。你可以把它部署在家裡閒置的電腦上,用 Tailscale 訪問;也可以放到 Render 或 Railway 這樣的雲服務上。
然後用 GBrain 建一個「大腦」。我最初受到 Karpathy 的 LLM Wiki 啟發,在 OpenClaw 裡實現了它,後來又把它擴展成了 GBrain。它是我測試過的最好的檢索系統:在 LongMemEval 上達到 97.6% 的召回率,在檢索環節不調用 LLM 的情況下超越了 MemPalace。它自帶 39 個可安裝技能,包括本文中提到的所有內容。只需要一條命令就能安裝。你會得到一個 git repo,裡面每個人、每場會議、每篇文章、每個想法都會有自己的頁面。
接著,去做一件真正有趣的事情。不要一開始就規劃你的技能架構。先去完成一個具體任務:寫一份報告,研究一個人,下載一個賽季的 NBA 比分並為你的體育投注建立預測模型,分析你的投資組合,或者做任何你真正關心的事情。用你的 agent 去做,持續迭代,直到結果足夠好,然後運行 Skillify——也就是前面提到的那個元技能——把其中的模式提取成一個可重複使用技能。再運行 check_resolvable,確認這個新技能已經接入 resolver。這個循環會把一次性的工作,變成可以持續複利的基礎設施。
繼續使用它,並認真查看輸出。這個技能一開始一定會很普通。這正是重點。使用它,閱讀它生成的內容,當你發現哪裡不對時,就運行 cross-modal eval:把輸出交給多個模型,讓它們根據你關心的維度相互打分。這就是我當初發現 book-mirror 事實錯誤的方法。修復被寫進了技能裡,從那以後,每一次 mirror 都變得更乾淨了。
六個月後,你會擁有一個任何聊天機器人都無法複製的東西。因為真正的價值不在模型本身,而在於你教會了這個系統理解你的具體生活、工作和判斷方式。
我用這套系統做出來的第一個東西非常糟糕。到第一百個時,它已經是一個我敢託付日曆、收件匣、會議準備和閱讀清單的系統。系統在學習,我也在學習。複利曲線是真實存在的。
厚技能,厚代碼,薄 harness。LLM 本身只是一台引擎。你完全可以造出自己的車。
我在這裡描述的一切——所有技能、book mirror 流水線、cross-modal eval 框架、skillify 循環、resolver 架構,以及 30 多個可安裝的 skillpack——都已經開源,並免費放在 GitHub 上。
去構建吧。
[原文連結]
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia