原文標題:將 50 個弱信號結合成一筆成功交易背後的數學
原文作者:Roan,加密分析師
翻譯、註釋:MrRyanChi,insiders.bot
前言
去年,在就讀特朗普馬斯克母校 @Wharton 的第一週,我和 @DakshBigShit 創立了 @insidersdotbot。得益於沃頓商學院這塊優秀的土壤,以及鄰近紐約的地理優勢,我在四個月內與不少管理著上億美元規模的對沖基金合夥人深入交流過。
隨後,當我返回中國香港全力創業時,insiders.bot 已經嶄露頭角,這讓我也有了與亞洲的量化機構深度交流的機會。
這個過程中,我反覆聽到的一個詞,就是「信號」。
入場信號,出場信號,等等等等。這個過程中:散戶和機構之間最大的差距,不是信息量,不是資金量,而是思維框架。散戶總想找到那個「一招鮮」的完美信號,機構卻在用一套數學引擎把幾十個「不怎麼樣」的信號拧成一根繩。
Binance,OKX,Bitget 等等交易平台旗下的錢包,也早早的加入了各類信號播報內容。
甚至,在 insiders.bot 創立的最早期,我們也是作為「信號機器人」橫空出世的。而我們當時最受歡迎的 v1.2 信號,就是聚合了多個聰明錢信號的信號,收到了不少鏈上大佬的讚賞。預測市場交易者最喜歡的播報系統 @poly_beats,本質上也是信號。
RohOnChain 這篇文章,是我見過把「信號」這套框架講得最清楚的一篇。我花了大量時間改寫、補充、加註釋,就是為了讓你哪怕沒有任何量化背景,也能從頭到尾看懂。
我和一位在系統化交易領域幹了二十年的基金合夥人聊天時,聽到過一句讓我琢磨了好幾個月的話。
那天他坐在我對面,看著我們正在討論的策略,平靜地說:
「你總是在嘗試尋找那個永遠正確的唯一信號。但那個東西根本不存在。真正能贏的交易臺,是那些能將許多個『稍微有點準』的信號正確組合在一起的團隊。」
他描述的這個東西,在量化界有一個 Jargon,一個非常抽象的專有名詞:
Alpha 組合(Alpha Combination)。
這套框架是一道分水嶺。它將那些能持續穩定賺錢的機構,和那些「明明看對了方向卻依然虧錢」的散戶,死死地隔開。
讀完這篇文章,你會明白五件事:
1. 為什麼組合 50 個弱信號,絕對碾壓 1 個強信號?
2. 什麼是「主動管理基本定律」?
3. 機構到底是用哪 11 個步驟,將一堆爛信號變成高勝率策略的?
4. 為什麼你明明看對了方向,最後還是虧了錢?
5. 如何將這套系統完美應用在 Polymarket 上?
如果你真的想建立自己的交易優勢,請不要跳過任何一個章節。這套框架只有當你將五個部分連在一起看時,才會發揮出真正的威力。
順便說一句,這篇文章在結構上也針對 AI Agent 做了優化。歡迎將它餵給你的 Claude、Manus 或者任何一個 AI,然後立即開始搭建你自己的量化模型。
在深入數學之前,我們必須先統一語言:到底什麼是「信號」?
在日常生活中,我們經常說「我感覺這個幣要漲」,或者「我看好特朗普當選」。這叫觀點。觀點是模糊的、主觀的、無法被精確回測的。
但在機構的量化框架裡,信號是一個可測量的、與未來價格或概率變動具有統計學上可重複關係的數據點。
它必須滿足三個條件:
可量化:它必須是一個具體的數字。比如「過去 24 小時交易量放大了 3 倍」,而不是「最近討論的人變多了」。
有方向:它必須能告訴你接下來是漲還是跌,或者概率是變大還是變小。
可重複:它不能是孤立事件,必須在歷史上多次出現,並且每次出現後,市場都有類似的反應。
比如,Binance 上幾個高勝率大戶連續買入,買了多少,就是信號。
比如,我們 @insidersdotbot 的 v1.2 的 Skew(聰明錢看多看空比例),也是信號。
舉個 Polymarket 上的例子:如果一個歷史勝率超過 70% 的聰明錢錢包,突然在某個冷門合約上下注了 5 萬美元。這就是一個極其標準的「微觀結構信號」。它是具體的(5 萬美元)、有方向的(他買的那個選項)、且可重複的(你可以回測他過去所有的下注記錄)。
理解了什麼是信號,我們再來看下一個問題:你的信號到底有多準?
每一個做過交易的人,都經歷過這種時刻:你的分析明明是對的,價格也確實往你預測的方向走了,但你最後還是虧錢了。
這不是運氣問題。當你只依賴單一信號進行交易時,虧錢幾乎是數學上的必然。理解為什麼會這樣,是接下來所有內容的基礎。
在量化研究中,每一個信號都有一個衡量準確度的指標,叫做資訊系數(Information Coefficient,簡稱 IC)。
IC 測量的是你的預測和市場實際走勢之間的相關性。你可以把它理解為你的信號的「成績單」。
那 IC 到底是怎麼算出來的?我們一步一步來看。

第一步,預測。假設今天 Polymarket 上有 20 個活躍的合約。你用你的訊號給這 20 個合約打分排序。你覺得合約 A 最可能漲,排第 1;合約 B 排第 2,以此類推,一直排到第 20。
第二步,等待。 等一天、一週,或者任何你設定的時間窗口,讓市場走勢真正發生。
第三步,對比。時間到了之後,你把這 20 個合約的實際漲跌幅也排一個序。漲最多的排第 1,漲第二多的排第 2,以此類推。
第四步,計算。 現在你手上有兩列排名:一列是你當初的預測排名,一列是實際結果排名。你要算的是這兩列排名之間的相關性。
這裡用到的是統計學中的斯皮爾曼等級相關係數(Spearman Rank Correlation)。
聽起來很嚇人,其實邏輯很簡單:
· 如果你預測排第 1 的合約,實際上也漲得最多;你預測排第 2 的,實際上也排第 2,那你的兩列排名就高度一致,IC 就接近 +1.0。
· 如果完全相反(你說漲最多的反而跌最多),IC 就接近 -1.0。
· 如果毫無關係,IC 就是 0.0,說明你的訊號跟擲骰子沒有區別。

上面這張圖展示了三種不同 IC 水平下,預測排名和實際排名之間的關係。
左邊是 IC 接近 0.9 的情況,點幾乎都落在對角線上,說明預測和實際高度一致。
中間是 IC 在 0.05 到 0.15 之間的情況,點散得到處都是,只有非常微弱的正相關趨勢。
右邊是 IC 等於 0 的情況,完全隨機,沒有任何規律。
為什麼要用排名而不是直接用數值?
因為排名對異常值不敏感。假設某個合約因為黑天鵝事件暴漲了 500%,如果你用數值計算相關性,這一個異常點就會把整個結果帶偏。但如果你用排名,它只是「排第 1」而已,不會對其他合約的排名產生影響。這就是為什麼機構更喜歡用斯皮爾曼而不是皮爾遜相關係數。
在實際操作中,你不會只算一天的 IC。你會重複這個過程很多天(比如 100 天),然後取平均值。這個平均值就是你的信號的平均 IC。
那麼,你猜猜華爾街頂級交易臺,那些用著幾十億真金白銀跑著的信號,IC 是多少?
答案是:0.05 到 0.15 之間。

請你把這個數字再看一遍。機構級別使用的、最頂級的單一信號,在絕大多數時候都是錯的。不是偶爾錯,是大部分時間都在錯。
IC = 0.05 意味著什麼?
它意味著你的信號和市場實際走勢之間只有 5% 的相關性。如果你畫一張散點圖,點幾乎是隨機分佈的,只有非常非常微弱的正向趨勢。
這並不是信號失效了。這是競爭性市場的本質。任何強大的優勢一旦被發現,資金就會瘋狂湧入,直到這個優勢被榨乾、壓縮到極低的水平。在一個高效的市場裡,能穩定維持 0.05 的 IC,已經是非常了不起的成就了。
既然單個信號這麼弱,機構到底是怎麼賺錢的?
1994 年,兩位量化研究先驅 Richard Grinold 和 Ronald Kahn 在他們的著作《Active Portfolio Management》中,提出了一個改變了整個資產管理行業的公式:
IR = IC x √N
這個公式被稱為主動管理基本定律(The Fundamental Law of Active Management)。

所以,這三個字母分別代表什麼?
IR(Information Ratio,資訊比率)是你整個交易系統的「綜合表現」。它衡量的是你每承擔一單位風險,能賺到多少錢。你可以把它想象成一個「性價比」指標。IR 越高,說明你的策略越「穩定」。在量化界,IR 達到 1.0 就已經被認為是頂級水平了。
IC(Information Coefficient,資訊系數) 就是剛才花了一整節講的東西:你單個信號的平均準確度。
N 是你組合的獨立信號的數量。請注意,這裡的「獨立」兩字至關重要。我在第四部分會詳細解釋為什麼。
現在,這個公式的核心信息是:整個系統的表現(IR)等於單個信號的準確度(IC)乘以信號數量的平方根(√N)。
那麼,問題來了。為什麼是平方根?為什麼不是直接乘以 N?這個問題非常關鍵,我來幫你從零推導一遍。
想像你在拋硬幣。每次正面朝上你贏 1 块錢,反面朝上你輸 1 块錢。
如果你只拋 1 次,結果完全是隨機的。你要么贏 1 块,要么輸 1 块。
但如果你拋 100 次呢?你的總收益的期望值是 0(因為正反各 50 次)。但關鍵在於波動率。統計學告訴我們,100 次獨立拋硬幣的總波動率不是 100,而是 √100 = 10。
為什麼?因為獨立的隨機事件疊加在一起時,它們的噪音會互相抵消一部分。正面和反面會交替出現,不會全部朝一個方向走。所以總的波動增長得比總的次數要慢。
現在把這個邏輯套到信號組合上。假設你有 N 個獨立信號,每個信號都有微小的正向優勢(IC 大於 0)。
你的總收益(所有信號的優勢加在一起)會隨著 N 線性增長。因為每多一個信號,就多一份微小的優勢。10 個信號的總優勢是 1 個信號的 10 倍。
但你的總風險(所有信號的噪音疊加在一起)只會隨著 √N 增長。因為獨立的噪音會互相抵消。10 個獨立信號的總噪音不是 1 個信號的 10 倍,而是大約 3.16 倍(√10 ≈ 3.16)。
所以,你的資訊比率 = 總收益 / 總風險 = (IC x N) / (σ x √N) = IC x (N / √N) = IC x √N。
這就是 IR = IC x √N 的由來。

上圖展示了這個關係。綠色的線是總收益,它隨著信號數量線性增長。藍色的線是資訊比率 IR,它隨著 √N 增長。收益在漲,風險也在漲,但收益漲得比風險快。兩條線之間的差距越來越大。這個差距,就是你通過增加獨立信號獲得的交易優勢。
讓我們來算一筆具體的帳,感受一下這個公式的威力。
· 場景 A:你有 50 個弱信號。每個信號都非常弱,IC 只有 0.05。那麼你組合後的系統 IR = 0.05 x √50 = 0.05 x 7.07 = 0.354。
· 場景 B:另一個交易員有 1 個強信號。他苦苦尋覓,終於找到了一個非常強大的單一信號,IC 高達 0.10(是你的兩倍準)。但他只有一個信號,所以他的 IR = 0.10 x √1 = 0.10。

你用 50 個準確率只有他一半的「垃圾信號」,組合出來的系統表現,是他那個「神級信號」的 3.5 倍。
這就是為什麼對沖基金寧願雇用幾百個研究員去挖掘幾百個微弱的信號,也絕對不會把所有賭注押在一個「完美指標」上。數學已經證明了,尋找完美信號是一條死路。
The right approach is: collect as many independent weak signals as possible, and then combine them mathematically.
This idea is actually the core inspiration behind our work on the insiders.bot wallet filter. Instead of having users look for a "perfectly smart money wallet," it is better to help users simultaneously track hundreds of wallets with different strategies and directions to achieve a truly accurate conclusion by stacking these weak signals.
Advanced Exercise 1:
Honestly evaluate the trading signal you currently rely on the most. What is its IC? If you have never systematically measured it, it means you have been flying blind all along.
Try it out, write a simple backtesting script in Python. Record your prediction ranking and actual result ranking for the past 30 days, then use the scipy.stats.spearmanr() function to calculate your IC. You may be shocked by the results.
If you want to lay a solid foundation in probability theory, I recommend Harvard University's free Introduction to Probability, the first 6 chapters are enough.
Once you understand why signals need to be combined, the next step is to figure out: where to find these signals?
In Part One, we have defined what a signal is (quantifiable, directional, replicable data points).
But a signal does not need to be very strong. It just needs to perform slightly better than a coin flip in a large number of observations and this "slightly better" performance needs to be stable and verifiable.
So, where do institutions actually find these "slightly better" data points?
Here are the five core signal categories that systematic trading desks are really using.

Momentum signals look at where the price has been going and how fast over a period of time.
Why are momentum signals effective? Because market participants have inertia in their response to new information.
· In the short term, people do not react quickly enough, leading to trend continuation.
· 中期,大家又容易反應過度,導致價格回調。
想像一輛正在加速的火車。即使司機鬆開了油門,火車不會立刻停下來。由於慣性,它還會往前衝一段距離。動量信號捕捉的就是這段「慣性距離」。
在 Polymarket 上怎麼用?
假設一個合約的價格在過去 3 天內從 $0.40 穩步上漲到 $0.55,而且成交量也在同步放大。這說明有持續的買壓在推動價格。
短期內價格繼續上漲的機率就比較高。不是因為你知道什麼內幕,而是因為市場的慣性還沒有消耗完。
在量化研究中,最基礎的動量公式就是計算過去 d 天的平均回報:E(i) = (1/d) x Σ R(i,s)。d 是你選擇的回看天數,R(i,s) 是合約 i 在第 s 天的回報。
均值回歸信號衡量的是一個資產偏離其「合理價值」有多遠。
它的核心邏輯是:相關聯的資產之間,價格比例應該是穩定的。當這種關係被打破時,回歸的力量就會把它拉回來。
舉個 Polymarket 上的例子。假設有兩個合約:「特朗普贏得大選」和「共和黨贏得大選」。通常情況下,這兩個概率應該是高度綁定的(因為特朗普是共和黨候選人)。如果某天「特朗普贏」的概率暴跌了 10 個百分點,但「共和黨贏」的概率只跌了 2 個百分點,這就是一個強烈的均值回歸信號。市場定價出錯了,它們遲早會重新對齊。
均值回歸信號就像一根橡皮筋。你把它拉得越遠,它彈回來的力量就越大。但要注意,橡皮筋也有被拉斷的時候。所以均值回歸信號需要配合其他信號一起使用,而不是單獨依賴。
波動率信號看的是隱含波動率(市場預期的波動幅度)和已實現波動率(實際發生的波動幅度)之間的差距。
為什麼會有這個差距?因為賣出波動率的人(比如賣期權的人)承擔了巨大的尾部風險。他們需要額外的補償來覆蓋那些極端情況。這就像保險公司收取的保費總是高於實際賠付的期望值一樣。
在 Polymarket 上,波動率信號可以這樣理解:如果一個合約的價格在 $0.45 到 $0.55 之間劇烈波動,但基本面並沒有發生任何實質性變化(沒有新的新聞、沒有政策變動),那麼這種「虛假的波動」本身就是一個信號。它告訴你市場參與者在恐慌或興奮,但這種情緒往往是過度的,價格最終會回到合理水平。
因子信號是經過幾十年學術研究證實的、系統性的收益溢價。最著名的五個因子包括:
· 價值(Value)
· 動量(Momentum)
· 低波動(Low Volatility)
· 套息(Carry)
· 質量(Quality)
每一個因子,都代表了市場在給風險定價時,人類行為或市場結構上的一種持續性缺陷。
比如「價值因子」之所以有效,是因為人類天生喜歡追逐熱門的東西。大家都在討論的合約,往往已經被定價充分了。而那些沒人關注的「冷門合約」,反而更容易存在定價偏差。
在 Polymarket 上,這意味著你應該花更多時間研究那些交易量不大、但基本面有變化的合約,而不是去追那些已經被幾千人盯著的熱門盤口。這也是為什麼我們在 insiders.bot 的首頁,就加了波動率,最新市場,交易量,交易人數等等方便用戶找到這些有著潛在 Alpha 的市場的指標。
微觀結構信號是高頻交易員的最愛。它看的是訂單簿的深度失衡、買賣價差的動態變化,以及成交量的攻擊性。
這些訊號的生效時間極短,通常在幾分鐘到幾小時之間。但它們能告訴你一件極其重要的事情:在價格真正移動之前,那些擁有資訊優勢的聰明錢正在哪裡建倉。
衡量微觀結構最常用的指標之一是有效價差(Effective Spread):
Effective Spread = 2 x |成交價 - 中間價|
有效價差越大,說明市場的流動性越差,交易成本越高。當有效價差突然擴大時,往往意味著有知情交易者正在進場,做市商為了保護自己而拉大了價差。
另一個關鍵指標是 VPIN(Volume-Synchronized Probability of Informed Trading,成交量同步知情交易概率)。這個指標由 Easley、Lopez de Prado 和 O'Hara 三位教授在 2012 年提出。它通過分析買賣成交量的不平衡程度,來估計市場中有多少交易是由「知情交易者」驅動的。

VPIN 的計算邏輯其實很直觀:把成交量切成固定大小的「桶」(比如每 1000 筆交易一個桶),然後看每個桶裡買方成交量和賣方成交量的差距有多大。如果差距很大,說明有一方在單方面猛攻,這通常意味著知情交易者在行動。
當 VPIN 突然飆升時,往往意味著有人知道了你不知道的事情。2010 年的「閃電崩盤」(Flash Crash)發生前幾個小時,VPIN 就已經開始異常飆升了。
在 Polymarket 上,聰明錢的鏈上行為就是最直接的微觀結構訊號。當一個歷史勝率超過 65% 的錢包突然在某個合約上下了一筆大額注單,這就是一個非常有價值的訊號。
我們在 insiders.bot 的聰明錢瀏覽器和 v1.2/v1.3 訊號裡做的事情,本質上就是把這種鏈上的微觀結構訊號即時推送給你。
記住,這五類訊號中的任何一個,單拿出來都不足以形成系統性的優勢。它們只是原材料。
接下來,我們要進入最核心的第三部分:那台把原材料變成黃金的「組合引擎」。
這是整篇文章最硬核的部分。這 11 個步驟,是機構用來把一堆原始信號轉換成一個最適權重組合的完整程序。
這 11 步可以拆解為四個階段:數據準備、消除市場噪音、提取獨立優勢、分配最優權重。
先重新說一下大背景:假設你有 N 個信號(例如 50 個)。每個信號在過去一段時間內都產生了一系列回報數據(也就是每天賺了多少或虧了多少)。
這個組合系統要做的事情,就是根據這些歷史數據,算出每個信號應該分配多少資金權重。

這個階段的目標是讓所有信號站在同一起跑線上。
第 1 步:收集每個信號的歷史表現
這是最基礎的一步。你需要記錄每個信號在過去每個時間段內的實際利潤或虧損。
例如,你的動量信號在過去 30 天裡,第 1 天賺了 2%,第 2 天虧了 1%,第 3 天賺了 0.5%...... 把這些數據全部記錄下來。每個信號都有這樣一列數據。
用數學語言來說,就是收集每個信號 i 在每個時間段 s 的回報 R(i,s)。
第 2 步:消除系統性漂移(去均值)
把每個信號的歷史回報,減去它自己的平均回報。
為什麼要這麼做?
舉個例子。
· 假設你有一個「逢低買入」的信號。過去一年整個加密市場都在大漲,所以這個信號看起來賺了很多錢。
· 但這真的是信號的功勞嗎?不一定。可能換成隨便一個策略,在牛市裡都能賺錢。減去平均值之後,你才能看到這個信號在「排除了市場整體趨勢」之後,到底有沒有真正的預測能力。
具體公式:X(i,s) = R(i,s) - mean(R(i))。
第 3 步:計算每個信號的波動率
這一步衡量的是每個信號的回報有多大的波動性。
· 一個信號可能平均每天賺 0.1%,但有時候賺 5%,有時候虧 4%。
· 另一個信號也是平均每天賺 0.1%,但波動範圍只在 -0.5% 到 +0.7% 之間。
· 雖然兩個信號的平均回報一樣,但第二個信號明顯更「穩」,更值得信賴。
波動率就是用來量化這種「穩定程度」的。
具體公式:σ(i)² = (1/M) x Σ X(i,s)²。
第 4 步:標準化處理
把第 2 步的結果除以第 3 步的波動率。
為什麼需要這一步?因為不同信號的「單位」不同。動量信號可能是按百分比計算的,微觀結構信號可能是按基點(0.01%)計算的,波動率信號可能是按絕對數值計算的。如果你直接把它們放在一起比較,就像拿蘋果和柳橙比大小,毫無意義。
標準化之後,所有信號都被拉到了同一個尺度上。就像把美元、歐元、日元都換算成了同一種貨幣,這樣才能公平地比較。
具體公式:Y(i,s) = X(i,s) / σ(i)。
這個階段的目標是把「市場整體的漲跌」從每個信號的表現中剝離出來,只留下信號自身的真正能力。
第 5 步:樣本外分割
在計算權重時,只使用歷史數據,丟棄最近的觀察值。
這一步是為了防止「過度配適」。
什麼是過度配適?舉個例子,一個學生把過去十年的考試真題全部背了下來,模擬考試次次滿分。但一到真正的考試,換了新題,他就完全不會做了。他不是在「理解知識」,而是在「背答案」。
在量化交易中,過度配適的危害更大。你的模型可能在歷史數據上表現完美,但一到實盤就拉車。樣本外分割就是確保你的模型是在「學習規律」,而不是在「記憶歷史」。
具體做法是:
把你的數據分成兩部分。
· 用前 80% 的數據來訓練模型(計算權重),
· 用後 20% 的數據來驗證模型是否真的有效。
· 如果模型在後 20% 的數據上也能賺錢,說明它學到了真正的規律。
第 6 步:橫截面去均值(Cross-sectional Demeaning)
在每一個時間點,把每個信號的表現,減去所有信號在那個時間點的平均表現。

這一步非常關鍵,這裡用一個具體的場景來解釋。
假設今天美聯儲突然宣布降息。整個市場暴漲。你的 50 個信號可能同時發出了「買入」指令,而且每個信號看起來都賺了錢。
如果你不做橫截面去均值,你會以為這 50 個信號都很準。但實際上,這只是「水漲船高」的效應。市場整體在漲,你的信號不管怎麼預測都能賺錢。這不是信號的能力,而是市場的恩賜。
減去所有信號的平均表現之後,你才能看清真相:在大家都賺錢的日子裡,到底哪個信號賺得比別人更多?在大家都虧錢的日子裡,哪個信號虧得比別人少?這種「相對表現」,才是信號真正的能力。
更具體的說:Λ(i,s) = Y(i,s) - (1/N) x Σ Y(j,s)。
*注意,第 2 步的「去均值」和第 6 步的「橫截面去均值」是不同的。第 2 步是對每個信號自己的時間序列去均值(消除長期趨勢)。第 6 步是在每個時間點上,對所有信號之間去均值(消除市場整體效應)。兩者缺一不可。
第 7 步:最終數據清潔
這是一個最終的數據衛生步驟。它確保在你的數據序列中,沒有殘留任何「前瞻性信息」。
什麼是前瞻性信息?就是你在做決策的那個時間點上,不可能知道的未來數據。比如,你不能在週一用週五的收盤價來做決策。這聽起來像是常識,但在複雜的數據處理流程中,這種「數據洩漏」比你想象的更容易發生。
這個階段是整個引擎的靈魂。它要做的事情是:從每個信號中,提取出它獨一無二的預測能力,剔除掉它和其他信號重複的部分。
第 8 步:計算預期回報
使用移動平均線,計算每個信號在未來的預期貢獻。
具體來說,就是取每個信號最近 d 天的平均回報,作為它未來表現的預測。然後把這個預測值標準化(除以波動率),讓不同信號的預期回報可以直接比較。
公式上來說:
· E(i) = (1/d) x Σ R(i,s)
· E_norm(i) = E(i) / σ(i)。
第 9 步:提取獨立殘差(Orthogonalization,正交化)
這是整個 11 步中最關鍵的一步。
假設你有兩個信號。
· 信號 A 是「看天氣預報」
· 信號 B 是「看路人有沒有帶傘」。
這兩個信號都能預測今天會不會下雨。
但問題是,路人帶傘很可能也是因為看了天氣預報。所以信號 A 和信號 B 之間有大量的資訊重疊。如果你同時使用它們,你以為你有兩個獨立的信號,但實際上你只有一個信號(天氣預報)被表達了兩次。
第 9 步做的事情,就是把這種資訊重疊剔除掉。
具體怎麼做?對每個信號的預期回報 E_norm(i),用其他所有信號的歷史數據 Λ(i,s) 做一個回歸分析。回歸的意思是:用其他信號來「解釋」這個信號。能被解釋的部分,就是重疊的部分,扔掉。解釋不了的部分,就是這個信號獨一無二的貢獻,保留。
這個「解釋不了的部分」,在數學上叫做殘差(Residual),記作 ε(i)。
如果你學過線性代數,這就是 Gram-Schmidt 正交化的一個應用。如果你沒學過也沒關係,你只需要記住一件事:第 9 步是在找出每個信號真正獨一無二的、不可替代的那部分預測能力。
第 10 步:設定最佳權重
權重的計算公式是:w(i) = η x ε(i) / σ(i)。
這個公式說的是:每個信號的權重,等於它的獨立貢獻 ε(i)(第 9 步算出來的),除以它的波動率 σ(i)(第 3 步算出來的),再乘以一個縮放係數 η。
這意味著什麼?引擎會自動給那些「獨立貢獻大」且「表現穩定」的信號分配更高的權重。而那些「噪音大」或者「只會跟風」的信號,會被自動降權。
這一切都是數學自動完成的,不需要任何主觀判斷。你不需要憑感覺去決定「這個信號應該佔多少比例」。公式會告訴你最優答案。
第 11 步:歸一化
最後一步,調整縮放係數 η,使所有權重的絕對值之和等於 1。
這確保了你的總資金分配是 100%,不會在不知不覺中加上槓桿。如果不做這一步,你可能會發現你的權重加起來是 150%,意味著你在用 1.5 倍槓桿交易,而你自己完全沒有意識到。
用數學語言來說:設置 η 使得 Σ|w(i)| = 1。
這 11 步的最終輸出,就是你的 N 個信號中每一個的最終權重。當你把這些微弱的信號按權重組合在一起時,你就得到了一個超級 Alpha(Mega-Alpha)。一個高勝率、高信念的單一輸出。
進階練習 2:
如果你在當前的信號堆棧上運行這個程序,你會對哪些信號獲得了高權重、哪些獲得了低權重感到驚訝嗎?答案會告訴你,你對自己正在運行的東西的獨立性結構了解得有多好。
如果你想深入理解這套矩陣運算背後的邏輯,強烈建議去看 MIT 免費公開課 Linear Algebra 中關於正交化的章節。Gilbert Strang 教授講得非常清楚。
組合引擎解決了一個問題。這個問題在你一次只看一個信號時是隱形的,但一旦你理解了數學,它就變得無處不在。
讓我們回到第一部分提到的主動管理基本定律:
IR = IC x √N
還記得這三個字母代表什麼嗎?IR 是你整個系統的「風險調整後收益」(也就是你的策略有多穩)。IC 是你單個信號的平均準確度。N 是你組合的獨立信號的數量。
現在我要強調一個很多人忽略的關鍵詞:獨立。
這裡的 N,不是你信號堆棧中信號的總數。它是有效獨立信號的數量。這兩個數字可能差得非常遠。
為什麼?因為信號之間會「偷偷地」相互關聯。
一個動量信號和一個均值回歸信號,在性質上看起來是完全相反的(一個追漲,一個抄底)。但在某些市場環境下,兩者可能在同一時間、同一方向對同一個宏觀經濟新聞做出反應。
· 比如,美联储突然加息,動量信號說「趨勢向下,賣出」,均值回歸信號也說「偏離均值太遠了,但方向也是向下」。
· 在這個時刻,兩個看似獨立的信號,實際上在表達同一個觀點。
如果你給它們相等的權重,你以為你在兩個獨立的觀點之間分散了風險。但實際上,你是在同一個觀點上加了雙倍的倉位。

這就是為什麼第三部分中的第 6 步(橫截面去均值,也就是在每個時間點上減去所有信號的平均表現,消除「水漲船高」效應)和第 9 步(提取獨立殘差,也就是通過回歸分析剔除信號之間的信息重疊,只保留每個信號獨一無二的貢獻)如此重要。它們的作用就是識別並消除信號之間隱藏的共享成分。
運行 50 個相關的信號,可能只給你帶來 10 到 15 個獨立信號的分散化效果。只有當你的信號建立在真正獨立的信息源上,並且正確地運行了組合引擎,你才能獲得全部 50 個信號的完整好處。
這在實際操作中意味著什麼?

· 假設一個交易員認為自己在運行 20 個獨立信號。他按照 20 個獨立信號來計算倉位大小。但實際上,由於信號之間的隱藏相關性,他只有 6 個有效獨立信號。
· 20 個獨立信號支撐的倉位大小,對於 6 個信號來說太大了。大了多少?大了 20/6 ≈ 3.3 倍。他的實際槓桿是他以為的 3 倍多。
這種槓桿錯配,是大多數系統化策略爆倉背後的真正原因。交易員在方向上是對的,但在規模上是錯的。他看對了市場會漲,但他下的注太大了。一個正常的回調就足以把他清算出局。
組合引擎強制進行誠實的核算。它不會讓你自欺欺人。它會告訴你,你的信號堆疊的真實獨立性結構是什麼樣的。然後根據真實情況來分配權重,而不是根據你以為的情況。
那些在分析正確的交易上持續虧損的交易員,幾乎總是輸給了他們沒有測量的相關性。他們以為自己有三個獨立的理由感到自信。實際上他們只有一個理由被表達了三次。而倉位卻是按三個理由來定的。
組合引擎從結構上消除了這種失敗模式。
進階練習 3:
拿出你現在正在使用的所有信號,兩兩配對,計算它們之間的相關係數。你可以用 Python 的 numpy.corrcoef() 函數。如果任何一對信號的相關係數超過 0.5,那麼它們在數學上就不是獨立的。你需要重新審視你的信號堆疊。
推薦閱讀 Marcos Lopez de Prado 的 Advances in Financial Machine Learning,特別是關於特徵重要性和正交化的章節。這本書是現代量化方法的必讀之作。
前四個部分的所有內容,都是在股票和多資產系統化交易的背景下建立的。好消息是,這套數學可以直接遷移到預測市場。只需要做一個替換:你不是在組合關於「預期回報」的信號,而是在組合關於「預期概率」的信號。
在預測市場中,每個信號產生的不是一個回報估計,而是一個隱含概率估計。
第一,跨平台定價信號: 如果 Polymarket 上某個合約的 YES 價格是 $0.45,但 Betfair 上同一個事件的賠率暗示概率是 52%,那麼這 7 個百分點的價差就是你的信號。兩個平台在給同一個事件定不同的價,至少有一個是錯的。
第二,校準信號: 對 4 億筆 Polymarket 歷史交易的研究發現了一個系統性的偏差:定價在 5% 到 15% 之間的合約,最終解決為 YES 的比例只有 4% 到 9%。這意味著市場系統性地高估了低概率事件發生的可能性。這個偏差是穩定的、可重複的,因此它是一個有效的信號。
第三,貝葉斯更新信號:這是量化交易的靈魂工具。它回答的核心問題是:當你獲得了新的數據,你應該如何精確地更新你原有的信念?

讓我用一個具體的例子來解釋貝葉斯更新。
假設你關注一個 Polymarket 合約:「某國會法案是否會在本月通過?」。目前市場價格是 $0.40,也就是市場認為通過的概率是 40%。這是你的先驗概率(Prior)。
突然,一條新聞出來了:該法案獲得了一位關鍵參議員的公開支持。
你不能直接把概率改成 80%。你需要用貝葉斯公式來精確計算。
貝葉斯公式是:
P(通過|支持) = P(支持|通過) x P(通過) / P(支持)
翻譯成大白話就是:
「在已知這位參議員公開支持的情況下,法案通過的概率」=「如果法案真的會通過,這位參議員公開支持的概率」x「法案通過的先驗概率」/「這位參議員公開支持的總概率」

假設你估計:
· 如果法案真的會通過,這位參議員公開支持的概率是 80%(因為他通常會在有把握時才表態)
· 如果法案不會通過,這位參議員公開支持的概率是 20%(他偶爾也會站錯隊)
· 法案通過的先驗概率是 40%
那麼:
· P(支持) = 0.80 x 0.40 + 0.20 x 0.60 = 0.32 + 0.12 = 0.44
· P(通过|支持) = 0.80 x 0.40 / 0.44 = 0.32 / 0.44 = 72.7%
所以,在看到這條新聞之後,你應該把法案通過的機率從 40% 更新到 72.7%。如果市場價格還停留在 $0.50,你就有了一個 22.7% 的優勢。
貝葉斯更新的精髓在於,你不是在「猜」一個新機率,而是在用數學精確地計算它。你的每一次判斷都有據可依。
第四,微觀結構信號:使用 VPIN(我們在第二部分講過的「知情交易概率」指標,它通過分析買賣成交量的不平衡程度來判斷是否有知情交易者在行動)和有效價差,根據知情訂單流的方向暗示一個機率。
第五,動量信號:根據合約接近解決時的價格變動速率和方向暗示一個機率。
將這些隱含機率估計中的每一個,完全按照第三部分描述的 11 步組合引擎運行。輸出是一個單一的加權組合機率估計。這個估計根據每個信號的獨立貢獻(還記得第 9 步的正交化嗎?就是剔除信號之間的信息重疊,只保留獨一無二的部分),分配了數學上最優的權重。
那個組合估計和當前 Polymarket 價格之間的差距,就是你的優勢(Edge)。

有了優勢之後,最重要的問題來了:你應該拿多少錢去下注?
下注太少,你浪費了優勢,賺得不夠多。下注太多,一次判斷失誤就可能讓你回到原點。
機構使用的是凱利公式(Kelly Criterion)。標準的凱利公式是這樣的:
f_kelly = (p x b - q) / b
其中 p 是你估計的勝率(你的組合概率),q = 1 - p 是敗率,b 是賠率。
在 Polymarket 上,賠率 b 可以直接從價格算出來:b = (1 / 市場價格) - 1。比如市場價格是 $0.40,那麼賠率 b = (1/0.40) - 1 = 1.5。
假設你的組合模型告訴你真實概率是 60%(也就是 p = 0.60),而市場價格是 $0.40(賠率 b = 1.5)。那麼標準凱利建議你下注:
f_kelly = (0.60 x 1.5 - 0.40) / 1.5 = (0.90 - 0.40) / 1.5 = 0.50 / 1.5 = 下注資金的 33.3%。
但標準凱利有一個致命的假設:它假設你的勝率估計是 100% 準確的。在現實中,你的估計總會有誤差。所以機構使用的是經驗凱利公式,它加入了一個「不確定性懲罰」
f_empirical = f_kelly x (1 - CV_edge)
其中 CV_edge 是你的優勢估計的變異係數(Coefficient of Variation)。它衡量的是你的估計有多不確定。CV_edge 越大,說明你越不確定,公式就會自動減少你的下注金額。
怎麼計算 CV_edge?你可以用蒙特卡洛模擬。簡單來說,就是用你的模型跑幾千次模擬,看看你的優勢估計在不同場景下會變化多少。變化越大,CV_edge 越高,你就應該下注越少。
接著上面的例子。如果你的 CV_edge = 0.3(也就是你的估計有 30% 的不確定性),那麼經驗凱利建議你下注:
f_empirical = 33.3% x (1 - 0.3) = 33.3% x 0.7 = 下注資金的 23.3%。
在實際操作中,很多機構甚至只下「半凱利」(Half-Kelly),也就是再除以 2,變成大約 12%。因為長期來看,少賺一點遠比爆倉好得多。


把所有東西串在一起,完整的工作流程是這樣的:
1. 五個或更多輸入信號,每個產生一個隱含概率估計
2. 通過 11 步組合引擎處理
3. 輸出一個單一的加權組合概率
4. 與當前市場價格比較,計算你的優勢(Edge)
5. 用經驗凯利公式確定下注規模
6. 用 VWAP(成交量加權平均價格)優化執行,減少你的大額訂單對市場價格的衝擊
7. 實時監控 VPIN 變化,當知情交易者變得活躍時及時調整策略
這個框架對於預測市場特別有價值,原因很簡單:你的絕大多數競爭對手,都在用單一模型、單一數據源、單一概率估計來交易。而你現在已經知道了如何把多個弱信號組合成一個強信號。這就是你的結構性優勢。
進階練習 4:
選擇一個你關注的 Polymarket 合約。嘗試從至少三個不同的角度(比如跨平台定價、歷史校準、最近的新聞事件)分別估計它的概率。然後簡單地取加權平均,看看你的組合估計和當前市場價格之間有沒有差距。如
果有,恭喜你,你剛剛手動完成了一個簡化版的 Alpha 組合。
推薦閱讀 Edward Thorp 的 A Man for All Markets。Thorp 是凱利公式在投資領域的先驅應用者,這本書用非常通俗的語言講述了他如何用數學在賭場和華爾街都賺到了錢。
看到這裡,你可能會想:這套系統的邏輯我懂了,但我一個人怎麼可能從零搭建?
好消息是,你不需要從零開始。
在做 insiders.bot (@insidersdotbot) 的過程中,這篇文章裡提到的「主動管理基本定律」(也就是 IR = IC x √N,你整個系統的表現等於單個信號的準確度乘以獨立信號數量的平方根)給了我們非常大的啟發。

以下是你可以立刻開始操作的三個步驟。
打開 insiders.bot 的聰明錢瀏覽器。通過篩選面板,你可以按勝率、總盈虧、交易頻率等維度,找到 Polymarket 上表現最好的錢包。
這些錢包的每一次異動,就是你的一個「微觀結構信號」(還記得第二部分講的五大信號類別中的第五類嗎?)。單個錢包的信號可能很弱(IC 很低),但當你同時追蹤幾十個錢包時,你就在做文章裡說的「信號組合」。這正是主動管理基本定律的核心:N 越大,IR 越高。
我們的智能信號系統(SIGNALS 標籤頁)本質上就是一個簡化版的 Alpha 組合引擎。當優質錢包進行大額交易時,系統會生成信號,並通過 Smart Score 綜合歷史勝率、總盈虧、下注穩定性、分類表現、倉位規模等多個維度,給出一個強度評級。
LOW:達到基礎標準,但交易員優勢一般。對應低 IC 信號,需要更多信號來組合
MEDIUM:歷史戰績良好,展現出堅定信念。對應中等 IC 信號,可以適度配置
HIGH:來自頂級表現錢包的重注交易。對應高 IC 信號,組合引擎給予高權重
這個評分系統做的事情,和第三部分 11 步引擎中的第 10 步(設置最優權重,也就是根據每個信號的獨立貢獻和穩定性來分配資金比例)本質上是一樣的:根據多個維度的綜合評估,給每個信號分配不同的權重。
当你收到一个 HIGH 评级的信号时,你可以使用我们的自动化跟单工具,设置按比例或固定金额跟单。
记住第五部分讲的经验凯利公式(f_empirical = f_kelly x (1 - CV_edge),也就是你的下注比例要根据你的不确定性来打折):你的估计越不确定,你应该下注越少。
对于 LOW 评级的信号,减少仓位。
对于 HIGH 评级的信号,可以适度增加仓位。让数学帮你做决策,而不是让情绪帮你做决策。
让我们回到最开始的问题。
单个信号是微弱的。寻找那个完美的信号,完全是找错了方向。
主动管理基本定律(IR = IC x √N)在数学上证明了:组合许多微弱的独立信号,胜过寻找一个强信号。你的信息比率随着你部署的真正独立信号数量的平方根而增长。
11 步 Alpha 组合引擎为你提供了计算最优权重的精确方法。这些权重反映了每个信号的独立贡献,惩罚了噪音,消除了信号之间的共享方差。
应用于预测市场,这个框架将五个或更多的隐含概率信号转换成一个单一的组合估计。这个估计被证明比任何单个组件都更准确。
配合经验凯利公式进行仓位管理,它产生的头寸正确地反映了你实际应该有多自信,而不是你感觉有多自信。
复利最久的优势,建立在对你实际知道什么的最诚实的模型之上。
最后,我想让你思考一个问题:
如果组合了数百个信号的机构交易台,仍然只能达到 0.05 到 0.15 之间的信息系数,那么任何声称能从单一模型中以高置信度持续挑选赢家的系统,到底在说什么?
进阶阅读与参考文献
如果你想繼續深入研究,以下是一些進階資料:
入門級:
Harvard Stat 110: Introduction to Probability(免費線上教材)。概率論的基礎,前 6 章就夠了。
Edward Thorp, A Man for All Markets。凱利公式先驅的自傳,用通俗語言講述數學如何在賭場和華爾街賺錢。
進階級:
Grinold & Kahn, Active Portfolio Management。量化投資領域的「聖經」,詳細推導了主動管理基本定律。
MIT 18.06 Linear Algebra。Gilbert Strang 教授的經典課程,理解正交化的最佳資源。
高階級:
Marcos Lopez de Prado, Advances in Financial Machine Learning。現代量化方法的必讀之作,特別是關於交叉驗證、特徵重要性和正交化的部分。
Easley, Lopez de Prado & O'Hara (2012), Flow Toxicity and Liquidity in a High-frequency World, Review of Financial Studies。VPIN 指標的原始論文。
原文連結
歡迎加入律動 BlockBeats 官方社群:
Telegram 訂閱群:https://t.me/theblockbeats
Telegram 交流群:https://t.me/BlockBeats_App
Twitter 官方帳號:https://twitter.com/BlockBeatsAsia