從先驗到後驗：貝葉斯統計如何重塑量化交易的決策框架

引言：當市場不具備「頻率」的穩定性

在華爾街的十五年裡，我目睹了無數量化模型在平靜市況中表現卓越，卻在市場結構突變時轟然倒塌。2007年，許多基於長期歷史數據（頻率學派思想）的風險模型未能預見次貸危機的到來，因為它們隱含假設未來是過去的重複。這促使我與許多同行轉向一種更靈活、更符合交易員直覺的哲學框架：貝葉斯統計。其核心在於，它不尋求一個「唯一正確」的參數估計，而是將所有未知量視為隨機變量，並用概率分布來描述我們對它們的「信念」，且該信念能隨著新資訊的到來而動態更新。

貝葉斯定理：量化交易者的信念更新引擎

貝葉斯定理的數學表達優雅而強大：

P(θ|D) ∝ P(D|θ) * P(θ)

其中：
θ：代表我們關心的未知參數（例如，某股票的預期收益率、波動率，或一個策略的夏普比率）。
D：代表我們觀察到的數據（例如，過去N天的價格序列）。
P(θ)：先驗分布。這是我們在看到數據之前，基於經驗、理論或直覺對θ的信念。
P(D|θ)：似然函數。給定某個特定的θ值，觀察到當前數據D的可能性。
P(θ|D)：後驗分布。這是結合了先驗信念和觀測數據後，我們對θ更新後的信念。

這個公式正是量化決策的縮影：我們從一個初始觀點（先驗）開始，當新的市場數據（似然）湧入時，我們理性地更新我們的觀點（後驗）。這與交易員每天根據盤面信息調整判斷的過程如出一轍。

與頻率學派的根本區別

頻率學派將參數視為固定但未知的常數，用「置信區間」來描述估計的不確定性。貝葉斯學派則將不確定性直接賦予參數本身，用概率分布來表達。在市場急劇變化時，貝葉斯方法允許模型迅速「忘記」遙遠的過去，將權重聚焦於新常態，這使其在預測尾部風險和市場機制轉換時具有天然優勢。

核心應用領域

1. 動態參數估計與預測

傳統的移動平均或固定窗口回歸，對所有歷史數據賦予相同權重。貝葉斯模型，特別是狀態空間模型（如卡爾曼濾波）和動態線性模型，可以實現參數的遞推更新。例如，資產的貝塔係數並非恆定，在牛市和熊市中其對市場的敏感度不同。貝葉斯方法可以估計一個隨時間平滑變化的貝塔。

import pymc3 as pm
import numpy as np
import pandas as pd

# 模擬數據：市場收益和一支股票收益，假設貝塔緩慢漂移
np.random.seed(42)
T = 500
true_beta = np.sin(np.arange(T) * 2 * np.pi / 200) + 1  # 真實貝塔在1附近正弦波動
market_returns = np.random.normal(0.05/252, 0.15/np.sqrt(252), T)
stock_returns = true_beta * market_returns + np.random.normal(0, 0.1/np.sqrt(252), T)

with pm.Model() as time_varying_beta_model:
    # 先驗：貝塔隨時間隨機遊走
    beta_sigma = pm.HalfNormal('beta_sigma', sigma=0.01)
    beta = pm.GaussianRandomWalk('beta', sigma=beta_sigma, shape=T)
    
    # 先驗：殘差波動率
    sigma = pm.HalfNormal('sigma', sigma=0.02)
    
    # 似然：股票收益服從正態分布，均值為 beta_t * market_return_t
    likelihood = pm.Normal('returns', mu=beta * market_returns, sigma=sigma, observed=stock_returns)
    
    # 採樣
    trace = pm.sample(2000, tune=1000, cores=2, return_inferencedata=False)

# 提取後驗估計的貝塔中位數
posterior_beta_median = np.median(trace['beta'], axis=0)

# 可視化對比（此處省略繪圖代碼）
# 你會發現 posterior_beta_median 能夠追蹤 true_beta 的變化軌跡

2. 波動率建模與預測

波動率是量化風險和衍生品定價的核心。GARCH族模型是頻率學派的代表。而貝葉斯隨機波動率模型則提供了更豐富的不確定性量化。在2008年危機期間，基於貝葉斯SV模型的預測能夠更快地捕捉到波動率結構的躍升，因為其先驗分布可以包含對「波動率可能突然爆發」的認知。

案例一：2008年危機中的波動率預測
2007年下半年，標準的歷史波動率或GARCH(1,1)模型預測的VIX水平持續低於實際值。而一些採用貝葉斯方法的對沖基金（如我所知的幾家宏觀基金）在其SV模型中設定了更具厚尾特性的先驗分布（例如，學生t分布或帶跳躍的過程）。當次貸問題初現端倪時，儘管絕對價格變動尚未極端，但這些模型通過後驗分布已經顯示出波動率分布右尾概率顯著增加的信號，促使他們提前降低了風險敞口或買入了波動率保護。

3. 資產配置與投資組合優化

經典的馬科維茨均值-方差優化對輸入參數（預期收益、協方差矩陣）極度敏感。貝葉斯方法通過將這些參數視為隨機變量，並計算其後驗分布，自然地產生了Black-Litterman模型的框架。該模型允許投資者將主觀市場觀點（先驗）與歷史數據（似然）相結合，得到一個更穩健的後驗收益估計，從而緩解了馬科維茨優化的極端配置問題。

4. 高頻做市與訂單流分析

案例二：高頻做市商的貝葉斯學習
我在Two Sigma期間，見證了貝葉斯方法在微觀結構模型中的精妙應用。做市商的關鍵問題是：當前最優買賣報價應該設在哪裡？這取決於他們對資產真實價值（隱含價值）的估計，以及庫存風險。一個經典模型是將隱含價值設定為一個潛在狀態，新的買賣訂單被視為帶有噪音的信號。

模型可以簡化為：
隱含價值 V_t 服從隨機遊走：V_t = V_{t-1} + ε_t。
觀察到的交易價格 P_t = V_t + η_t，其中η_t取決於訂單方向（買單推高，賣單壓低）。
做市商在每一筆新交易後，利用卡爾曼濾波（一種特殊的貝葉斯遞推算法）更新其對V_t的後驗分布。這個後驗分布的均值成為新的價值錨，其方差（不確定性）決定了報價價差。當訂單流呈現強烈單邊性時，模型會迅速調整價值估計，並擴大價差以保護自己。這個動態學習過程是純貝葉斯的。

實戰Python示例：貝葉斯回歸預測資產收益

讓我們構建一個實用的例子：使用貝葉斯線性回歸，結合多個因子預測個股超額收益，並獲得預測的完整概率分布。

import pandas as pd
import yfinance as yf
import pymc3 as pm
import arviz as az
import numpy as np

# 1. 獲取數據
tickers = ['SPY', 'AAPL', 'IWM']  # 市場、目標股票、小盤因子代理
start_date = '2020-01-01'
end_date = '2023-12-31'

data = yf.download(tickers, start=start_date, end=end_date)['Adj Close']
returns = data.pct_change().dropna()

# 2. 準備數據：預測AAPL的超額收益（減去無風險利率代理，此處簡化為0）
# 因子：市場超額收益(SPY)，規模因子(IWM - SPY)
X = pd.DataFrame()
X['MKT_RF'] = returns['SPY']  # 假設無風險利率為0
X['SMB'] = returns['IWM'] - returns['SPY']  # 簡化規模因子
y = returns['AAPL']  # 目標

# 轉換為numpy數組
X_np = X.values
y_np = y.values

# 3. 構建貝葉斯線性回歸模型
with pm.Model() as bayesian_factor_model:
    # 先驗分布：回歸係數（因子暴露）和截距
    # 使用正態先驗，均值為0，表示我們事前不確定因子的方向
    alpha = pm.Normal('alpha', mu=0, sigma=0.1)  # 截距（Alpha）
    betas = pm.Normal('betas', mu=0, sigma=0.5, shape=X_np.shape[1])  # 因子暴露
    sigma = pm.HalfNormal('sigma', sigma=0.1)  # 殘差波動率
    
    # 期望收益
    mu = alpha + pm.math.dot(X_np, betas)
    
    # 似然：收益服從正態分布
    likelihood = pm.Normal('y_obs', mu=mu, sigma=sigma, observed=y_np)
    
    # 4. 後驗推斷：使用MCMC採樣
    trace = pm.sample(2000, tune=1000, cores=2, return_inferencedata=True)

# 5. 診斷與分析
# 查看後驗總結
print(az.summary(trace, var_names=['alpha', 'betas', 'sigma']))
# 輸出會給出每個參數的後驗均值、標準差和94%最高密度區間（HPD）

# 6. 進行預測（樣本外）
# 假設我們有新的因子數據 X_new (形狀為 [M, 2])
# 我們可以從後驗預測分布中抽取樣本，得到y_pred的完整分布
with bayesian_factor_model:
    # 注意：這裡需要實際的新數據，此處僅為示例流程
    # pm.set_data({'x': X_new}) 
    # post_pred = pm.sample_posterior_predictive(trace, samples=1000)
    # y_pred_distribution = post_pred['y_obs']
    pass

# 關鍵優勢：我們不僅得到一個點預測（如後驗均值），
# 而是得到一個概率分布，可以用來計算預測區間和風險價值（VaR）。

優勢、挑戰與風險警示

優勢

自然的不確定性量化：所有輸出都是概率分布，便於計算風險。
結合先驗知識：允許將資深交易員的經驗（如「波動率聚集」）編碼到模型中。
在線學習：模型可以實時更新，適應市場結構變化。
處理小樣本問題：在數據有限時（如新股、新策略），合理的先驗能提供穩健估計。

挑戰與局限

計算成本高：MCMC採樣在複雜模型和高維數據下可能非常耗時，不適合某些超高頻場景。
先驗選擇的主觀性：先驗選擇不當可能導致誤導性結果。「錯誤的先驗」如同「錯誤的偏見」。
模型複雜度：構建和診斷貝葉斯模型需要更深的統計學功底。

風險警示

免責聲明：以下內容僅供教育與信息參考，不構成任何投資建議。量化交易涉及重大風險，可能導致全部本金損失。過去表現不預示未來結果。

過度擬合先驗：將過於強烈的主觀信念（狹窄的先驗）強加於模型，可能使其無法從數據中學習到真實信號。這在市場範式轉移時尤其危險。
計算延遲風險：在實盤交易中，如果MCMC採樣速度跟不上市場數據湧入的速度，會產生決策延遲，導致策略失效。
模型風險：任何統計模型都是對現實的簡化。貝葉斯模型雖然靈活，但依然可能錯誤設定似然函數或狀態轉移過程。必須進行嚴格的後驗預測檢驗。
流動性與執行風險：即使模型預測準確，在市場壓力時期可能無法以預期價格執行交易。

實戰建議：始終從簡單的、可解釋的模型開始（如上面演示的線性回歸），並使用先驗預測檢驗：在觀察任何數據之前，從先驗分布中抽取樣本，檢查生成的模擬數據是否合理。然後再進行後驗分析。

權威參考與進階方向

1. 書籍：Gelman等人的《Bayesian Data Analysis》是聖經級教材。在金融領域，Ruey S. Tsay的《Analysis of Financial Time Series》第三版包含了貝葉斯方法的章節。
2. 論文：Jacquier, E., Polson, N.G., & Rossi, P.E. (1994) 的《Bayesian analysis of stochastic volatility models》是該領域的奠基之作。在資產配置方面，Black, F., & Litterman, R. (1992) 的《Global Portfolio Optimization》開創了貝葉斯與經典優化的結合。
3. 進階方向：讀者可探索變分推斷（VI）作為MCMC的高速近似用於實時交易，貝葉斯深度學習用於非線性模式識別，以及貝葉斯優化用於超參數調優和策略配置。

結論：擁抱不確定性，實現持續適應

貝葉斯統計不僅是一套數學工具，更是一種貼近市場本質的思維方式。它承認我們永遠處於信息不完備的狀態，並提供了一個系統化的框架來量化不確定性並動態更新認知。對於量化交易者而言，從頻率學派到貝葉斯學派的轉變，是從尋找「靜態真理」到管理「動態信念」的躍遷。在當今由算法主導、變化加速的市場中，這種能夠持續學習和適應的能力，或許是構建下一代韌性交易系統的關鍵所在。從今天開始，嘗試為你的模型加入一個先驗，並觀察後驗如何隨著市場的脈搏而跳動。