Skip to content

Ridge Regression 技术文档

岭回归(Ridge Regression)是在普通最小二乘(OLS)基础上加入 L2 正则化的线性回归模型,特别适用于多因子之间存在多重共线性的 A 股收益率预测场景。


模型简介

岭回归的目标函数为:

$$\min_{w} |Xw - y|^2 + \alpha |w|^2$$

其中 $\alpha$ 为正则化强度。当因子之间高度相关(如多个动量类因子),OLS 系数会发散,岭回归通过惩罚项将系数收缩,保持估计稳定。

官方文档:Ridge Regression — scikit-learn


在 A 股量化策略中的应用

1. 多因子收益率预测

将 50+ 个 Alpha 因子作为特征矩阵 $X$,以未来 5 日收益率为目标 $y$,岭回归在因子共线性较高时比 OLS 更稳定,因子系数不会出现极端值。

2. 风险模型因子暴露估计

Barra 类风险模型中,用岭回归拟合个股收益率对风格因子的暴露,$\alpha$ 控制正则强度,防止因子暴露矩阵奇异。

3. 自动 Alpha 选择(RidgeCV)

scikit-learn 提供 RidgeCV,通过留一交叉验证(LOO-CV)自动从候选 $\alpha$ 列表中选择最优值,省去手动调参。

python
from sklearn.linear_model import RidgeCV
alphas = [0.01, 0.1, 1, 10, 100]
model = RidgeCV(alphas=alphas, cv=5)
model.fit(X_train, y_train)
print(model.alpha_)  # 最优正则强度

核心参数(金融应用推荐)

参数说明推荐值
alphaL2 正则强度0.1–100(对数搜索)
fit_intercept是否拟合截距True
solver求解器'auto'

性能特点

优势:

  • 解析解形式,训练极快:$w = (X^TX + \alpha I)^{-1}X^Ty$
  • 系数可直接解释为因子权重,便于策略归因
  • 对多重共线性因子鲁棒,A 股因子库常见高相关因子

劣势:

  • 线性假设,无法捕捉非线性因子交互
  • L2 正则不产生稀疏解(所有因子均保留),无法做因子选择
  • 对异常值敏感(金融数据需先做 Winsorize)

官方参考资料

⚡ Real-time Data · 📊 Smart Analysis · 🎯 Backtesting