Ridge Regression 技术文档
岭回归(Ridge Regression)是在普通最小二乘(OLS)基础上加入 L2 正则化的线性回归模型,特别适用于多因子之间存在多重共线性的 A 股收益率预测场景。
模型简介
岭回归的目标函数为:
$$\min_{w} |Xw - y|^2 + \alpha |w|^2$$
其中 $\alpha$ 为正则化强度。当因子之间高度相关(如多个动量类因子),OLS 系数会发散,岭回归通过惩罚项将系数收缩,保持估计稳定。
在 A 股量化策略中的应用
1. 多因子收益率预测
将 50+ 个 Alpha 因子作为特征矩阵 $X$,以未来 5 日收益率为目标 $y$,岭回归在因子共线性较高时比 OLS 更稳定,因子系数不会出现极端值。
2. 风险模型因子暴露估计
Barra 类风险模型中,用岭回归拟合个股收益率对风格因子的暴露,$\alpha$ 控制正则强度,防止因子暴露矩阵奇异。
3. 自动 Alpha 选择(RidgeCV)
scikit-learn 提供 RidgeCV,通过留一交叉验证(LOO-CV)自动从候选 $\alpha$ 列表中选择最优值,省去手动调参。
python
from sklearn.linear_model import RidgeCV
alphas = [0.01, 0.1, 1, 10, 100]
model = RidgeCV(alphas=alphas, cv=5)
model.fit(X_train, y_train)
print(model.alpha_) # 最优正则强度核心参数(金融应用推荐)
| 参数 | 说明 | 推荐值 |
|---|---|---|
alpha | L2 正则强度 | 0.1–100(对数搜索) |
fit_intercept | 是否拟合截距 | True |
solver | 求解器 | 'auto' |
性能特点
优势:
- 解析解形式,训练极快:$w = (X^TX + \alpha I)^{-1}X^Ty$
- 系数可直接解释为因子权重,便于策略归因
- 对多重共线性因子鲁棒,A 股因子库常见高相关因子
劣势:
- 线性假设,无法捕捉非线性因子交互
- L2 正则不产生稀疏解(所有因子均保留),无法做因子选择
- 对异常值敏感(金融数据需先做 Winsorize)
