Ridge Regression 技术文档

岭回归（Ridge Regression）是在普通最小二乘（OLS）基础上加入 L2 正则化的线性回归模型，特别适用于多因子之间存在多重共线性的 A 股收益率预测场景。

模型简介

岭回归的目标函数为：

$$\min_{w} |Xw - y|^2 + \alpha |w|^2$$

其中 $\alpha$ 为正则化强度。当因子之间高度相关（如多个动量类因子），OLS 系数会发散，岭回归通过惩罚项将系数收缩，保持估计稳定。

官方文档：Ridge Regression — scikit-learn

在 A 股量化策略中的应用

1. 多因子收益率预测

将 50+ 个 Alpha 因子作为特征矩阵 $X$，以未来 5 日收益率为目标 $y$，岭回归在因子共线性较高时比 OLS 更稳定，因子系数不会出现极端值。

2. 风险模型因子暴露估计

Barra 类风险模型中，用岭回归拟合个股收益率对风格因子的暴露，$\alpha$ 控制正则强度，防止因子暴露矩阵奇异。

3. 自动 Alpha 选择（RidgeCV）

scikit-learn 提供 RidgeCV，通过留一交叉验证（LOO-CV）自动从候选 $\alpha$ 列表中选择最优值，省去手动调参。

python

from sklearn.linear_model import RidgeCV
alphas = [0.01, 0.1, 1, 10, 100]
model = RidgeCV(alphas=alphas, cv=5)
model.fit(X_train, y_train)
print(model.alpha_)  # 最优正则强度

核心参数（金融应用推荐）

参数	说明	推荐值
`alpha`	L2 正则强度	0.1–100（对数搜索）
`fit_intercept`	是否拟合截距	`True`
`solver`	求解器	`'auto'`

性能特点

优势：

解析解形式，训练极快：$w = (X^TX + \alpha I)^{-1}X^Ty$
系数可直接解释为因子权重，便于策略归因
对多重共线性因子鲁棒，A 股因子库常见高相关因子

劣势：

线性假设，无法捕捉非线性因子交互
L2 正则不产生稀疏解（所有因子均保留），无法做因子选择
对异常值敏感（金融数据需先做 Winsorize）

Ridge Regression 技术文档 ​

模型简介 ​

在 A 股量化策略中的应用 ​

1. 多因子收益率预测 ​

2. 风险模型因子暴露估计 ​

3. 自动 Alpha 选择（RidgeCV） ​

核心参数（金融应用推荐） ​

性能特点 ​

官方参考资料 ​