Logistic Regression 技术文档

逻辑回归（Logistic Regression）是量化金融中最基础且最可解释的分类模型，常用于 A 股二分类涨跌预测，以及多分类市场状态判别。

模型简介

逻辑回归通过 sigmoid 函数将线性输出映射为概率：

$$P(y=1|X) = \sigma(Xw + w_0) = \frac{1}{1 + e^{-(Xw+w_0)}}$$

带 L2 正则化的目标函数：

$$\min_{w,b} \frac{1}{2}w^Tw + C \sum_{i=1}^{n} \log\left(e^{-y_i(X_i^Tw+b)} + 1\right)$$

支持 L1（Lasso）、L2（Ridge）、ElasticNet 三种正则化方式。

官方文档：Logistic Regression — scikit-learn

以次日涨跌（1/-1）为标签，输入技术指标、财务因子，predict_proba 输出上涨概率作为个股打分排名依据。模型系数可直接解读为各因子权重。

使用 penalty='l1' 配合 solver='liblinear'，在数百因子中自动筛选非零系数因子，实现稀疏化选股因子组合。适合因子库过大时的降维。

以极端行情、政策事件作为多分类标签，训练多分类逻辑回归，识别市场所处状态，配合仓位管理模块使用。

求解器对照表

求解器	L1	L2	大规模数据
`liblinear`	✅	✅	一般
`lbfgs`	❌	✅	好
`saga`	✅	✅	最大规模

优势：

劣势：