LinearSVC 技术文档

LinearSVC 是基于 liblinear 库实现的线性支持向量分类器，在高维稀疏特征场景下训练速度远超核 SVM，适合 A 股大规模因子分类任务。

模型简介

LinearSVC 求解以下优化问题（L2 正则 + 平方合叶损失）：

$$\min_{w,b} \frac{1}{2}w^Tw + C \sum_{i=1}^{n} \max(0, 1 - y_i(w^T\phi(x_i) + b))^2$$

使用 liblinear 求解器，比基于核函数的 SVM（SVC）在百万级样本上快几个数量级。支持 One-vs-Rest 多分类策略。

核心库论文：LIBLINEAR: A Library for Large Linear Classification — Fan et al., JMLR 9, 1871–1874, 2008

当因子数量远大于样本数量时，LinearSVC 的高维分类能力突出。对 3900+ 股票的全因子矩阵进行分类，C 参数控制正则强度，penalty='l1' 实现因子稀疏化。

将不同行业股票的收益区间（高涨/低涨/横盘/下跌）作为多分类目标，LinearSVC 使用 OvR 策略分别为每类训练一个分类器，输出最高置信度类别。

研报、公告的 TF-IDF 向量特征维度极高（数千维），LinearSVC 在稀疏高维文本特征上是最高效的分类器之一，可用于情感分类（正面/负面）辅助选股。

L1 参数组合限制

penalty='l1' 时必须同时设置 loss='squared_hinge' 且 dual=False，否则会抛出参数组合错误。

优势：

劣势：