LightGBM 技术文档

LightGBM 是由微软研究院开发的高效梯度提升框架，以叶子级别（leaf-wise）生长策略和直方图算法著称，在大规模 A 股因子数据上速度远超传统 GBDT。

模型简介

LightGBM 发表于 NeurIPS 2017，采用 Histogram-based 算法将连续特征分桶，大幅降低内存与计算量。与 XGBoost 按层生长不同，LightGBM 采用 leaf-wise（最优叶子优先） 策略，每次分裂增益最大的叶节点，以更少的树数获得更低误差。

原始论文：LightGBM: A Highly Efficient Gradient Boosting Decision Tree — Ke et al., NeurIPS 2017

在 A 股量化策略中的应用

1. 涨跌分类（二值标签）

使用 objective='binary'，输出 predict_proba 作为个股上涨概率，日频多头信号。评估指标建议使用 metric='auc'。

2. 区间收益预测（Quantile 回归）

使用 objective='quantile' 配合 alpha=0.9 预测收益上界，构建保守型仓位控制，适合 A 股高波动市场。

3. 因子排序选股（LambdaRank）

使用 objective='lambdarank'，以 NDCG 为优化目标对股票池排序，直接产出每期持仓权重。LightGBM 对大规模排序特别高效。

官方特性说明：LightGBM Features

核心参数（金融应用推荐）

参数	说明	推荐值
`num_leaves`	叶子数（控制复杂度核心）	20–64
`learning_rate`	步长	0.01–0.05
`n_estimators`	轮数	300–1000
`max_depth`	树深限制（-1=不限）	5–8
`feature_fraction`	特征采样比例	0.6–0.8
`bagging_fraction`	数据采样比例	0.7–0.9
`min_child_samples`	叶子最少样本	20–50
`lambda_l1` / `lambda_l2`	正则化	0.1–1.0

性能特点

优势：

训练速度比 XGBoost 快 10× 以上，适合每日批量回测
内存占用低，可处理 3900+ 股票 × 数百因子的全市场数据
支持 categorical_feature 直接传入行业/板块分类变量
内置 NDCG、MAP、AUC、Quantile 等金融常用评估指标

劣势：

leaf-wise 生长在小数据集上容易过拟合，需限制 num_leaves
对超参数敏感，建议使用 Optuna 或网格搜索

LightGBM 技术文档 ​

模型简介 ​

在 A 股量化策略中的应用 ​

1. 涨跌分类（二值标签） ​

2. 区间收益预测（Quantile 回归） ​

3. 因子排序选股（LambdaRank） ​

核心参数（金融应用推荐） ​

性能特点 ​

官方参考资料 ​