CatBoost 技术文档
CatBoost 是由 Yandex 开发的梯度提升决策树框架,以原生支持类别型特征和有序提升(Ordered Boosting)策略著称,无需手动 One-Hot Encoding,天然适合 A 股混合类型因子数据。
模型简介
CatBoost 名称来自 "Category" 和 "Boosting",专门针对类别型特征(Categorical Features)进行优化。其有序目标统计量(Ordered Target Statistics)方法利用历史样本计算类别均值,避免目标泄露。训练支持 CPU/GPU,可直接导出为 ONNX/PMML 格式用于生产部署。
官方文档:CatBoost About 学术论文合集:CatBoost Papers
在 A 股量化策略中的应用
1. 混合特征因子选股
A 股数据天然包含类别型字段:行业分类、板块代码、证监会行业等。CatBoost 可直接传入这些字段,无需 LabelEncoder 或 One-Hot,减少特征工程工作量。
2. 财报文本特征利用
将季报公告类型(首次/修订/更正)、审计意见(无保留/保留)等作为类别特征输入,CatBoost 自动编码,捕捉财务质量因子。
3. 择时分类器
以宏观标签(牛市/熊市/震荡)等为类别特征,结合技术指标构建择时分类模型,输出多空信号。
核心参数(金融应用推荐)
| 参数 | 说明 | 推荐值 |
|---|---|---|
iterations | 树的数量 | 300–1000 |
learning_rate | 步长 | 0.01–0.1 |
depth | 树深 | 4–8 |
l2_leaf_reg | L2 正则 | 1–10 |
cat_features | 类别特征索引列表 | 按实际列 |
eval_metric | 评估指标 | 'AUC' / 'NDCG' |
task_type | 计算设备 | 'CPU' / 'GPU' |
early_stopping_rounds | 早停轮数 | 50–100 |
性能特点
优势:
- 对类别型特征无需预处理,直接传入行业/板块代码
- 有序提升防止目标泄露,在金融时间序列上更稳健
- 内置 SHAP 值与特征重要性可视化,方便因子归因
- 支持 ONNX 导出,便于与交易系统集成
劣势:
- 训练速度比 LightGBM 慢
- 纯数值特征场景优势不如 XGBoost/LightGBM 明显
