Skip to content

CatBoost 技术文档

CatBoost 是由 Yandex 开发的梯度提升决策树框架,以原生支持类别型特征和有序提升(Ordered Boosting)策略著称,无需手动 One-Hot Encoding,天然适合 A 股混合类型因子数据。


模型简介

CatBoost 名称来自 "Category" 和 "Boosting",专门针对类别型特征(Categorical Features)进行优化。其有序目标统计量(Ordered Target Statistics)方法利用历史样本计算类别均值,避免目标泄露。训练支持 CPU/GPU,可直接导出为 ONNX/PMML 格式用于生产部署。

官方文档:CatBoost About 学术论文合集:CatBoost Papers


在 A 股量化策略中的应用

1. 混合特征因子选股

A 股数据天然包含类别型字段:行业分类、板块代码、证监会行业等。CatBoost 可直接传入这些字段,无需 LabelEncoder 或 One-Hot,减少特征工程工作量。

2. 财报文本特征利用

将季报公告类型(首次/修订/更正)、审计意见(无保留/保留)等作为类别特征输入,CatBoost 自动编码,捕捉财务质量因子。

3. 择时分类器

以宏观标签(牛市/熊市/震荡)等为类别特征,结合技术指标构建择时分类模型,输出多空信号。


核心参数(金融应用推荐)

参数说明推荐值
iterations树的数量300–1000
learning_rate步长0.01–0.1
depth树深4–8
l2_leaf_regL2 正则1–10
cat_features类别特征索引列表按实际列
eval_metric评估指标'AUC' / 'NDCG'
task_type计算设备'CPU' / 'GPU'
early_stopping_rounds早停轮数50–100

性能特点

优势:

  • 对类别型特征无需预处理,直接传入行业/板块代码
  • 有序提升防止目标泄露,在金融时间序列上更稳健
  • 内置 SHAP 值与特征重要性可视化,方便因子归因
  • 支持 ONNX 导出,便于与交易系统集成

劣势:

  • 训练速度比 LightGBM 慢
  • 纯数值特征场景优势不如 XGBoost/LightGBM 明显

官方参考资料

⚡ Real-time Data · 📊 Smart Analysis · 🎯 Backtesting