Skip to content

ExtraTrees 技术文档

ExtraTrees(Extremely Randomized Trees,极端随机树)是随机森林的强化版本,通过对分裂阈值的完全随机化进一步降低方差,训练速度也更快。


模型简介

ExtraTrees 由 Geurts、Ernst 和 Wehenkel 于 2006 年提出。与随机森林的关键区别在于:

  • 随机森林:对每个特征抽取若干候选分裂点,再选最优
  • ExtraTrees:直接随机选取分裂阈值(完全不搜索最优),进一步引入随机性

这种极端随机化使模型方差更小,但偏差略有上升。实践中在高维特征下 ExtraTrees 往往速度更快且泛化更好。

原始论文:Extremely randomized trees — Geurts, Ernst & Wehenkel, Machine Learning 63(1), 3–42, 2006


在 A 股量化策略中的应用

1. 高维因子快速筛选

A 股全市场因子库可能包含数百个原始因子。ExtraTrees 在高维小样本场景下收敛更快,适合对全市场 3900+ 股票进行快速因子重要性评估。

2. 日内择时

使用分钟级 OHLCV 特征构建日内涨跌预测,ExtraTrees 的训练速度优势在高频更新时尤为突出。

3. 与 Random Forest 的组合

ExtraTrees 和 Random Forest 预测结果做等权平均,可获得比单模型更稳定的 IC 值,是常见的基础模型集成方式。


核心参数(金融应用推荐)

参数说明推荐值
n_estimators树的数量100–500
max_features每次分裂特征数"sqrt"(分类)
max_depth树深None
min_samples_leaf叶子最少样本5–20
bootstrap是否自举采样False(默认)
n_jobs并行数-1

与 Random Forest 的关键区别

ExtraTrees 默认 bootstrap=False(使用全量样本),而 Random Forest 默认 bootstrap=True。金融回测时建议保持默认,或根据样本规模选择。


性能特点

优势:

  • 比随机森林训练更快(无需搜索最优阈值)
  • 方差更低,在噪声多的金融数据上泛化能力更强
  • 高度并行化,n_jobs=-1 时可充分利用多核服务器

劣势:

  • 随机分裂阈值导致单棵树精度低,需更多树补偿
  • 对异常值的鲁棒性略弱于随机森林

官方参考资料

⚡ Real-time Data · 📊 Smart Analysis · 🎯 Backtesting