ExtraTrees 技术文档
ExtraTrees(Extremely Randomized Trees,极端随机树)是随机森林的强化版本,通过对分裂阈值的完全随机化进一步降低方差,训练速度也更快。
模型简介
ExtraTrees 由 Geurts、Ernst 和 Wehenkel 于 2006 年提出。与随机森林的关键区别在于:
- 随机森林:对每个特征抽取若干候选分裂点,再选最优
- ExtraTrees:直接随机选取分裂阈值(完全不搜索最优),进一步引入随机性
这种极端随机化使模型方差更小,但偏差略有上升。实践中在高维特征下 ExtraTrees 往往速度更快且泛化更好。
原始论文:Extremely randomized trees — Geurts, Ernst & Wehenkel, Machine Learning 63(1), 3–42, 2006
在 A 股量化策略中的应用
1. 高维因子快速筛选
A 股全市场因子库可能包含数百个原始因子。ExtraTrees 在高维小样本场景下收敛更快,适合对全市场 3900+ 股票进行快速因子重要性评估。
2. 日内择时
使用分钟级 OHLCV 特征构建日内涨跌预测,ExtraTrees 的训练速度优势在高频更新时尤为突出。
3. 与 Random Forest 的组合
ExtraTrees 和 Random Forest 预测结果做等权平均,可获得比单模型更稳定的 IC 值,是常见的基础模型集成方式。
核心参数(金融应用推荐)
| 参数 | 说明 | 推荐值 |
|---|---|---|
n_estimators | 树的数量 | 100–500 |
max_features | 每次分裂特征数 | "sqrt"(分类) |
max_depth | 树深 | None |
min_samples_leaf | 叶子最少样本 | 5–20 |
bootstrap | 是否自举采样 | False(默认) |
n_jobs | 并行数 | -1 |
与 Random Forest 的关键区别
ExtraTrees 默认 bootstrap=False(使用全量样本),而 Random Forest 默认 bootstrap=True。金融回测时建议保持默认,或根据样本规模选择。
性能特点
优势:
- 比随机森林训练更快(无需搜索最优阈值)
- 方差更低,在噪声多的金融数据上泛化能力更强
- 高度并行化,
n_jobs=-1时可充分利用多核服务器
劣势:
- 随机分裂阈值导致单棵树精度低,需更多树补偿
- 对异常值的鲁棒性略弱于随机森林
