Random Forest 技术文档

随机森林（Random Forest）是 Leo Breiman 于 2001 年提出的集成学习方法，通过 Bootstrap 采样和随机特征子集构建多棵决策树均值集成，是 A 股量化选股最常用的基础模型之一。

模型简介

随机森林在每棵树的训练过程中引入双重随机性：

这种设计使各树之间相关性降低，集成后方差大幅减小，同时保持低偏差。

原始论文：Random Forests — Leo Breiman, Machine Learning 45(1), 5–32, 2001

将价值、成长、动量、质量等几十个 Alpha 因子作为输入特征，以次日涨跌或未来收益为标签训练分类/回归随机森林，输出个股得分进行排名选股。

feature_importances_ 基于 MDI（Mean Decrease Impurity）计算，可无监督地筛选对收益预测贡献最大的因子，替代传统 IC 值排名法。

设置 oob_score=True 直接获得无需交叉验证的泛化误差估计，节省回测计算量，且自然适应时序数据（OOB 样本不参与该树训练）。

优势：

劣势：