决策树
构建决策树时(例如ID3、C4.5、CART算法),需要量化纯度,遂引入了几个指标
| 指标 | 含义 | 特点 |
|---|---|---|
| 熵 (Entropy) | 熵越大 → 混乱越高(纯度低) | ID3、C4.5使用 |
| 基尼指数 (Gini Index) | 越小 → 节点越纯 | CART使用 |
| 分类误差率 (Classification Error) | 直观但不够灵敏 | 辅助分析用 |
熵 $$ H = -\sum_i p_i \log_2 p_i $$
基尼指数 $$ G = 1 - \sum_i p_i^2 $$
分类误差率 $$ E = 1 - \max(p_i) $$