决策树

构建决策树时(例如ID3、C4.5、CART算法),需要量化纯度,遂引入了几个指标

指标 含义 特点
熵 (Entropy) 熵越大 → 混乱越高(纯度低) ID3、C4.5使用
基尼指数 (Gini Index) 越小 → 节点越纯 CART使用
分类误差率 (Classification Error) 直观但不够灵敏 辅助分析用

熵 $$ H = -\sum_i p_i \log_2 p_i $$

基尼指数 $$ G = 1 - \sum_i p_i^2 $$

分类误差率 $$ E = 1 - \max(p_i) $$