0%

决策树算法解析

设样本有$m$个类别,$v$是属性中不同值的数量

ID3算法-信息熵

信息量

分类所期望的信息量: $I=-\sum_{i=1}^{m}\frac{s_{i}}{s}log_{2}(\frac{s_{i}}{s})$

信息熵(加权)

为了得到准确的分类还需要多少期望信息量,即让划分的每种属性都有相同的类别。值越小分类就越准确

可理解为将该属性划分的每个节点的信息熵加权平均得到的$E(属性)$

信息增益

信息增益=原来的信息期望量-基于属性划分后的信息需求。基于属性划分后的信息需求即信息熵越小,信息增益就越大。故应选择这样的划分。

C4.5算法-信息增益率

为了解决与每个划分相关联的记录太少,以致预测不可靠。把属性测试条件产生的输出也考虑进去。

分裂信息(Split Info)

信息增益率(Gain Ratio)

增益率可以说明:大量的划分会导致信息增益率很小

属性划分$k$越大,会导致$SplitInfo$越大,则$GainRatio$越小

CART算法-Gini不纯度

Gini不纯度(指数)

$p(i|t)-节点t中属于类i的记录占比$

Gini指标的加权平均

不纯性度量的总结

不纯性度量的意义:不纯性度量的值越大,说明划分效果越差。当所有样本属于同一个类时,不纯性度量的值最小。

  • $Entropy(t)=-\sum_{i=0}^{c-1}p(i|t)log_{2}p(i|t)$
  • $Gini(t)=1-\sum_{i=0}^{c-1}[p(i|t)]^2$
  • $ClassificationError(t)=1-\max_{i}[p(i|t)]$

最大化增益$\Delta$:

(其中$I(\cdot)$是节点的不纯性度量,$N$是父节点上的样本总数,$k$是不同属性值的个数,$N(v_{j})$是与子女节点$v_{j}$关联的节点数。)

本文标题:决策树算法解析

文章作者:SkecisAI

发布时间:2020年10月27日 - 16:23:36

最后更新:2020年10月31日 - 13:47:30

原始链接:http://www.skecis.top/2020/10/27/决策树/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

感谢你的支持,希望本文能助你一臂之力。