Image 1 Description

Image 2 Description

Image 1 Description

Image 2 Description

0%

原创统计学习随手小记

决策树算法-C4.5算法

发表于2023-10-25更新于2023-10-25

字数总计:734阅读时长:2分钟郑州

一、C4.5算法介绍

C4.5算法是对ID3决策树算法的改进，之所以要改进ID3算法，主要有以下原因： $g(D,A)=H(D)-H(D|A)$ ，信息增益倾向于选择取值多的特征，当特征取值多时，D被划分为多个子数据集，每个子数据集中的样本数可能比较少，里面只包含单一类别样本的可能性就比较大，这样就会导致条件熵比较小，从而使得信息增益比较大，在极限情况下，特征A的取值特别多，以至于每个样本都有一个不同的取值，这样每个子数据集就只含有一个样本，每个子数据集的类别都是确定的。比如：以毫米为单位的发长特征。（本质上还是数据量不足）

改进思想：

相对信息增益，即：信息增益率
用信息增益率代替信息增益选择特征

分离信息：

分离信息也是一种熵，按照特征取值计算概率，不是按照分类结果计算概率：

SI(D,A)=-\sum_{i=1}^{n}{P_i}·log(P_i)=-\sum_{i=1}^{n}{\frac{D中特征A取第i个值的样本数}{D中的样本数}·log(\frac{D中特征A取第i个值的样本数}{D中的样本数})}

信息增益率：

g_r(D,A)=\frac{g(D,A)}{SI(D,A)}=\frac{H(D)-H(D|A)}{SI(D,A)}

二、计算举例

三、C4.5算法改进

C4.5算法不仅通过引入信息增益率改进了决策树特征选取的方法，而且引入连续特征（允许特征取值连续）。

处理方法：

按照特征A的取值对数据集D中的样本从小到大排序，第i个样本特征A的取值为 $a_i$

b_i=\frac{a_i+a_{i+1}}{2}

按照 $b_i$ 值将D划分为2部分
计算信息增益率
最大的信息增益率为特征A的信息增益率

注意：特征取连续值时，并不是只能使用一次。

C4.5算法也存在不足，它倾向于取值不平衡的特征。改进方法为：从n个信息增益大的特征中选择信息增益率最大的特征，n的确定是根据信息增益大于平均值的特征。

打赏作者

感谢你赐予我前进的力量

wechat
alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

原创决策树算法-C4.5算法

文章作者: GanSer

文章链接: https://www.gan1ser.top/post/ab07c3ad.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 GanSer！

相关推荐

24考研人还没考25考研狗已经把持不住了

51单片机中的电磁干扰问题

Git摘樱桃拆分commit进行提交

Pytorch中的EarlyStopping

Pytorch中的初始化权重

RGB图像、全色图像、多光谱图像、高光谱图像

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果

博客快捷键

shift K

关闭快捷键功能

shift A

打开中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

站内搜索

shift R

随机访问

shift H

返回首页

shift F

友链鱼塘

shift L

友链页面

shift P

关于本站

shift I

原版右键菜单