news 2026/6/10 15:12:27

机器学习中的熵

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习中的熵

摘要:本文探讨了熵在机器学习中的应用,重点介绍了其在决策树算法中的作用。熵用于衡量数据集的纯度或随机性,通过香农熵公式计算。决策树利用熵选择最优分割点,以生成同质性更强的子集。文章还提供了Python实现示例,使用鸢尾花数据集演示熵的计算过程,得出初始熵值为1.585,反映了三个类别的分布随机性。熵的概念源于热力学,现已成为机器学习中重要的数据分割指标。

目录

机器学习中的熵

熵的计算方法

示例计算

熵在决策树中的应用

Python 实现熵的计算

代码实现

代码说明

运行结果


机器学习中的熵

熵源于热力学,后被应用于信息论、统计学和机器学习等多个领域。在机器学习中,熵用于衡量数据集的纯度或随机性,尤其在决策树算法中,用于确定数据分割方式,以生成同质性更强的子集。本文将介绍机器学习中的熵、其特性及 Python 实现。

熵被定义为系统混乱度或随机性的度量。在决策树中,熵用于衡量节点的纯度:若一个节点中的所有样本都属于同一类别,则该节点为 “纯节点”,熵值为 0;若样本均匀分布在多个类别中,则节点纯度低、熵值高。

熵的计算方法

计算熵需先确定数据集中每个类别的概率。设 p(i) 为样本属于第 i 类的概率,若数据集包含 k 个类别,则系统的总熵(记为 H(S))按香农熵公式计算:

示例计算

假设有一个含 100 个样本的数据集,其中 60 个属于 A 类,40 个属于 B 类。则 A 类概率为 0.6,B 类概率为 0.4,数据集的熵为:

熵在决策树中的应用

决策树算法中,熵的核心作用是选择 “最优分割点”—— 目标是找到能使分割后子集总熵最低的分割方式,从而让子集的同质性最强。

具体流程如下:

1.计算整个数据集的初始熵 H(S);

2.针对每个特征(如 X1、X2)的所有可能分割方式,计算分割后的加权熵:

  • 对特征 X1 分割:
  • 对特征 X2 分割:

其中,p1​,p2​,p3​,p4​ 为各子集的样本占比,H(S1),H(S2),H(S3),H(S4) 为各子集的熵;

3.选择总熵最低的分割方式

生成决策树的子节点;

4.递归重复上述过程,直至所有节点为纯节点或满足停止条件。

Python 实现熵的计算

以下结合 scikit-learn 的 “鸢尾花(iris)数据集”,演示熵的计算过程:

代码实现

from sklearn.datasets import load_iris import numpy as np # 加载鸢尾花数据集 iris = load_iris() # 提取特征数据和标签(标签表示花的类别) X = iris.data y = iris.target # 定义熵计算函数 def entropy(y): n = len(y) # 样本总数 # 统计每个类别的样本数量 _, counts = np.unique(y, return_counts=True) # 计算每个类别的概率(占比) probs = counts / n # 按香农熵公式计算熵 return -np.sum(probs * np.log2(probs)) # 计算鸢尾花数据集标签的熵 target_entropy = entropy(y) # 输出结果(保留3位小数) print(f"标签熵值: {target_entropy:.3f}")

代码说明

  1. 加载数据集:使用load_iris()加载鸢尾花数据集,包含 3 个类别、150 个样本;
  2. 熵计算函数entropy(y)
    • 统计标签中每个类别的样本数量;
    • 计算每个类别的概率(占比);
    • 代入香农熵公式计算总熵;
  3. 输出结果:计算并打印数据集标签的熵值。

运行结果

执行上述代码后,输出如下:

plaintext

标签熵值: 1.585

该结果表明,鸢尾花数据集的初始熵为 1.585,反映了数据集中 3 个类别的分布随机性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 9:09:57

春节运维不慌!Deepoc具身模型外拓板破解人力短缺,让机器自主顶岗

春节临近,商场客流爆棚、物流订单激增、园区安防压力陡增,各行各业都陷入“人力短缺”的运营困境——迎宾接待忙不过来、物流分拣效率告急、安防巡检难以全覆盖,传统依赖人工的运营模式在节假日高峰面前频频“掉链”。而Deepoc具身模型外拓板…

作者头像 李华
网站建设 2026/6/10 10:38:20

这份榜单够用!9个AI论文平台测评:自考毕业论文+开题报告全攻略

在当前学术研究日益数字化的背景下,论文写作已成为高校学生和研究人员面临的核心挑战之一。尤其是自考群体,面对开题报告、毕业论文等关键环节,往往需要兼顾工作与学习,时间精力有限,对高效、可靠的写作工具需求尤为迫…

作者头像 李华
网站建设 2026/6/10 10:42:25

计算机毕设java体育馆预订管理平台 基于Java的体育场馆在线预约服务系统 Java实现的校园体育运动场地预订管理系统

计算机毕设java体育馆预订管理平台6wr8d9 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着高校体育设施资源日益紧张,传统的人工登记方式已无法满足师生对场地使用…

作者头像 李华