机器学习——决策树之回归树-程序员充电站

概念

解决回归问题的决策树模型你就是回归树

回归树是一种基于决策树的监督学习算法，用于解决回归问题。通过递归地将特征空间划分为多个子区域，并在每个子区域内拟合一个简单的预测值（如均值），实现对连续目标变量的预测。

特点

必须是二叉树

回归树的构建过程

特征选择与分割
遍历所有特征和可能的切分点，选择使均方误差（MSE）或平均绝对误差（MAE）最小的特征和切分点。
分割准则公式：
[ \min_{j, s} \left[ \min_{c_1} \sum_{x_i \in R_1(j,s)} (y_i - c_1)^2 + \min_{c_2} \sum_{x_i \in R_2(j,s)} (y_i - c_2)^2 \right] ]
其中 ( R_1, R_2 ) 为分割后的子区域，( c_1, c_2 ) 为子区域内的预测值（通常取均值）。
递归分割
对每个子区域重复上述分割过程，直到满足停止条件（如最大深度、最小样本数或误差减少小于阈值）。
叶子节点预测
最终叶子节点的预测值为该区域内样本目标变量的均值。

举例：

两个核心问题：1.节点切分的依据是什么？

2.如何能进行预测？

根据这两个问题，我们讲解回归树的计算示例：

1、

1、计算最优切分点

因为只有一个变量，所以切分变量必然是x，可以考虑如下9个切分点：

[1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.5,9.5]。

【原因：实际上考虑两个变量间任意一个位置为切分点均可】

<1>切分点1.5的计算

当s=1.5时，将数据分为两个部分：

第一部分:(1,5.56)

第二部分:(2,5.7)、(3,5.91)、(4,6.4)…(10,9.05)

2、计算损失

C1=5.56

C2=1/9(5.7+5.91+6.4+6.8+7.05+8.9+8.7+9+9.05)=7.5

Loss = (5.56-5.56)^2 + (5.7-7.5)^2+(5.91-7.5)^2+…+(9.05-7.5)^2 =0+15.72 =15.72

3、同理计算其他分割点的损失

容易看出，当s=6.5时，loss=1.93最小，所以第一个划分点s=6.5。

4、对于小于6.5部分

<1>切分点1.5的计算

当s=1.5时，将数据分为两个部分：

第一部分:(1,5.56)

第二部分:(2,5.7)、(3,5.91)、(4,6.4)、(5,6.8)、(6,7.05)

Loss = 0 +(5.7-6.37)^2+(5.91-6.37)^2 +…+(7.05-6.37)^2

=0+1.3087=1.3087

C1=5.56

C2=1/5(5.7+5.91+6.4+6.8+7.05)=6.37

5、可得出

容易看出:<1>当s=3.5时，loss=0.2771最小，所以第一个划分点s=3.5。

<2>当s=8.5时，loss=0.021最小，所以第二个划分点s=8.5。

6、假设只分裂我们计算的这几次

那么分段函数为：

<1>当x<=3.5时，1/3(5.56+5.7+5.91)=5.72

<2>当3.5<x<=6.5时，1/3(6.4+6.8+7.05)=6.75

<3>当6.5<x<=8.5时，1/2(8.9+8.7)=8.8

<4>当8.5<x时，1/2(9+9.05)=9.025

最终得到分段函树！

7、对于预测来说

特征x必然位于其中某个区间内，所以，即可得到回归的结果，比如说：

如果x=11,那么对应的回归值为9.025.

<1>当x<=3.5时，1/3(5.56+5.7+5.91)=5.72

<2>当3.5<x<=6.5时，1/3(6.4+6.8+7.05)=6.75

<3>当6.5<x<=8.5时，1/2(8.9+8.7)=8.8

<4>当8.5<x时，1/2(9+9.05)=9.025

8、决策树的构造：

回归树的实现示例（Python）

使用sklearn构建回归树：

from sklearn.tree import DecisionTreeRegressor from sklearn.model_selection import train_test_split # 假设 X 为特征矩阵，y 为目标变量 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 初始化回归树模型 reg_tree = DecisionTreeRegressor(max_depth=3, min_samples_leaf=5) reg_tree.fit(X_train, y_train) # 预测与评估 predictions = reg_tree.predict(X_test)

回归树的参数解释

一些方法：

1.apply :返回预测每个样本的叶子的索引

2.decision_path:返回树中的决策路径

3.get_depth:获取树的深度

4.get_n_leaves:获取树的叶子节点数

5.get_params:获取此估计器的参数，即前面配置的全部参数信息

6.score:得到决策树的评判标准R2

回归树的优化方法

剪枝：通过代价复杂度剪枝（CCP）减少过拟合。
集成学习：结合随机森林或梯度提升树（如 XGBoost、LightGBM）提升性能。
超参数调优：使用网格搜索或贝叶斯优化调整max_depth、min_samples_split等参数。

应用场景

房价预测、销量预测等连续值预测任务。
特征重要性分析，辅助业务决策。

由南京导航失灵看人机环境系统智能

2025年12月17日，南京部分区域突发导航定位异常，百度、高德等主流导航软件出现“行驶在无数据道路上”“定位漂移至57公里外”等问题，导致外卖配送延误、网约车路线冲突、市民出行迷茫。这场“数字迷航”虽仅持续数小时，却如同一面…

李华

Linly-Talker在跨国会议同传中的双屏分镜设想

Linly-Talker在跨国会议同传中的双屏分镜设想在全球化协作日益紧密的今天，一场国际会议中常有来自十余个国家的代表发言，语言壁垒却始终是沟通效率的最大瓶颈。传统同声传译依赖少数高端人才，不仅成本高昂、资源稀缺，还容易因疲劳…

李华

【第二阶段—机器学习入门】第十五章：机器学习核心概念

学习目标：理解机器学习的本质，掌握监督/无监督学习的区别，理解训练集/测试集的重要性预计时间：20分钟前置知识：Python基础，Numpy基础📋 本篇内容机器学习本质 → 学习方式分类 → 核心术语(训…

李华

Linly-Talker在电力巡检报告语音播报中的工业应用

Linly-Talker在电力巡检报告语音播报中的工业应用工业智能化浪潮下的新挑战：让机器“会说话” 在变电站的清晨，巡检员背着红外热像仪穿梭于高压设备之间。传统流程中，他们需要手动记录温度、判断异常，并在任务结束后整理成冗长的文…

李华

Linly-Talker与MetaHuman相比有何差异？全方位对比

Linly-Talker 与 MetaHuman：两条数字人技术路径的深度碰撞在虚拟主播24小时不间断直播、AI客服精准解答千人千问、企业纷纷推出“数字员工”的今天，数字人早已不再是科幻电影中的概念。它正以惊人的速度渗透进金融、教育、电商、媒体等各个领域&#xf…

李华

Linly-Talker动态打光技术如何提升画面质感？

Linly-Talker动态打光技术如何提升画面质感？ 在虚拟主播、AI讲解员和数字员工日益普及的今天，一个关键问题逐渐浮出水面：为什么有些数字人看起来“像真人”，而另一些却始终带着“塑料感”？答案或许不在建模精度&#x…

李华