news 2026/6/10 14:05:43

【机器学习】案例1.1——决策树进行非线性回归任务(正弦曲线拟合)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【机器学习】案例1.1——决策树进行非线性回归任务(正弦曲线拟合)

一、项目背景与解决方案

1. 项目背景

决策树是机器学习中经典的非参数模型,可同时支持分类和回归任务(决策树回归)。在回归场景中,决策树通过递归划分特征空间,将每个划分后的子区域映射为该区域内样本的均值(以MSE为划分准则),从而实现对连续值的预测。

本项目聚焦非线性回归任务(正弦曲线拟合),核心目标包括:

  • 验证决策树回归器对带噪声非线性数据的拟合能力;
  • 探究决策树核心超参数max_depth(树深度)对拟合效果的影响(深度过小易欠拟合,深度过大易过拟合);
  • 通过可视化对比真实值与不同深度模型的预测值,直观展示超参数选择的重要性。
2. 解决方案

整体流程分为三步:

  1. 数据构建:生成[-3, 3]范围内的随机自变量,基于正弦函数生成因变量并添加轻微噪声,模拟真实场景的非线性带噪声数据;
  2. 基础拟合验证:使用固定深度(3)的决策树回归器拟合数据,可视化预测曲线与真实值的对比;
  3. 超参数对比分析:构建深度为2/4/6/8/10的决策树回归器,分别拟合数据并可视化预测曲线,分析不同深度的拟合效果(欠拟合/过拟合)。

二、带详细注释的代码

# 导入必要的库importnumpyasnp# 数值计算库,用于生成数据、数组处理fromsklearn.treeimportDecisionTreeRegressor# 导入决策树回归器importmatplotlib.pyplotasplt# 可视化库,用于绘制拟合结果# ===================== 第一步:构建带噪声的正弦函数数据集 =====================# 设置样本数量为100N=100# 生成[-3, 3]范围内的随机自变量x:np.random.rand(N)生成[0,1)的随机数,*6后范围是[0,6),-3后范围是[-3,3)x=np.random.rand(N)*6-3# 对x进行排序,方便后续可视化(排序后曲线更易观察)x.sort()# 生成因变量y:基于正弦函数np.sin(x),添加均值为0、方差0.05的随机噪声(模拟真实数据的噪声)y=np.sin(x)+np.random.rand(N)*0.05# 打印y值(可选,用于调试查看数据)print(y)# 重塑x的形状:sklearn模型要求输入特征为二维数组(样本数×特征数),reshape(-1,1)表示将一维数组转为N行1列的二维数组x=x.reshape(-1,1)# 打印重塑后的x(可选,用于调试查看数据维度)print(x)# ===================== 第二步:使用固定深度的决策树回归拟合数据 =====================# 初始化决策树回归器# criterion='mse':划分准则为均方误差(回归任务默认准则,最小化每个节点的均方误差)# max_depth=3:设置决策树最大深度为3,限制树的复杂度,避免过拟合dt_reg=DecisionTreeRegressor(criterion='mse',max_depth=3)# 用训练数据(x,y)拟合决策树模型dt_reg.fit(x,y)# 生成测试集:在[-3,3]范围内生成50个均匀分布的点,用于绘制平滑的预测曲线x_test=np.linspace(-3,3,50).reshape(-1,1)# 使用训练好的模型预测测试集的y值y_hat=dt_reg.predict(x_test)# 可视化真实值与预测值plt.plot(x,y,"y*",label="actual")# 绘制真实值,黄色星号标记plt.plot(x_test,y_hat,"b-",linewidth=2,label="predict")# 绘制预测值,蓝色实线,线宽2plt.legend(loc="upper left")# 显示图例,位置在左上角plt.grid()# 显示网格线,方便观察plt.show()# 展示图像# plt.savefig("./temp_decision_tree_regressor") # 可选:保存图像到指定路径# ===================== 第三步:对比不同深度的决策树拟合效果 =====================# 定义要测试的决策树深度列表depth=[2,4,6,8,10]# 定义对应深度曲线的颜色(r=红,g=绿,b=蓝,m=品红,y=黄)color='rgbmy'# 初始化决策树回归器(暂不指定深度,后续通过set_params动态修改)dt_reg=DecisionTreeRegressor()# 绘制真实值,黑色圆点标记plt.plot(x,y,"ko",label="actual")# 生成测试集(与第二步一致,用于绘制平滑预测曲线)x_test=np.linspace(-3,3,50).reshape(-1,1)# 遍历不同深度和对应颜色,逐一训练并可视化ford,cinzip(depth,color):# 动态设置决策树的最大深度dt_reg.set_params(max_depth=d)# 用训练数据拟合当前深度的决策树dt_reg.fit(x,y)# 预测测试集的y值y_hat=dt_reg.predict(x_test)# 绘制当前深度的预测曲线,指定颜色和线宽,添加图例标签plt.plot(x_test,y_hat,'-',color=c,linewidth=2,label="depth=%d"%d)# 显示图例,位置在左上角plt.legend(loc="upper left")# 显示网格线(b=True为显式开启,默认开启)plt.grid(b=True)# 展示图像plt.show()# plt.savefig("./temp_compare_decision_tree_depth") # 可选:保存对比图像到指定路径

简洁版

importnumpyasnpfromsklearn.treeimportDecisionTreeRegressorimportmatplotlib.pyplotasplt# 生成带噪声的正弦数据集N=100x=np.random.rand(N)*6-3x.sort()y=np.sin(x)+np.random.rand(N)*0.05x=x.reshape(-1,1)# 固定深度决策树回归拟合与可视化dt_reg=DecisionTreeRegressor(criterion='mse',max_depth=3)dt_reg.fit(x,y)x_test=np.linspace(-3,3,50).reshape(-1,1)y_hat=dt_reg.predict(x_test)plt.plot(x,y,"y*",label="actual")plt.plot(x_test,y_hat,"b-",linewidth=2,label="predict")plt.legend(loc="upper left")plt.grid()plt.show()# 对比不同深度决策树拟合效果depth=[2,4,6,8,10]color='rgbmy'dt_reg=DecisionTreeRegressor()plt.plot(x,y,"ko",label="actual")x_test=np.linspace(-3,3,50).reshape(-1,1)ford,cinzip(depth,color):dt_reg.set_params(max_depth=d)dt_reg.fit(x,y)y_hat=dt_reg.predict(x_test)plt.plot(x_test,y_hat,'-',color=c,linewidth=2,label=f"depth={d}")plt.legend(loc="upper left")plt.grid(b=True)plt.show()

三、代码运行结果分析

  1. 固定深度(3)的拟合结果:预测曲线能大致贴合正弦曲线的趋势,但因深度限制,曲线是分段常数(决策树回归的特性),不会过度拟合噪声;
  2. 不同深度的对比结果
    • 深度=2:曲线过于简单,无法捕捉正弦曲线的波动,呈现欠拟合
    • 深度=4/6:曲线能较好贴合正弦曲线趋势,拟合效果最优;
    • 深度=8/10:曲线过度贴合噪声点,呈现过拟合(曲线出现不必要的锯齿状波动)。

该结果验证了决策树深度对拟合效果的核心影响:深度需根据数据复杂度合理选择,过浅欠拟合、过深过拟合。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/9 9:33:23

6、Web应用程序安全漏洞检测与分析

Web应用程序安全漏洞检测与分析 在当今数字化的时代,网络安全至关重要。Web应用程序面临着各种各样的安全威胁,如跨站脚本攻击(XSS)、SQL注入、会话劫持等。本文将详细介绍如何使用一些工具和方法来检测这些常见的安全漏洞。 1. 使用Burp Suite查看和修改请求 Burp Suite…

作者头像 李华
网站建设 2026/6/8 14:53:31

AI开发全链路工具深度解析:从智能编码到模型部署

引言:AI开发范式变革人工智能开发正经历着从“手工作坊”到“工业化生产”的深刻变革。这一转变的核心驱动力是一系列专业化AI工具的出现与成熟。智能编码工具如GitHub Copilot改变了开发者与代码的交互方式,数据标注工具将繁琐的标注工作系统化&#xf…

作者头像 李华
网站建设 2026/6/10 5:35:56

社会科学选拔测试

社会科学选拔测试 多选题 二、多项选择题:17~33小题,每小题2分,共34分。 下列每题给出的四个选项中,至少有两个选项是符合题目要求的。多选题的期望值是多少? 假设: 全选对的概率是30%&#xff…

作者头像 李华
网站建设 2026/6/9 23:05:47

(7-4-01)基于MCP实现的金融投资Agent(1)视觉代理MCP服务器

7.4 综合实战:视觉代理MCP服务器在本节的实例中,实现了一个轻量级的MCP 服务器,由Landing AI团队开发,能将来自兼容 MCP 协议的客户端(如Claude Desktop、Cursor、Cline等)的每个工具调用,转换…

作者头像 李华
网站建设 2026/6/9 23:54:07

❽⁄₆ ⟦ OSCP ⬖ 研记 ⟧ 修改漏洞利用脚本 ➱ 修改缓冲区偏移量

郑重声明:本文所涉安全技术仅限用于合法研究与学习目的,严禁任何形式的非法利用。因不当使用所导致的一切法律与经济责任,本人概不负责。任何形式的转载均须明确标注原文出处,且不得用于商业目的。 🔋 点赞 | 能量注入…

作者头像 李华
网站建设 2026/6/10 5:35:03

8088单板机C语言汇编混合编程实验方法与步骤

以所给例程prj14为例 1.例程功能:串口中断接收(触发8259的IR1中断),8253时钟芯片,定时触发8259的IR0中断,8255数码管的动态显示。 2.硬件电路如下 端口地址和硬件原理图,参见 3.程序代码如下 可…

作者头像 李华