news 2026/4/25 3:29:35

Day 13:朴素贝叶斯分类器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Day 13:朴素贝叶斯分类器

Day 13:朴素贝叶斯分类器

📋 目录

  1. 朴素贝叶斯概述
  2. 贝叶斯定理基础
  3. 朴素贝叶斯的“朴素”假设
  4. 三种朴素贝叶斯模型详解
  5. 朴素贝叶斯的优缺点
  6. 拉普拉斯平滑

第一部分:朴素贝叶斯概述

1.1 什么是朴素贝叶斯?

朴素贝叶斯(Naive Bayes)是一系列基于贝叶斯定理的分类算法,核心假设是特征之间相互独立

关键特点

  • 属于生成式模型(学习联合概率P(X,Y)P(X,Y)P(X,Y)
  • 训练速度极快(只需计算概率)
  • 对小数据集表现良好

1.2 应用场景

应用领域例子特点
文本分类垃圾邮件过滤、情感分析特征独立假设基本成立
金融预警极端涨跌预警、信用评分快速筛选高风险样本
医疗诊断疾病预测可解释性强
推荐系统用户偏好预测冷启动友好

1.3 朴素贝叶斯与其他模型对比

特性逻辑回归KNNSVM朴素贝叶斯
训练速度无训练最快
预测速度最快
小数据表现一般优秀
可解释性
特征独立假设

第二部分:贝叶斯定理基础

2.1 条件概率

定义:在事件 B 发生的条件下,事件 A 发生的概率。
P(A∣B)=P(A∩B)P(B) P(A|B) = \frac{P(A \cap B)}{P(B)}P(AB)=P(B)P(AB)

2.2 贝叶斯定理

P(A∣B)=P(B∣A)⋅P(A)P(B) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}P(AB)=P(B)P(BA)P(A)

解读

  • P(A)P(A)P(A)先验概率(观察到数据前的信念)
  • P(B∣A)P(B|A)P(BA)似然(给定类别下,数据的概率)
  • P(B)P(B)P(B)证据(数据的边际概率)
  • P(A∣B)P(A|B)P(AB)后验概率(观察到数据后的信念)

2.3 应用到分类问题

对于分类问题,我们想计算:
P(y=c∣x)=P(x∣y=c)⋅P(y=c)P(x) P(y = c|\mathbf{x}) = \frac{P(\mathbf{x}|y=c) \cdot P(y=c)}{P(\mathbf{x})}P(y=cx)=P(x)P(xy=c)P(y=c)

预测规则
y^=arg⁡max⁡cP(y=c∣x)=arg⁡max⁡cP(x∣y=c)⋅P(y=c) \hat{y} = \arg\max_c P(y = c|\mathbf{x}) = \arg\max_c P(\mathbf{x}|y = c) \cdot P(y = c)y^=argcmaxP(y=cx)=argcmaxP(xy=c)P(y=c)
由于P(x)P(\mathbf{x})P(x)对所有类别相同,可以忽略。


第三部分:朴素贝叶斯的“朴素”假设

3.1 特征独立性假设

核心假设:给定类别yyy后,各个特征之间条件独立
P(x∣y=c)=P(x1,x2,…,xn∣y=c)=∏i=1nP(xi∣y=c) P(\mathbf{x}|y = c) = P(x_1, x_2, \ldots, x_n|y = c) = \prod_{i=1}^n P(x_i|y = c)P(xy=c)=P(x1,x2,,xny=c)=i=1nP(xiy=c)

3.2 为什么这个假设“朴素”?

现实情况:特征之间通常存在相关性。

金融数据例子

  • RSI 和 MACD 都与价格相关 → 它们不独立
  • 今日收益率和明日收益率 → 时间序列自相关

为什么还管用?

  1. 模型对依赖关系具有一定鲁棒性
  2. 在小数据集上表现优异
  3. 决策边界可能仍然正确

3.3 独立性假设的影响

情况效果
特征完全独立最优分类器
特征弱相关仍可良好工作
特征强相关概率估计不准,但分类边界可能仍正确

第四部分:三种朴素贝叶斯模型

4.1 高斯朴素贝叶斯(Gaussian Naive Bayes)

适用场景:连续特征,假设服从正态分布

公式
P(xi∣y=c)=12πσic2exp⁡(−(xi−μic)22σic2) P(x_i|y = c) = \frac{1}{\sqrt{2\pi\sigma_{ic}^2}} \exp\left(-\frac{(x_i-\mu_{ic})^2}{2\sigma_{ic}^2}\right)P(xiy=c)=2πσic21exp(2σic2(xiμic)2)

其中:

  • μic\mu_{ic}μic:类别ccc中特征iii的均值
  • σic2\sigma_{ic}^2σic2:类别ccc中特征iii的方差

在量化中应用

  • 技术指标(RSI、MACD、波动率)
  • 收益率序列

4.2 多项式朴素贝叶斯(Multinomial Naive Bayes)

适用场景:离散特征(如词频计数),假设服从多项分布

公式
P(x∣y=c)=(∑ixi)!∏ixi!∏iP(xi∣y=c)xi P(\mathbf{x}|y = c) = \frac{(\sum_i x_i)!}{\prod_i x_i!} \prod_i P(x_i|y = c)^{x_i}P(xy=c)=ixi!(ixi)!iP(xiy=c)xi

在量化中应用

  • 新闻情感词频分析
  • 订单流计数数据

4.3 伯努利朴素贝叶斯(Bernoulli Naive Bayes)

适用场景二值特征(0/1),假设服从伯努利分布

公式
P(xi∣y=c)=P(xi=1∣y=c)xi⋅(1−P(xi=1∣y=c))1−xi P(x_i|y = c) = P(x_i = 1|y = c)^{x_i} \cdot (1 - P(x_i = 1|y = c))^{1 - x_i}P(xiy=c)=P(xi=1∣y=c)xi(1P(xi=1∣y=c))1xi

在量化中应用

  • 技术指标的二值化(如 RSI > 70 → 1)
  • 事件标志(如财报发布 → 1)

4.4 模型选择指南

数据类型推荐模型例子
连续值(正态分布)高斯NB技术指标、收益率
计数/频数多项式NB词频、交易次数
二值特征伯努利NB阈值化后的指标

第五部分:朴素贝叶斯的优缺点

5.1 优点

优点说明
训练极快只需计算统计量(均值、方差、概率)
预测极快简单的查表和乘法运算
小数据友好不需要大量样本
天然处理多分类直接计算每类概率
可解释性强可以查看每个特征的影响
对无关特征鲁棒独立假设使其不受无关特征影响

5.2 缺点

缺点说明解决方案
特征独立假设现实中很少成立特征选择、降维
零概率问题未出现过的特征组合概率为0拉普拉斯平滑
概率估计不准独立假设导致概率失真关注分类而非概率
对特征分布敏感高斯假设可能不成立尝试其他分布或分箱

5.3 在量化交易中的价值

核心价值快速筛选和预警系统

当需要极快的预测速度(如实时风控)或处理高维稀疏数据时,朴素贝叶斯是理想的基线模型和预警系统。


第六部分:拉普拉斯平滑(Laplace Smoothing)

6.1 零概率问题

问题:如果测试集中出现训练集未出现过的特征值,概率会变成 0。
P(xi∣y=c)=NicNc=0⇒P(y=c∣x)=0 P(x_i|y = c) = \frac{N_{ic}}{N_c} = 0 \Rightarrow P(y = c|\mathbf{x}) = 0P(xiy=c)=NcNic=0P(y=cx)=0

6.2 拉普拉斯平滑公式

P(xi∣y=c)=Nic+αNc+αK P(x_i|y = c) = \frac{N_{ic} + \alpha}{N_c + \alpha K}P(xiy=c)=Nc+αKNic+α

其中:

  • NicN_{ic}Nic:类别ccc中特征iii的计数
  • NcN_cNc:类别ccc的总样本数
  • KKK:特征iii的可能取值数
  • α\alphaα:平滑参数(通常取 1)→加一平滑

6.3 平滑参数的影响

α 值效果
α = 0无平滑,可能过拟合
α = 1加一平滑,最常用
α > 1强平滑,适用于高维稀疏数据
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 3:22:20

ControlNet技术解析:精准控制Stable Diffusion图像生成

1. ControlNet:为Stable Diffusion装上精准控制方向盘作为一名长期使用Stable Diffusion的创作者,我深刻理解文本到图像生成过程中最令人沮丧的痛点——提示词(prompt)的不确定性。你可能花费数小时调整提示词,却始终无…

作者头像 李华
网站建设 2026/4/25 3:20:23

React18极客园

react18极客园项目:https://www.bilibili.com/video/BV1ZB4y1Z7o8/?vd_source033e18a7971697a5b8192da1e492326e 文档:https://www.yuque.com/fechaichai/qeamqf/xbai87#1ba02eb3 文档:https://www.yuque.com/fechaichai/tzzlh1 代码&#x…

作者头像 李华
网站建设 2026/4/25 3:20:19

AI Agent开发者薪资天花板:年薪百万是什么水平

你要做的就是能成为那个能干活的人。“钱景”是肯定有的,重点是怎么拿到offer。现在这行正处于爆发期,月薪3-4w很常见,搞得好年薪80万往上都有可能,大量高薪酬待遇岗都在招,我们这种中小厂都能给到40w税后。不用太纠结…

作者头像 李华
网站建设 2026/4/25 3:14:02

告别手动测试:如何用CANoe的LIN一致性测试模块自动化你的ECU验证流程?

从零构建LIN总线自动化测试体系:基于CANoe的工程实践全景指南 在汽车电子系统开发中,LIN总线作为CAN网络的补充,广泛应用于车门模块、座椅控制、空调系统等对实时性要求不高的场景。随着汽车电子架构日益复杂,传统手动测试方法已无…

作者头像 李华
网站建设 2026/4/25 3:11:08

使用RISC-V IDE MRS2工程调试

MounRiver Studio Ⅱ(MRS2)内置调试模块,支持RISC-V/ARM内核芯片工程的在线仿真调试。以下简单介绍MRS2工程调试相关操作。【调试配置页面】可以通过主菜单项“调试->调试配置”或资源区右键菜单项“调试配置”打开MRS2调试配置页面:【切换硬件调试器…

作者头像 李华
网站建设 2026/4/25 3:10:45

2026企业选型指南:10款主流协同办公网盘深度测评(附横向对比)

进入2026年,很多企业在发展过程中仍会遇到同一个核心瓶颈:文件体量急速膨胀,跨区域协作常态化,传统的本地存储、U盘流转和简单的邮件沟通已经无法支撑日常的高效运转。这时,企业就需要引入更为专业的“协同办公企业网盘…

作者头像 李华