用Python的正态分布模拟一个生活场景：产品质量检验与评分分布预测-程序员充电站

用Python模拟零件质量检验：正态分布在工业场景的实战应用

去年接手某汽车零部件供应商的质量优化项目时，生产线主管抛给我一个具体问题："我们每天抽检200个轴承直径，但合格率波动很大，能否用数据预测次品风险？"这恰好是正态分布大显身手的场景。下面我将还原如何用Python构建完整的质量检验模拟系统，从数据生成到可视化分析，最终输出关键工艺指标的全过程。

1. 构建质量检验模拟系统

1.1 设定工艺参数基准

任何模拟都需要基于真实的工艺参数。假设轴承直径的设计标准为20mm，根据历史数据，该生产线实际尺寸服从μ=20.1mm、σ=0.2mm的正态分布。在Python中初始化这些参数：

import numpy as np import matplotlib.pyplot as plt # 工艺参数设置 design_spec = 20.0 # 设计标准(mm) mu = 20.1 # 实际均值(mm) sigma = 0.2 # 标准差(mm) sample_size = 200 # 每日抽检量 tolerance = 0.5 # 允许公差(mm)

注意：μ值略高于设计标准，这可能暗示机床存在系统性偏差，这正是后续分析需要验证的。

1.2 生成模拟检测数据

使用NumPy的随机模块生成符合正态分布的模拟数据，并添加现实场景中的测量误差：

np.random.seed(42) # 确保结果可复现 base_data = np.random.normal(mu, sigma, sample_size) measurement_error = np.random.normal(0, 0.02, sample_size) # 测量设备误差 simulated_data = base_data + measurement_error

关键参数说明：

base_data：理想工艺条件下的尺寸数据
measurement_error：模拟测量设备的随机误差（σ=0.02mm）
simulated_data：最终获得的"实测"数据

2. 合格率计算与过程能力分析

2.1 自动判定产品质量

根据公差范围自动分类产品等级，这是质量管理的核心环节：

def classify_quality(data, target, tol): upper = target + tol lower = target - tol grades = { 'A': np.sum((data >= target - 0.1*tol) & (data <= target + 0.1*tol)), 'B': np.sum(((data >= lower) & (data < target - 0.1*tol)) | ((data > target + 0.1*tol) & (data <= upper))), 'C': np.sum((data < lower) | (data > upper)) } return grades quality_grades = classify_quality(simulated_data, design_spec, tolerance)

质量等级定义：

A级：中心区域（±10%公差带） - 最优质量
B级：合格区但非中心区域
C级：超出公差 - 不合格品

2.2 计算过程能力指数CPK

CPK是衡量工艺稳定性的黄金指标，反映实际生产满足规格要求的能力：

def calculate_cpk(data, usl, lsl): process_mean = np.mean(data) process_std = np.std(data) cpu = (usl - process_mean) / (3*process_std) cpl = (process_mean - lsl) / (3*process_std) return min(cpu, cpl) usl = design_spec + tolerance # 上限规格 lsl = design_spec - tolerance # 下限规格 cpk_value = calculate_cpk(simulated_data, usl, lsl)

CPK判读标准：

CPK≥1.33：过程能力充足
1.0≤CPK<1.33：过程能力尚可
CPK<1.0：需要改进

3. 可视化分析与工艺诊断

3.1 分布对比图

将理论分布与实际数据分布对比，这是发现系统性偏差的关键：

plt.figure(figsize=(12, 6)) # 绘制理论正态曲线 x = np.linspace(mu - 4*sigma, mu + 4*sigma, 1000) pdf = (1/(sigma * np.sqrt(2*np.pi))) * np.exp(-0.5*((x-mu)/sigma)**2) plt.plot(x, pdf, 'r-', lw=2, label='理论分布') # 绘制实际数据直方图 hist = plt.hist(simulated_data, bins=15, density=True, alpha=0.6, edgecolor='black', label='实际分布') # 标记关键区域 plt.axvline(x=usl, color='g', linestyle='--', label='规格上限') plt.axvline(x=lsl, color='g', linestyle='--', label='规格下限') plt.axvline(x=design_spec, color='b', linestyle='-', label='设计标准') plt.title('轴承直径分布对比') plt.xlabel('直径(mm)') plt.ylabel('概率密度') plt.legend() plt.grid(True) plt.show()

3.2 质量控制图

监控过程稳定性的经典工具，帮助识别异常波动：

plt.figure(figsize=(12, 4)) # 绘制单值控制图 plt.plot(simulated_data, 'bo-', markersize=4, label='测量值') plt.axhline(y=mu, color='r', linestyle='-', label='过程均值') plt.axhline(y=mu + 3*sigma, color='g', linestyle='--', label='±3σ控制限') plt.axhline(y=mu - 3*sigma, color='g', linestyle='--') # 标记超出控制限的点 out_of_control = np.where((simulated_data > mu + 3*sigma) | (simulated_data < mu - 3*sigma))[0] plt.plot(out_of_control, simulated_data[out_of_control], 'ro', markersize=6, label='异常点') plt.title('单值控制图') plt.xlabel('样本序号') plt.ylabel('直径(mm)') plt.legend() plt.grid(True) plt.show()

4. 实战案例扩展与优化建议

4.1 不同场景的参数调整

当面对不同生产工艺时，需要灵活调整模拟参数：

场景类型	典型σ值	建议样本量	重点关注指标
精密机加工	0.05-0.1mm	300+	CPK、PPK
注塑成型	0.2-0.5mm	150-200	偏态系数、峰度
金属冲压	0.3-0.8mm	100-150	超出公差比例

4.2 常见问题排查指南

根据实际项目经验，整理出高频问题解决方案：

数据呈现双峰分布
- 可能原因：两台设备混合生产
- 对策：np.histogram(data, bins=30)增加分箱数验证

CPK突然下降

检查步骤：

# 分段计算移动CPK window_size = 30 moving_cpk = [calculate_cpk(data[i:i+window_size], usl, lsl) for i in range(len(data)-window_size)]

测量系统误差过大

验证方法：

# 计算测量误差占比 total_variation = np.var(data) measurement_variation = np.var(measurement_error) ratio = measurement_variation / total_variation

4.3 自动化监控脚本框架

建议将核心逻辑封装为可复用的质量监控类：

class QualityMonitor: def __init__(self, target, tolerance): self.target = target self.tolerance = tolerance def update_data(self, new_data): self.data = np.append(self.data, new_data) self._calculate_metrics() def _calculate_metrics(self): self.cpk = calculate_cpk(self.data, self.target + self.tolerance, self.target - self.tolerance) self.yield_rate = np.sum( (self.data >= self.target - self.tolerance) & (self.data <= self.target + self.tolerance) ) / len(self.data) def generate_report(self): return { 'cpk': round(self.cpk, 2), 'yield': round(self.yield_rate * 100, 1), 'out_of_spec': np.sum( (self.data < self.target - self.tolerance) | (self.data > self.target + self.tolerance) ) }

在项目最终阶段，我们通过这套系统识别出3号机床的温度补偿机制失效问题，调整后使CPK从0.8提升到1.6。最实用的发现是：当直方图右侧尾部突然变厚时，往往预示着刀具磨损需要更换。