别怕概率论！用Python的NumPy和SciPy库，帮你一步步验算期末试卷里的12道填空题-程序员充电站

用Python玩转概率论：NumPy+SciPy实战12道经典填空题

当概率论遇上Python，枯燥的公式瞬间变得生动起来。本文不是简单地教你解题，而是带你用代码「实验」概率，让每个数学概念都变成可运行的代码块。我们将从零开始，用Python中最强大的科学计算库NumPy和SciPy，重新演绎概率论试卷中那些令人头疼的填空题。

1. 环境配置与基础工具

工欲善其事，必先利其器。在开始之前，确保你的Python环境已经安装了以下库：

import numpy as np import scipy.stats as stats from scipy.special import comb, factorial import matplotlib.pyplot as plt # 用于可视化

关键工具介绍：

numpy.random：生成各种概率分布的随机变量
scipy.stats：包含几乎所有常见概率分布的函数
scipy.special：提供组合数、阶乘等特殊数学函数

提示：推荐使用Jupyter Notebook进行实验，可以实时看到代码运行结果和可视化效果。

2. 事件概率计算的Python实现

2.1 事件组合问题

让我们从第一道填空题开始：「设A,B,C为3个事件，则表示A,B,C中至少两个发生的事件是____。」

传统解法需要写出所有可能组合，而Python可以帮我们验证：

# 定义三个事件的概率 p_a, p_b, p_c = 0.5, 0.5, 0.5 # 蒙特卡洛模拟 n_trials = 100000 a = np.random.binomial(1, p_a, n_trials) b = np.random.binomial(1, p_b, n_trials) c = np.random.binomial(1, p_c, n_trials) # 计算至少两个发生的概率 at_least_two = ((a + b + c) >= 2).mean() print(f"模拟概率: {at_least_two:.4f}") # 理论计算 theory_prob = (p_a*p_b*(1-p_c) + p_a*(1-p_b)*p_c + (1-p_a)*p_b*p_c + p_a*p_b*p_c) print(f"理论概率: {theory_prob:.4f}")

2.2 独立事件与并集概率

第二题考察独立事件：「设事件A,B独立，且P(A)=0.4，P(B)=0.2，则P(A∪B¯)=____。」

用SciPy验证：

p_a = 0.4 p_b = 0.2 # 理论计算 p_not_b = 1 - p_b p_a_union_not_b = p_a + p_not_b - p_a * p_not_b # 用stats模块验证 dist_a = stats.bernoulli(p_a) dist_b = stats.bernoulli(p_b) samples_a = dist_a.rvs(size=100000) samples_not_b = 1 - dist_b.rvs(size=100000) empirical_prob = np.mean((samples_a + samples_not_b) > 0) print(f"理论值: {p_a_union_not_b:.4f}") print(f"模拟值: {empirical_prob:.4f}")

3. 随机变量与分布实战

3.1 离散型随机变量

第五题给出分布函数：「设离散型随机变量的X分布函数为F(x)，求P{x=0}。」

用NumPy实现：

# 定义分布 x_values = [-1, 0, 2] cum_probs = [0.1, 0.5, 1.0] # 计算P(X=0) p_x0 = cum_probs[1] - cum_probs[0] # 用PMF验证 probs = np.diff([0] + cum_probs) print(f"P(X=0) = {probs[1]:.1f}")

3.2 连续型随机变量

第七题涉及正态分布：「设X~N(1,4)，且Φ(2)=0.9772，则P{1≤x≤5}=____。」

SciPy让正态分布计算变得简单：

mu, sigma = 1, 2 # 注意sigma是标准差 # 计算P(1≤X≤5) prob = stats.norm.cdf(5, loc=mu, scale=sigma) - stats.norm.cdf(1, loc=mu, scale=sigma) # 标准化验证 z1 = (1 - mu)/sigma z2 = (5 - mu)/sigma print(f"P(1≤X≤5) = {stats.norm.cdf(z2) - stats.norm.cdf(z1):.4f}")

4. 协方差与复杂分布

4.1 二维正态分布

第九题考察协方差：「设(X,Y)~N(-1,0,4,9,0.2)，则cov(X,Y)=____。」

用NumPy生成样本并计算：

mean = [-1, 0] cov = [[4, 0.2*2*3], [0.2*2*3, 9]] # 协方差矩阵 # 生成样本 data = np.random.multivariate_normal(mean, cov, 10000) # 计算协方差 empirical_cov = np.cov(data.T) print(f"模拟协方差矩阵:\n{empirical_cov}") print(f"理论cov(X,Y): {0.2*2*3:.1f}")

4.2 随机变量函数的分布

第十题涉及随机变量变换：「设X~U(0,2)，Y~Exp(1)，且独立，求D(2X-3Y+4)。」

组合分布的计算：

# 定义分布 dist_x = stats.uniform(loc=0, scale=2) dist_y = stats.expon(scale=1) # 理论方差计算 var_2x = 4 * (2**2)/12 # 均匀分布方差=(b-a)^2/12 var_3y = 9 * 1**2 # 指数分布方差=1/lambda^2 total_var = var_2x + var_3y # 模拟验证 samples = 2*dist_x.rvs(size=100000) - 3*dist_y.rvs(size=100000) + 4 print(f"理论方差: {total_var:.2f}") print(f"样本方差: {np.var(samples):.2f}")

5. 统计推断与估计

5.1 无偏估计

第十一题关于参数估计：「μ̂=1/4X₁+kX₂+1/8X₃是μ的无偏估计，求k。」

用模拟验证：

true_mu = 5 # 假设真实μ=5 n_samples = 100000 # 生成样本 x1 = np.random.normal(true_mu, 1, n_samples) x2 = np.random.normal(true_mu, 1, n_samples) x3 = np.random.normal(true_mu, 1, n_samples) # 计算不同k的估计偏差 for k in [0.5, 0.625, 0.7]: mu_hat = 0.25*x1 + k*x2 + 0.125*x3 bias = np.mean(mu_hat) - true_mu print(f"k={k:.3f}, 偏差={bias:.5f}")

5.2 F分布与样本统计

第十二题涉及F分布：「Y=(X₁²+X₂²+X₃²)/(CX₄²)~F(3,1)，求C。」

用随机模拟验证：

n_samples = 100000 dfn, dfd = 3, 1 # 生成F分布样本 f_samples = stats.f(dfn, dfd).rvs(n_samples) # 生成正态样本并构造统计量 normal_samples = np.random.normal(0, np.sqrt(2), (n_samples, 4)) numerator = normal_samples[:,:3]**2.sum(axis=1) denominator = normal_samples[:,3]**2 # 寻找使统计量匹配F分布的C值 for C in [2, 3, 4]: ratio = numerator / (C * denominator) ks_stat = stats.ks_2samp(ratio, f_samples).statistic print(f"C={C}, KS统计量={ks_stat:.4f}")

6. 可视化辅助理解

概率概念通过可视化会变得直观。例如，对于正态分布题目：

# 绘制正态分布曲线 x = np.linspace(mu-3*sigma, mu+3*sigma, 100) pdf = stats.norm.pdf(x, mu, sigma) plt.figure(figsize=(10, 5)) plt.plot(x, pdf, label=f'N({mu},{sigma**2})') plt.fill_between(x[(x>=1)&(x<=5)], pdf[(x>=1)&(x<=5)], alpha=0.3) plt.title('正态分布P(1≤X≤5)区域') plt.xlabel('x') plt.ylabel('概率密度') plt.legend() plt.grid(True) plt.show()

对于离散分布，可以绘制PMF：

# 第五题的PMF可视化 plt.stem(x_values, probs, use_line_collection=True) plt.title('离散随机变量的概率质量函数') plt.xlabel('x') plt.ylabel('P(X=x)') plt.xticks(x_values) plt.grid(True) plt.show()

7. 从理论到实践的思考

在实际应用中，我们常常需要根据问题特点选择合适的计算方法。例如：

精确计算：当理论解已知时，直接使用公式
数值积分：对于复杂连续分布，使用scipy.integrate
蒙特卡洛模拟：当解析解困难时，用随机模拟近似

# 蒙特卡洛积分示例：计算E[sin(X)]，X~N(0,1) samples = np.random.normal(0, 1, 100000) expected_value = np.mean(np.sin(samples)) print(f"E[sin(X)] ≈ {expected_value:.5f}") # 与数值积分比较 from scipy.integrate import quad result, _ = quad(lambda x: np.sin(x)*stats.norm.pdf(x), -np.inf, np.inf) print(f"精确值: {result:.5f}")

这种「理论+代码验证」的学习方法，不仅能加深理解，还能培养对概率直觉的「数值感觉」。当你看到P值=0.03时，你的代码经验会告诉你这意味着什么。

别怕概率论！用Python的NumPy和SciPy库，帮你一步步验算期末试卷里的12道填空题

用Python玩转概率论：NumPy+SciPy实战12道经典填空题

1. 环境配置与基础工具

2. 事件概率计算的Python实现

2.1 事件组合问题

2.2 独立事件与并集概率

3. 随机变量与分布实战

3.1 离散型随机变量

3.2 连续型随机变量

4. 协方差与复杂分布

4.1 二维正态分布

4.2 随机变量函数的分布

5. 统计推断与估计

5.1 无偏估计

5.2 F分布与样本统计

6. 可视化辅助理解

7. 从理论到实践的思考

STM32F103C8T6内存告急？手把手教你用ESP-PSRAM64H串口RAM低成本扩容（附完整代码）

别把数据库、开发方式和 ERP 套件混成一回事，重新看懂 SAP HANA、ABAP on HANA 和 SAP S/4HANA

阻燃油测量专用格恩朗流量计选型全指南

从平衡车到无人机：聊聊串级PID控制那些‘环’的通用设计哲学

人脸识别算法发展历程

解析个体户转公司的财税风险及应对方案

用Python玩转概率论：NumPy+SciPy实战12道经典填空题

1. 环境配置与基础工具

2. 事件概率计算的Python实现

2.1 事件组合问题

2.2 独立事件与并集概率

3. 随机变量与分布实战

3.1 离散型随机变量

3.2 连续型随机变量

4. 协方差与复杂分布

4.1 二维正态分布

4.2 随机变量函数的分布

5. 统计推断与估计

5.1 无偏估计

5.2 F分布与样本统计

6. 可视化辅助理解

7. 从理论到实践的思考

STM32F103C8T6内存告急？手把手教你用ESP-PSRAM64H串口RAM低成本扩容（附完整代码）

别把数据库、开发方式和 ERP 套件混成一回事，重新看懂 SAP HANA、ABAP on HANA 和 SAP S/4HANA

阻燃油测量专用 格恩朗流量计选型全指南

从平衡车到无人机：聊聊串级PID控制那些‘环’的通用设计哲学

人脸识别算法发展历程

解析个体户转公司的财税风险及应对方案

阻燃油测量专用格恩朗流量计选型全指南