【Python实战】用Friedman与Nemenyi检验绘制算法性能对比临界图（CD图）-程序员充电站

1. 为什么需要算法性能对比临界图？

在机器学习领域，我们经常需要比较不同算法在相同数据集上的表现。你可能遇到过这样的困惑：算法A在准确率上比算法B高0.5%，这个差异真的有意义吗？还是说只是随机波动？这时候就需要统计检验来帮忙了。

Friedman检验就像是个严格的裁判，它能判断多个算法在多个数据集上的表现是否存在显著差异。而Nemenyi后续检验则像是裁判的助手，帮我们找出具体哪些算法之间存在显著差异。临界图（CD图）就是把这些统计检验结果可视化呈现的工具，它能一目了然地展示算法间的差异是否具有统计显著性。

我最近在一个图像分类项目中就遇到了这个问题。测试了7种不同的模型，准确率从92%到94%不等，老板问我："这些差异真的有意义吗？"当时就是靠CD图给出了令人信服的答案。

2. 环境准备与数据理解

2.1 安装必要的Python库

首先我们需要准备好工作环境。推荐使用Python 3.7或更高版本，主要依赖两个库：

pip install orange3 matplotlib

Orange库可能不是那么常见，但它提供了非常方便的统计检验和可视化功能。我在实际使用中发现，Orange 3.32.0版本最稳定，新版本有时会有兼容性问题。

2.2 理解输入数据的含义

要绘制CD图，我们需要准备两个核心数据：

各个算法的平均排名(avranks)
使用的数据集数量(datasets_num)

平均排名是怎么来的呢？假设我们在5个数据集上测试了3个算法：

在每个数据集上，根据算法表现给它们排名（表现最好的是1，最差的是3）
然后计算每个算法在所有数据集上的平均排名

举个例子，这是我之前项目中的真实数据：

names = ['ResNet50', 'EfficientNet', 'VisionTransformer'] avranks = [2.1, 1.8, 2.3] # 数字越小表示平均表现越好 datasets_num = 10 # 使用了10个不同的数据集进行测试

3. 完整代码实现与解析

3.1 基础CD图绘制

让我们从一个完整的代码示例开始，然后逐步解析每个部分：

import Orange import matplotlib.pyplot as plt # 算法名称和它们的平均排名 names = ['RandomForest', 'SVM', 'XGBoost', 'LightGBM'] avranks = [3.2, 2.5, 1.8, 2.7] # 使用了50个数据集进行测试 datasets_num = 50 # 计算临界差异(CD) CD = Orange.evaluation.scoring.compute_CD( avranks, datasets_num, alpha='0.05', # 显著性水平 type='nemenyi' # 检验类型 ) # 绘制CD图 Orange.evaluation.scoring.graph_ranks( avranks, names, cd=CD, width=8, # 图形宽度 textspace=1.5, # 文本空间 reverse=True # 排名越小表现越好 ) plt.title('算法性能比较CD图') plt.show()

这段代码会生成一个清晰的CD图，图中：

算法按平均排名从左到右排列
用横线连接表示没有显著差异的算法组
临界差异(CD)值显示在图的顶部

3.2 关键参数详解

compute_CD函数有几个重要参数值得特别关注：

alpha：显著性水平，通常设为0.05或0.1。我建议先用0.05，如果结果不显著再尝试0.1。记住：alpha越大，越容易得出"有显著差异"的结论，但假阳性的风险也越高。
type：检验类型，可以是'nemenyi'或'bonferroni-dunn'。Nemenyi检验更适合多算法比较，而Bonferroni-Dunn检验适用于将一个算法作为基准与其他算法比较。

graph_ranks函数的参数控制图形展示：

width：控制图形的宽度。我发现当比较的算法很多时（比如超过7个），需要增加到10-12才能清晰显示。
textspace：算法名称的显示空间。如果名称很长，需要增加这个值。
reverse：这是一个容易出错的参数。当设为True时，排名1表示最好；False则相反。我建议始终设为True，这样更符合直觉。

4. 实际案例与常见问题

4.1 真实项目中的应用

让我分享一个实际项目中的例子。我们需要比较5种推荐算法在30个不同数据集上的表现：

algorithms = ['UserCF', 'ItemCF', 'MF', 'NeuMF', 'LightGCN'] avg_ranks = [4.2, 3.8, 2.1, 1.5, 2.4] n_datasets = 30 CD = Orange.evaluation.scoring.compute_CD(avg_ranks, n_datasets) Orange.evaluation.scoring.graph_ranks(avg_ranks, algorithms, cd=CD, width=9)

生成的CD图清晰地显示：

NeuMF和LightGCN表现最好，且两者无显著差异
UserCF显著差于其他所有算法
中间三种算法(MF, ItemCF)形成了一个没有显著差异的组

这种可视化比单纯看数字要直观得多，在项目汇报时特别有用。

4.2 常见问题与解决方案

问题1：图形显示不正常或重叠

解决方法：调整width和textspace参数。我的一般经验是，每个算法需要约1.5-2单位的宽度空间。

问题2：检验结果不显著

可能原因：数据集数量太少或算法表现确实很接近
解决方案：增加数据集数量，或者尝试更高的alpha值(如0.1)

问题3：Orange导入错误

常见错误：ModuleNotFoundError: No module named 'Orange'
解决方案：确认安装的是orange3而不是orange，使用pip install orange3

问题4：图形不显示

解决方法：确保没有使用matplotlib的agg后端，可以添加以下代码：

import matplotlib matplotlib.use('TkAgg') # 或者其他交互式后端

5. 进阶技巧与最佳实践

5.1 自定义图形样式

虽然Orange提供的默认图形已经很清晰，但我们可能想自定义样式以符合论文或报告要求：

# 绘制CD图 graph_ranks(avranks, names, cd=CD, width=8, textspace=1.5) # 获取当前图形对象 ax = plt.gca() # 自定义样式 ax.set_facecolor('#f5f5f5') # 浅灰色背景 ax.grid(color='white', linestyle='-', linewidth=1) # 白色网格线 # 修改标题和标签字体 plt.title('算法性能比较 (α=0.05)', fontsize=14, pad=20) plt.xlabel('平均排名', fontsize=12) # 调整算法名称的显示 for text in ax.get_yticklabels(): text.set_fontsize(11) plt.tight_layout() # 防止标签被截断 plt.show()

5.2 处理大量算法的比较

当需要比较的算法很多时（比如超过10个），CD图可能会变得拥挤。这时可以考虑：

使用更大的图形尺寸：

plt.figure(figsize=(12, 8))

分组比较：先对所有算法进行整体检验，然后对表现相近的子集进行单独比较
旋转算法名称：

ax.set_yticklabels(names, rotation=45, ha='right')

5.3 与其他可视化方法结合

CD图虽然直观，但有时需要与其他可视化方法结合使用。我常用的组合是：

CD图展示统计显著性
箱线图展示性能指标的分布
散点图展示算法在不同类型数据集上的表现

例如：

# 先绘制CD图 plt.figure(figsize=(10, 6)) plt.subplot(1, 2, 1) graph_ranks(avranks, names, cd=CD) # 再绘制箱线图 plt.subplot(1, 2, 2) # 这里假设我们有performance_data包含各算法在各数据集上的表现 plt.boxplot(performance_data, labels=names) plt.xticks(rotation=45) plt.title('性能指标分布') plt.tight_layout() plt.show()

6. 统计原理深入理解

6.1 Friedman检验的核心思想

Friedman检验是一种非参数检验方法，用于判断多个相关样本是否来自同一分布。在算法比较中：

对每个数据集，根据算法表现进行排名（最好=1，最差=N）
计算每个算法的平均排名
如果所有算法性能相当，这些平均排名应该接近

检验统计量计算公式为： χ² = (12N)/(k(k+1)) * [ΣR_j² - (k(k+1)²)/4]

其中N是数据集数量，k是算法数量，R_j是第j个算法的排名和。

6.2 Nemenyi检验的计算过程

当Friedman检验拒绝原假设（即算法表现不全相同）时，Nemenyi检验用于找出具体哪些算法对存在显著差异。

临界差异(CD)的计算公式为： CD = q_α * sqrt(k(k+1)/(6N))

其中q_α是基于学生化范围分布的临界值。

在实际使用中，我们不需要手动计算这些，Orange库已经帮我们实现了。但理解这些原理有助于正确解读结果。

6.3 如何解读CD图

CD图的解读有几个关键点：

算法按平均排名从左到右排列
任何两个算法如果它们的平均排名差小于CD值，则认为没有显著差异
图中用横线连接的算法组表示组内算法没有显著差异

举个例子，如果CD=1.2，算法A排名2.0，算法B排名3.5，那么它们的差异1.5>1.2，认为有显著差异。但如果算法C排名2.8，那么A和C的差异0.8<1.2，认为没有显著差异。

7. 与其他检验方法的比较

7.1 Nemenyi vs Bonferroni-Dunn检验

Nemenyi检验是比较所有算法对，适合探索性分析。而Bonferroni-Dunn检验是将一个算法作为控制组与其他算法比较，适合验证性分析。

选择建议：

如果没有明确的基准算法，用Nemenyi
如果想特别验证某个算法是否优于其他，用Bonferroni-Dunn

代码区别只是type参数：

# Nemenyi检验 CD_nemenyi = compute_CD(avranks, datasets_num, type='nemenyi') # Bonferroni-Dunn检验 CD_bd = compute_CD(avranks, datasets_num, type='bonferroni-dunn')

7.2 参数检验与非参数检验

Friedman检验是非参数检验，不假设数据服从特定分布。对应的参数检验是重复测量ANOVA，但它要求数据满足正态性和方差齐性。

实际建议：

当不确定数据分布或样本量小时，用Friedman
当数据明显符合正态分布且样本量大时，可以用ANOVA

7.3 事后检验的其他选择

除了Nemenyi，还有其他事后检验方法：

Holm方法：比Bonferroni更强大
Hochberg方法：对于某些情况比Holm更强大
Hommel方法：最强大但计算复杂

在Orange中虽然没有直接实现这些方法，但我们可以手动实现。例如Holm校正：

from scipy.stats import rankdata from statsmodels.stats.multitest import multipletests # 假设我们有p_values包含所有算法对的原始p值 reject, pvals_corrected, _, _ = multipletests(p_values, method='holm')

8. 在机器学习论文中的应用技巧

8.1 符合论文要求的可视化

学术论文对图表有严格要求，我们需要调整CD图以满足：

足够的字体大小（通常不小于8pt）
清晰的线条和标记
适当的宽高比

我的常用配置：

plt.figure(figsize=(8, 5), dpi=300) graph_ranks(avranks, names, cd=CD, width=7, textspace=1.2) # 设置字体 plt.rcParams['font.family'] = 'serif' plt.rcParams['font.size'] = 10 # 保存为PDF或EPS格式 plt.savefig('cd_diagram.pdf', bbox_inches='tight', format='pdf')

8.2 结果报告的标准格式

在论文中报告Friedman-Nemenyi结果时，建议包括：

Friedman检验的p值
检验统计量值
CD值
算法平均排名表

示例表格：

算法	平均排名	同质子集
A	1.2	a
B	2.3	ab
C	2.8	b

其中"同质子集"列显示哪些算法没有显著差异（相同字母表示无显著差异）。

8.3 处理不显著结果

当Friedman检验不显著时（p>0.05），说明没有足够证据表明算法间存在显著差异。这时：

不应该进行后续的Nemenyi检验
可以在论文中报告："Friedman检验显示算法间无显著差异(p=0.xx)"
仍然可以展示平均排名，但不要连接无差异组

9. 性能优化与大规模数据处理

9.1 加速大规模数据集的计算

当数据集数量很大时（如N>1000），计算可能会变慢。可以考虑：

随机抽样：从大数据集中随机选取子集进行计算
并行计算：对多个alpha值或检验类型并行计算

from multiprocessing import Pool def compute_cd_for_alpha(alpha): return compute_CD(avranks, datasets_num, alpha=str(alpha)) alphas = [0.01, 0.05, 0.1] with Pool() as p: cds = p.map(compute_cd_for_alpha, alphas)

9.2 内存优化技巧

对于特别大的问题（如k>20个算法），可能会遇到内存问题。解决方法：

使用更高效的数据结构：

import numpy as np avranks = np.array(avranks, dtype=np.float32)

分批处理：将算法分成若干组分别比较
使用稀疏矩阵表示排名（如果有很多并列排名）

9.3 在线计算与更新

对于流式数据或不断增加的数据集，可以实现增量式Friedman检验：

class IncrementalFriedman: def __init__(self, k): self.k = k # 算法数量 self.rank_sums = np.zeros(k) self.n = 0 # 数据集数量 def update(self, rankings): """rankings: 当前数据集上各算法的排名""" self.rank_sums += rankings self.n += 1 def get_avranks(self): return self.rank_sums / self.n def compute_CD(self, alpha=0.05): avranks = self.get_avranks() return Orange.evaluation.scoring.compute_CD( avranks, self.n, alpha=str(alpha))

10. 与其他Python库的整合

10.1 与scikit-learn工作流结合

我们可以将CD图绘制整合到标准的机器学习工作流中：

from sklearn.model_selection import cross_val_score from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier from sklearn.svm import SVC # 定义算法 models = { 'RF': RandomForestClassifier(), 'GB': GradientBoostingClassifier(), 'SVM': SVC() } # 在多个数据集上评估 datasets = [load_dataset1(), load_dataset2(), ...] all_ranks = [] for X, y in datasets: ranks = [] for name, model in models.items(): scores = cross_val_score(model, X, y, cv=5) ranks.append(-np.mean(scores)) # 用负分因为rankdata升序排列 all_ranks.append(rankdata(ranks)) # 计算平均排名 avranks = np.mean(all_ranks, axis=0)

10.2 与Pandas DataFrame的交互

使用Pandas可以更方便地处理排名数据：

import pandas as pd # 假设我们有DataFrame包含各算法在各数据集上的表现 df = pd.read_csv('algorithm_results.csv') # 计算每个数据集上的排名 rank_df = df.groupby('dataset').transform( lambda x: x.rank(ascending=False)) # 计算平均排名 avranks = rank_df.mean().values names = rank_df.columns.tolist()

10.3 使用Seaborn增强可视化

虽然Orange提供了基本的CD图功能，但我们可以用Seaborn增强展示效果：

import seaborn as sns # 先绘制基础CD图 graph_ranks(avranks, names, cd=CD) # 使用Seaborn样式 sns.set_style("whitegrid") sns.despine(left=True) # 添加更多自定义元素 plt.title('Algorithm Comparison\n(Friedman-Nemenyi test, α=0.05)', fontsize=12, pad=20) plt.xlabel('Average Rank', fontsize=10) plt.gca().xaxis.grid(False)

11. 常见误区与验证方法

11.1 数据准备阶段的错误

常见错误包括：

排名计算方向错误（把最好排名设为最大还是最小）
忽略并列排名的情况
使用不适当的数据集数量

验证方法：

检查排名方向：确保你理解rankdata函数的行为
打印中间排名结果确认
对少量数据集手动计算验证

11.2 检验解读中的误区

容易犯的错误：

把"无显著差异"解释为"性能相同"
忽略多重比较问题
过度依赖p值阈值

正确做法：

说"没有足够证据表明差异"而不是"没有差异"
考虑效应量而不仅是p值
报告准确的p值而不仅是p<0.05

11.3 可视化中的误导

需要注意：

坐标轴比例不当可能夸大或缩小差异
颜色选择影响可读性
算法排列顺序影响解读

解决方案：

保持一致的坐标轴范围
使用色盲友好的调色板
明确说明排序依据

12. 扩展应用场景

12.1 超参数优化结果比较

CD图不仅可用于比较不同算法，还能比较同一算法的不同配置：

# 比较随机森林的不同参数配置 configs = { 'RF_depth5': RandomForestClassifier(max_depth=5), 'RF_depth10': RandomForestClassifier(max_depth=10), 'RF_depthNone': RandomForestClassifier(max_depth=None) } # 后续评估与CD图绘制流程相同

12.2 特征选择方法评估

比较不同特征选择方法对最终模型性能的影响：

from sklearn.feature_selection import SelectKBest, RFE, SelectFromModel feature_selectors = { 'KBest': SelectKBest(k=10), 'RFE': RFE(estimator=SVC(), n_features_to_select=10), 'FromModel': SelectFromModel(RandomForestClassifier(), max_features=10) } # 对每个特征选择方法构建完整流程并评估

12.3 跨领域性能比较

CD图适用于任何需要比较多个方法在多个案例上表现的场景，例如：

不同图像处理算法的质量评估
多种数值优化方法的收敛速度比较
不同自然语言处理模型的准确率比较

13. 自动化测试与持续集成

13.1 单元测试设计

为确保CD图生成的可靠性，可以设计单元测试：

import unittest class TestCDDiagram(unittest.TestCase): def setUp(self): self.names = ['A', 'B', 'C'] self.avranks = [1.5, 2.0, 2.5] self.n_datasets = 30 def test_compute_CD(self): CD = compute_CD(self.avranks, self.n_datasets) self.assertIsInstance(CD, float) self.assertGreater(CD, 0) def test_graph_ranks(self): CD = compute_CD(self.avranks, self.n_datasets) try: graph_ranks(self.avranks, self.names, cd=CD) plt.close() except Exception as e: self.fail(f"graph_ranks failed with {e}")

13.2 集成到CI/CD流程

可以在持续集成中添加自动化测试，确保代码变更不会破坏CD图生成功能。示例GitHub Actions配置：

name: Test CD Diagram Generation on: [push, pull_request] jobs: test: runs-on: ubuntu-latest steps: - uses: actions/checkout@v2 - name: Set up Python uses: actions/setup-python@v2 with: python-version: '3.8' - name: Install dependencies run: | python -m pip install --upgrade pip pip install orange3 matplotlib pytest - name: Test with pytest run: | pytest tests/test_cd_diagram.py -v

13.3 性能基准测试

对于大规模应用，可以建立性能基准：

import timeit def benchmark_cd_computation(): setup = """ import Orange import numpy as np avranks = np.random.uniform(1, 10, size=50) n_datasets = 1000 """ stmt = "Orange.evaluation.scoring.compute_CD(avranks, n_datasets)" time = timeit.timeit(stmt, setup, number=100) print(f"Average time per CD computation: {time/100:.4f}s")

14. 替代方案与扩展阅读

14.1 其他Python实现

除了Orange，还有其他库可以实现类似功能：

SciPy：提供Friedman检验但需要手动实现后续检验

from scipy.stats import friedmanchisquare stat, p = friedmanchisquare(*data)

scikit-posthocs：专门用于事后检验

import scikit_posthocs as sp sp.posthoc_nemenyi_friedman(data)

statsmodels：提供多种统计检验

from statsmodels.stats.multicomp import pairwise_tukeyhsd

14.2 R语言中的实现

R语言有更丰富的统计检验功能，可以通过rpy2在Python中调用：

import rpy2.robjects as ro from rpy2.robjects.packages import importr PMCMRplus = importr('PMCMRplus') # 准备数据 ro.globalenv['data_matrix'] = ro.r('matrix(c(...), nrow=5)') # 执行Friedman检验 result = ro.r('frdAllPairsNemenyiTest(data_matrix)')

14.3 推荐学习资源

书籍：
- 《Nonparametric Statistical Methods》 by Myles Hollander
- 《Statistical Comparisons of Classifiers over Multiple Data Sets》 by Janez Demšar
在线课程：
- Coursera的"Advanced Statistical Inference"课程
- edX的"Statistical Thinking for Data Science"课程
论文：
- "A Multiple Comparison Procedure for Comparing Several Treatments with a Control" (Dunn, 1964)
- "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other" (Wilcoxon, 1945)