工业视觉检测：两大主流异常检测开源框架深度对比（PatchCore vs SPADE）-程序员充电站

工业视觉检测：两大主流异常检测开源框架深度对比（PatchCore vs SPADE）

在工业视觉检测的落地实践中，最大的痛点往往不是算法模型不够深，而是缺陷样本太少，甚至一张都没有。面对这种“无监督学习”的刚需，基于图像分割的异常检测技术成为了救星。其中，PatchCore和SPADE无疑是目前工业界表现最出色、引用率最高的两个开源框架。

这两个项目都基于同一个核心思想：利用大规模预训练的深度学习模型（如ResNet）提取图像特征，在“正常样本”的特征空间中建立参考库。检测时，如果待测图像的特征无法在参考库中找到近邻，即被判定为异常。

虽然底层逻辑相似，但在具体的工程实现、内存占用和检测精度上，二者有着显著的差异。如果你正准备在项目中引入工业异常检测技术，这篇深度对比将帮你决定该选择哪条技术路线。

在对比之前，我们需要明确它们的共同基础：特征嵌入与记忆库（Memory Bank）。

特征提取：二者都使用在大型自然图像数据集（如ImageNet）上预训练的卷积神经网络（通常采用ResNet-50）作为骨干网络。这些网络的中间层特征能够很好地捕捉图像的纹理和结构信息。
构建正常模型：在训练阶段，只输入“OK”（良品）样本。算法会提取这些样本的深层特征，并将其存储在磁盘或内存中，形成一个“正常样本特征库”。

二者的区别在于“如何存储”和“如何比对”：

PatchCore的全称是Patch-based Benchmarking of Industrial Anomaly Detection。它本质上是对早期方法（如SPADE）的一种大规模优化。

1. 核心机制：
PatchCore认为，并不是所有的图像块（Patch）特征都是有用的。如果把所有正常样本的特征都存下来，内存占用巨大，且包含大量冗余信息（比如天空、纯色背景的特征）。

核心集采样：PatchCore引入了一种“最大正向距离”或聚类采样的策略。它会从海量的正常样本特征中，挑选出最具代表性的“核心子集”存入记忆库。这就好比从一个班级的无数次考试中，挑出最能代表学生正常水平的几次考试成绩来建档。

2. 优势：

SPADE(Sub-Image Anomaly Detection with Deep Pyramid Structured Semantic Descriptor) 是早期的开创性工作，它更侧重于利用特征图的空间结构信息。

1. 核心机制：
SPADE在提取特征时，会保留特征图的空间位置信息，并构建一个多尺度的特征描述子。

空间金字塔：它不仅仅看“是什么特征”，还看“特征在什么位置”。例如，一个螺丝孔的特征必须出现在图像的左上角才是正常的，如果在右下角出现了同样的特征，可能就是异常。
特征重构：在检测时，它会尝试用记忆库中的特征来“重构”待测图像的特征。如果重构误差过大，即判定为异常。

2. 优势：

为了方便你在项目中做出决策，我们总结了以下对比维度：

选型建议：

首选 PatchCore 的场景：
- 资源受限：你的工控机或嵌入式设备内存有限，无法承载巨大的特征库。
- 纹理/表面缺陷：检测目标是金属表面划痕、织物污渍、塑料件气泡等，这些主要依赖纹理特征，对绝对位置不敏感。
- 追求极致精度：PatchCore目前在MVTec AD等主流工业异常检测数据集上，通常表现优于SPADE。
考虑 SPADE 的场景：
- 结构化组件：检测对象是复杂的电路板（PCB）、发动机缸体等。除了表面划痕，你还需要检测零件是否装反、孔位是否错位。此时SPADE的空间感知能力会有优势。
- 数据量极小：如果你的正常样本非常少（少于50张），SPADE的全量存储策略可能比PatchCore的采样策略更稳定，因为采样需要一定的数据量来保证代表性。