苹果芯片GPU加速Transformer推理：Metal性能显著提升-程序员充电站

利用Metal Performance Shaders实现快速Transformer推理

我们很高兴地宣布，Thinc PyTorch层现已支持Metal Performance Shaders。这使得在苹果芯片Mac的GPU上运行基于spaCy Transformer的流水线成为可能，并将推理速度提升了最高4.7倍。在本文中，我们将探讨苹果芯片Mac的硬件加速设施，以及spaCy如何利用它们来加速Transformer模型。文章最后将通过基准测试展示在不同苹果芯片Mac机型上可以预期的加速效果。

众所周知，大型Transformer模型的计算成本高昂。这源于自注意力机制的二次计算复杂度，以及许多Transformer模型的庞大规模。例如，广泛使用的BERT、RoBERTa和XLM-R基础模型使用了12个隐藏层、768维的隐藏表示，以及前馈块中3072维的表示。

下图展示了在使用一个特别编译的PyTorch版本（该版本利用了某Mac M1 Max CPU的CPU核心和通用的ARM64 NEON优化内核）为德语文本标注de_dep_news_trfspaCy Transformer模型时，五个最耗时的部分：

Transformer模型的运行时间主要由矩阵乘法主导——bli_sgemm_armv8a_asm_8x12是一个单精度矩阵乘法内核。sgemm是线性代数库提供的标准化矩阵乘法函数，这些库实现了BLAS接口。这并不令人意外，因为矩阵乘法是Transformer模型使用的主要操作之一，例如：用于计算注意力块中的成对注意力分数以及前馈块中的线性投影。

除了矩阵乘法，分别用于前馈块和注意力块的GeLU和Softmax非线性函数，也通过其对erff、expf和exp初等函数的使用在性能剖析中显现出来。这些非线性函数合计占据了19%的运行时间。

为了加速Transformer推理，我们可以采取三种不同的方法：

用时间复杂度优于O(N²)的机制替换自注意力机制。例如，Longformer的注意力机制具有O(N)的时间复杂度。如果我们希望继续使用现有的预训练Transformer模型，也可以对N设置一个上限。
加速矩阵乘法。
加速非线性计算。

在spaCy Transformer流水线中，二次注意力机制的影响已经通过限制N的上限得到了控制。每个文档被分步处理。默认情况下，spaCy Transformer每次处理96个标记，使用128个标记的窗口来创建重叠的上下文表示。这将注意力机制的时间复杂度上限设定为N=128。

在本文中，我们将重点关注另外两种方法——利用苹果芯片Mac的专用硬件加速矩阵乘法和非线性计算。我们将首先了解苹果硅CPU中称为“AMX块”的矩阵乘法协处理器。之后，我们将探索在GPU上运行计算内核。

AMX矩阵乘法块

所有Apple M系列CPU至少拥有一个称为“AMX块”的矩阵乘法协处理器。AMX在很大程度上没有公开文档。例如，目前尚不清楚Apple M系列CPU的高能效核心集群是否拥有自己的AMX块。然而，我们可以通过基准测试来推断AMX块的各种特性。

下表列出了在不同CPU上使用gemm-benchmark测量得到的768x768矩阵乘法性能（单位：TFLOPS，即每秒万亿次浮点运算）：

线程数	M1	M2	M1 Pro/Max	M1 Ultra	Ryzen 5950X
1	1.3	1.5	2.1	2.2	0.1
2	1.2	1.6	2.6	3.4	0.3
4	1.0	1.7	2.7	3.8	0.6
8	1.3	1.6	2.5	4.3	1.0
12	1.2	1.5	2.4	4.3	1.6
16	1.2	1.4	2.4	4.4	1.9
与M1相比的最大加速	1.0	1.3	2.1	3.4	1.5

从这些数字中，我们可以得出一些有趣的信息：

性能并不随线程数增加而提升。因此，AMX块并非单个CPU核心的一部分。
M1、M1 Pro和M1 Ultra分别拥有1、2和4个性能核心集群。矩阵乘法性能随性能核心集群数量的增加而提高（参见“与M1相比的最大加速”行）。这表明每个性能集群可能都有一个AMX块。
AMX块速度很快。单个AMX块的矩阵乘法性能相当于9个Ryzen 5950X核心。

尽管苹果公司没有公开将计算任务分派给AMX块的指令文档，但第三方应用程序可以通过苹果的Accelerate框架使用AMX块，该框架实现了行业标准的BLAS接口。因此，BLAS矩阵乘法函数——例如我们在性能剖析中看到的sgemm函数——会自动得到加速。

由于Transformer使用矩阵乘法作为其主要操作，AMX单元为Transformer提供了显著的加速。PyTorch在苹果平台上使用Accelerate进行矩阵乘法，因此PyTorch默认使用AMX块。

Metal Performance Shaders

尽管AMX块在处理矩阵乘法吞吐量时表现出令人印象深刻的速度，但苹果芯片Mac还有另外两个用于计算的子系统，即苹果神经引擎（ANE）和GPU。ANE的限制相对较多，因为它需要运行通过Core ML定义的计算图，而GPU可以运行用户定义的计算内核（即所谓的“着色器”）。这使得GPU足够灵活，可以运行各种机器学习模型。

M1的8核GPU计算性能为2.6 TFLOPS，这大概能提供M1 AMX单元两倍的性能。此外，GPU在M1 Ultra中最多可扩展至64核，理论峰值性能达到20.8 TFLOPS。因此，苹果芯片GPU有可能将Transformer性能推至超出AMX块所能提供的水平。

PyTorch最近通过苹果的Metal API引入了对苹果M系列GPU的支持。各种PyTorch操作已被实现为自定义Metal着色器，并使用了苹果自己的Metal着色器集合，这些着色器包含在Metal Performance Shaders框架中。对于受支持的操作，在PyTorch中使用苹果芯片GPU非常简单，只需将张量或模块放在新的mps设备上即可。例如，可以按以下方式在GPU核心上进行矩阵乘法：

>>>importtorch>>>u=torch.rand((10,20),dtype=torch.float,device=torch.device("mps"))>>>v=torch.rand((20,10),dtype=torch.float,device=torch.device("mps"))>>>torch.matmul(u,v).device device(type='mps',index=0)

在撰写本文时，某些操作尚未实现，但在这种情况下，当环境变量PYTORCH_ENABLE_MPS_FALLBACK设置为1时，PyTorch将回退到CPU内核。

spaCy和Thinc中的Metal Performance Shaders

spaCy使用Thinc作为其机器学习库。Thinc是一个轻量级的深度学习库，也支持在其他框架（如PyTorch和TensorFlow）中定义的层。spacy-transformers包利用Thinc的这种互操作性，使Huggingface PyTorch Transformer模型可在spaCy流水线中使用。现在，由于PyTorch支持苹果芯片GPU，原则上，基于Transformer的spaCy流水线中的Transformer模型可以在苹果芯片机器的GPU核心上执行。

不幸的是，Thinc 8.1之前的版本使用了一个已弃用的PyTorch设备管理功能，这使得它无法支持像mps这样的新Torch设备。Thinc在各个设备特定的Ops类中实现自己的操作。在Thinc 8.1之前，提供了以下Ops实现：

NumpyOps：在CPU上执行操作。使用NumPy和额外的C++内核。
CupyOps：在支持CUDA的GPU上执行操作。使用CuPy和额外的CUDA C++内核。
AppleOps：继承自NumpyOps，通过利用苹果的Accelerate框架，覆盖矩阵乘法以在AMX块上运行。
BigEndianOps：继承自NumpyOps，覆盖特定操作以支持大端平台。

每个Thinc层都与一个Ops类的实例相关联。该层使用Ops实例来分配参数、执行计算等。PyTorch Thinc层与常规Thinc层的不同之处在于，它们使用PyTorch自身的操作，而不是关联的Ops实例。然而，当我们在使用CupyOps时包装一个PyTorch层，我们希望PyTorch层在CUDA设备上运行，而不是默认的CPU设备。Thinc过去通过使用现已弃用的torch.set_default_tensor_type函数，根据当前活动的Ops实例，将默认张量类型设置为torch.cuda.FloatTensor或torch.FloatTensor来实现这一点。

但是，set_default_tensor_type函数不允许我们将默认设备设置为mps。因此，出于这个原因（以及其他原因），我们必须用某种使用Torch设备标识符的机制来替换它，就像上面的矩阵乘法示例那样。从Thinc 8.1开始，PyTorch包装器添加了一个关键字参数来指定层应放置于哪个Torch设备上。如果未指定此参数，Thinc将根据当前活动的Ops使用适当的设备。

为了支持苹果芯片GPU，我们添加了一个新的Ops实现——MPSOps，它默认将Torch层置于mps设备上。当您安装Thinc 8.1并请求Thinc或spaCy使用GPU时，MPSOps会自动被使用。

速度有多快？⏱️

随着Thinc 8.1和PyTorch 1.13的推出，所有环节都已就绪，我们可以在苹果芯片GPU上进行Transformer推理。下表显示了在不同苹果芯片Mac上使用de_dep_news_trfTransformer模型为德语文本做标注时的速度（单位：每秒字数）：

机器	CPU核心	GPU核心	AMX (WPS)	GPU (WPS)	加速比
Mac Mini M1	4P/4E	8	1180	2202	1.9
MacBook Air M2	4P/4E	10	1242	3362	2.7
MacBook Pro 14” M1 Pro	6P/2E	14	1631	4661	2.9
MacBook Pro 14” M1 Max	8P/2E	32	1821	8648	4.7
Mac Studio M1 Ultra	16P/4E	48	2197	12073	5.5
Ryzen 5950X + RTX 3090	16	328 (Tensor cores)	1879 (CPU)	18845	10.0

基准测试显示，与使用AMX块相比，使用苹果芯片GPU时速度有显著提升，在M1 Max上，GPU达到每秒8648字，而AMX块为每秒1821字。M1 Max的推理性能几乎是NVIDIA RTX 3090的一半。

8个M1 GPU核心的计算性能估计大约是AMX块的两倍，但结果显示，在M1 Pro上推理速度比AMX块快两倍多，尽管该特定型号只有两个带有AMX块的性能集群和14个GPU核心。原因是AMX只加速矩阵乘法，而GPU也加速其他内核，包括GELU和Softmax非线性函数。下图显示了使用AMX块加速推理时五个最耗时的部分：

由于AMX只加速矩阵乘法，非线性计算已成为最大的耗时部分。这对于GPU推理来说不是问题，因为非线性计算是在GPU上并行进行的。

另一个有趣的问题是，苹果芯片GPU提高的吞吐量是否以更高的功耗为代价。下表显示了基准测试期间的平均功耗（单位：瓦特）。在GPU上运行spaCy Transformer提供了更高的每瓦性能。

机器	CPU核心	GPU核心	AMX (W)	GPU (W)
Mac Mini M1	4P/4E	8	11	10
MacBook Air M2	4P/4E	10	13	9
MacBook Pro 14” M1 Pro	6P/2E	14	16	17
MacBook Pro 14” M1 Max	8P/2E	32	17	31
Mac Studio M1 Ultra	16P/4E	48	34	70

在苹果芯片GPU上试用spaCy Transformer流水线

对苹果芯片GPU的支持已在Thinc 8.1.0、spaCy 3.4.2及更高版本以及spacy-transformers 1.1.8及更高版本中提供。要使用对苹果芯片GPU的支持，请首先确保已安装PyTorch 1.13或更高版本：

pipinstallspacy"torch>=1.13.0"

然后，您可以安装想要使用的Transformer模型，这也会安装spacy-transformers包：

spacy download de_dep_news_trf

之后，您可以在切换到使用GPU（通过require_gpu函数）后像往常一样使用spaCy：

>>>importspacy>>>spacy.require_gpu()>>>nlp=spacy.load('de_dep_news_trf')>>>docs=list(nlp.pipe(["Marbach am Neckar ist eine Stadt etwa 20 Kilometer nördlich von Stuttgart."]))>>>[(t.text,t.pos_)fortindocs[0]][('Marbach','PROPN'),('am','ADP'),('Neckar','PROPN'),('ist','AUX'),('eine','DET'),('Stadt','NOUN'),('etwa','ADV'),('20','NUM'),('Kilometer','NOUN'),('nördlich','ADV'),('von','ADP'),('Stuttgart','PROPN'),('.','PUNCT')]

如果您想确认是否确实使用了GPU，可以检查当前活动的Ops是否为MPSOps：

>>>fromthinc.apiimportget_current_ops>>>get_current_ops()<thinc.backends.mps_ops.MPSOpsobjectat0x1010b6e90>

要跟踪对苹果芯片GPU支持的更新，您可以关注我们在Thinc仓库中的跟踪问题。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

苹果芯片GPU加速Transformer推理：Metal性能显著提升

利用Metal Performance Shaders实现快速Transformer推理

AMX矩阵乘法块

Metal Performance Shaders

spaCy和Thinc中的Metal Performance Shaders

速度有多快？⏱️

在苹果芯片GPU上试用spaCy Transformer流水线

无需NLP基础：用SiameseUniNLU轻松实现中文情感分类

cv_resnet50_face-reconstruction参数详解：--batch_size --num_workers --fp16对吞吐与精度的影响量化分析

手机照片秒变专业：RMBG-2.0轻量级抠图工具实测

基于微信小程序的四六级英语学习系统设计与实现

写作小白救星！千笔AI，自考论文写作神器

全网最全 10个AI论文写作软件测评：专科生毕业论文+开题报告必备工具推荐