STM32标准库玩转DSP：手把手教你用CMSIS-DSP库实现FIR滤波（附工程源码）-程序员充电站

STM32标准库玩转DSP：手把手教你用CMSIS-DSP库实现FIR滤波（附工程源码）

在嵌入式信号处理领域，实时数字滤波是许多项目的核心需求。想象一下，你正在开发一个基于STM32的智能传感器系统，ADC采集的数据中混杂着各种噪声，如何快速实现一个高效的滤波器来提取有效信号？这就是CMSIS-DSP库大显身手的时候了。本文将带你从零开始，在STM32标准库工程中实现一个完整的FIR低通滤波器解决方案。

1. CMSIS-DSP库基础集成

1.1 库文件获取与工程配置

首先需要获取CMSIS-DSP库的最新版本。推荐直接从ARM官方GitHub仓库下载：

git clone https://github.com/ARM-software/CMSIS_5

关键文件目录结构如下：

CMSIS/ ├── DSP/ │ ├── Include/ # 头文件 │ ├── Lib/ # 预编译库文件 │ ├── Source/ # 源代码(可选) └── Core/ # 核心文件

在Keil MDK中添加库文件时，需要注意几个关键配置：

添加预定义宏（根据芯片型号选择）：
- ARM_MATH_CM3(Cortex-M3)
- __CC_ARM(ARM编译器标识)
- ARM_MATH_MATRIX_CHECK(矩阵尺寸检查)
库文件选择对照表：

芯片架构	浮点支持	字节序	对应库文件
Cortex-M3	无	小端	arm_cortexM3l_math.lib
Cortex-M4	有	小端	arm_cortexM4lf_math.lib

1.2 基础工程验证

添加完成后，可以通过一个简单的FFT测试来验证库是否正常工作：

#include "arm_math.h" #define FFT_SIZE 1024 float32_t input[FFT_SIZE], output[FFT_SIZE]; arm_cfft_instance_f32 fft_instance; void test_fft(void) { arm_cfft_init_f32(&fft_instance, FFT_SIZE); arm_cfft_f32(&fft_instance, input, 0, 1); arm_cmplx_mag_f32(input, output, FFT_SIZE/2); }

注意：使用浮点运算时，确保在工程设置中启用了FPU支持（对于带FPU的Cortex-M4/M7芯片）。

2. FIR滤波器设计与实现

2.1 滤波器系数生成

FIR滤波器的性能很大程度上取决于系数设计。推荐使用MATLAB的Filter Designer工具生成系数：

% 低通滤波器设计示例 Fs = 1000; % 采样率1kHz Fcutoff = 100; % 截止频率100Hz N = 64; % 滤波器阶数 h = fir1(N-1, Fcutoff/(Fs/2), 'low'); fprintf('float32_t firCoeffs[%d] = {\n', N); fprintf(' %.8ff,', h(1:end-1)); fprintf(' %.8ff\n};\n', h(end));

生成的系数需要转换为C数组格式。对于实时性要求高的应用，可以考虑：

降低滤波器阶数（牺牲过渡带性能）
使用定点数运算（q15_t或q31_t格式）
采用多相分解结构

2.2 滤波器实例初始化

CMSIS-DSP提供了完整的FIR滤波器函数组。关键数据结构：

#define FIR_TAP_NUM 64 float32_t firState[FIR_TAP_NUM + BLOCK_SIZE - 1]; float32_t firCoeffs[FIR_TAP_NUM] = { /* MATLAB生成的系数 */ }; arm_fir_instance_f32 firInstance; void init_fir_filter(void) { arm_fir_init_f32(&firInstance, FIR_TAP_NUM, firCoeffs, firState, BLOCK_SIZE); }

几个重要参数说明：

状态数组：长度必须≥numTaps + blockSize - 1
块处理大小：影响实时性和内存占用
系数对称性：对称系数可启用优化选项

2.3 实时滤波处理

典型的处理流程如下：

float32_t adcBuffer[BLOCK_SIZE]; float32_t filteredOutput[BLOCK_SIZE]; void process_adc_data(void) { // 1. 从ADC获取数据 read_adc_values(adcBuffer, BLOCK_SIZE); // 2. 执行滤波 arm_fir_f32(&firInstance, adcBuffer, filteredOutput, BLOCK_SIZE); // 3. 输出结果 send_to_dac(filteredOutput, BLOCK_SIZE); }

性能优化技巧：

使用DMA实现ADC采集和DAC输出的双缓冲
对于固定采样率，考虑定时器触发采样
启用编译器的-O3优化选项

3. 系统集成与调试

3.1 内存管理策略

FIR滤波器对内存的需求主要来自：

系数存储：numTaps * sizeof(float32_t)
状态缓存：(numTaps + blockSize - 1) * sizeof(float32_t)

推荐的内存配置方案：

资源类型	分配位置	优点	缺点
系数	Flash	节省RAM	访问速度慢
状态	DTCM RAM	最快访问	容量有限
输入/输出	AXI SRAM	平衡	需考虑总线竞争

3.2 性能评估方法

使用GPIO引脚和逻辑分析仪测量关键指标：

#define PROBE_PIN GPIO_PIN_0 void fir_process_block(void) { GPIO_SetBits(GPIOA, PROBE_PIN); // 开始标记 arm_fir_f32(&firInstance, input, output, BLOCK_SIZE); GPIO_ResetBits(GPIOA, PROBE_PIN); // 结束标记 }

典型性能数据（STM32F103 @72MHz）：

滤波器类型	阶数	块大小	执行时间(us)
FIR浮点	64	32	285
FIR定点Q15	64	32	142

3.3 结果验证技巧

频域验证：注入正弦扫频信号，观察输出幅度
时域验证：使用方波测试阶跃响应
噪声测试：输入白噪声，观察输出频谱

串口绘图工具（如SerialPlot）可以直观显示滤波效果：

// 数据输出格式 printf("Raw:%.2f,Filtered:%.2f\n", rawValue, filteredValue);

4. 高级应用与优化

4.1 多速率滤波实现

当需要大比例降采样时，可以结合FIR抽取滤波器：

void decimate_filter(const float32_t* input, float32_t* output, uint32_t decimateFactor) { float32_t temp[BLOCK_SIZE]; arm_fir_decimate_instance_f32 decimInstance; // 初始化抽取滤波器 arm_fir_decimate_init_f32(&decimInstance, FIR_TAP_NUM, decimateFactor, firCoeffs, firState, BLOCK_SIZE); // 执行抽取滤波 arm_fir_decimate_f32(&decimInstance, input, temp, BLOCK_SIZE); // 二次处理 arm_fir_f32(&firInstance, temp, output, BLOCK_SIZE/decimateFactor); }

4.2 动态系数更新

对于需要自适应滤波的场景，可以实时更新系数：

void update_fir_coeffs(const float32_t* newCoeffs, uint32_t numTaps) { arm_fir_instance_f32 firTemp; memcpy(firCoeffs, newCoeffs, numTaps*sizeof(float32_t)); // 重新初始化滤波器 arm_fir_init_f32(&firTemp, numTaps, firCoeffs, firState, BLOCK_SIZE); // 原子操作切换实例 __disable_irq(); memcpy(&firInstance, &firTemp, sizeof(arm_fir_instance_f32)); __enable_irq(); }

4.3 混合精度处理技巧

在资源受限的设备上，可以采用混合精度策略：

系数使用Q15格式（节省存储空间）
中间运算使用Q31（提高精度）
最终输出转换为浮点

q15_t firCoeffsQ15[FIR_TAP_NUM]; q31_t stateQ31[FIR_TAP_NUM + BLOCK_SIZE - 1]; arm_fir_instance_q15 firInstanceQ15; void init_mixed_precision_fir(void) { // 将浮点系数转换为Q15 float32_to_q15(firCoeffs, firCoeffsQ15, FIR_TAP_NUM); arm_fir_init_q15(&firInstanceQ15, FIR_TAP_NUM, firCoeffsQ15, stateQ31, BLOCK_SIZE); }

5. 工程源码解析（关键部分）

完整的工程包含以下模块：

fir_filter/ ├── CMSIS/ # DSP库文件 ├── Drivers/ # 标准外设库 ├── Inc/ │ ├── fir_filter.h # 滤波器接口 │ └── adc_dac.h # 数据IO接口 └── Src/ ├── main.c # 主流程 ├── fir_filter.c # 滤波实现 └── adc_dac.c # 数据采集

关键接口设计：

// fir_filter.h typedef struct { arm_fir_instance_f32 instance; float32_t* coeffs; float32_t* state; uint16_t numTaps; uint16_t blockSize; } FIR_Filter; void FIR_Init(FIR_Filter* filter, float32_t* coeffs, float32_t* state, uint16_t numTaps, uint16_t blockSize); void FIR_Process(FIR_Filter* filter, float32_t* input, float32_t* output); void FIR_UpdateCoeffs(FIR_Filter* filter, float32_t* newCoeffs, uint16_t numTaps);

在STM32F103C8T6上的实测表现：