GTZAN音乐流派识别：从MFCC特征到CNN模型的完整实战指南-程序员充电站

1. 项目概述：从一段音频到音乐流派识别的基石

如果你对音乐信息检索或者机器学习稍有涉猎，大概率听说过GTZAN这个名字。它不是一个复杂的算法，也不是一个炫酷的应用，而是一个在学术界和工业界都绕不开的经典数据集。简单来说，GTZAN 是一个包含了10种音乐流派、每类100首、共计1000首音频片段的集合。每段音频都是30秒的WAV格式，采样率为22050Hz，单声道。这个数据集诞生于2002年，由乔治亚理工学院的两位研究者创建，初衷是为了给音乐流派自动分类任务提供一个标准化的“考场”。

你可能觉得，不就是1000首歌吗？现在随便一个音乐流媒体平台都有上千万的曲库。但GTZAN的价值恰恰在于它的“古老”和“纯粹”。在深度学习尚未席卷一切的年代，研究者们需要这样一个干净、规整、标注明确的数据集，来验证各种手工设计特征（比如梅尔频率倒谱系数、色度特征、频谱质心）和传统机器学习算法（如支持向量机、高斯混合模型）的有效性。它就像机器学习领域的“MNIST”（手写数字数据集），是无数研究者踏入音乐信息检索领域的第一块敲门砖。

这个项目能做什么？它的核心就是音乐流派自动分类。给定一段未知的30秒音乐片段，模型需要判断它属于蓝调、古典、乡村、迪斯科、嘻哈、爵士、金属、流行、雷鬼还是摇滚中的哪一种。这听起来像是音乐App里的一个功能，但其背后的技术远不止于此。通过对GTZAN的研究，我们可以深入理解如何从原始的音频波形中提取有区分度的特征，如何设计模型来捕捉不同音乐流派在节奏、和声、音色上的微妙差异，以及如何评估一个分类系统的性能。

它适合谁来学习和参考？对于机器学习初学者，GTZAN是一个绝佳的实战项目，数据规整，任务明确，可以完整地走一遍“特征工程 -> 模型训练 -> 评估优化”的经典流程。对于音频处理或音乐信息检索方向的研究者，GTZAN是必须了解的基准，你的新算法、新特征能否在GTZAN上超越前人，是一个重要的衡量标准。甚至对于音乐爱好者，通过这个项目，你也能以一种全新的、量化的视角去“理解”你喜欢的音乐。

然而，GTZAN也并非完美。它自诞生以来就伴随着一些争议，比如部分音频片段可能存在重复或标签错误，其流派划分的边界在当今融合音乐盛行的时代也显得有些刻板。但无论如何，它已经成为了一个文化符号和事实标准。接下来，我们就深入这个经典项目的内部，拆解其核心思路、技术实现，并分享在复现和改进过程中的实战经验与避坑指南。

2. 核心思路与技术选型解析

面对GTZAN这样一个“古老”的数据集，今天的我们该如何下手？是沿用二十年前的特征提取加传统机器学习的老路，还是直接上深度神经网络降维打击？我的建议是：两者都做，并理解其演进脉络。这不仅能让你掌握完整的知识体系，也能深刻体会技术发展的内在逻辑。

2.1 传统机器学习流水线：特征工程的智慧

在算力匮乏、深度学习尚未普及的年代，研究者无法将原始的音频波形直接扔给模型。他们必须像一位经验丰富的品酒师，从复杂的感官体验中提炼出几个关键指标，如“酸度”、“单宁”、“酒体”。在音频领域，这个过程就是特征工程。

对于GTZAN，一套经典的特征提取组合拳通常包括以下几个核心部分：

梅尔频率倒谱系数（MFCCs）：这是音频特征提取的“万金油”，尤其擅长描述音色。人耳对频率的感知不是线性的，在低频区域更敏感。MFCC通过梅尔滤波器组模拟了这一特性，并经过离散余弦变换得到倒谱系数，它能有效表征声音的短时功率谱。对于区分音色差异巨大的流派（如古典钢琴与重金属吉他），MFCC至关重要。通常，我们会提取每帧音频的13-20个MFCC系数，然后计算其在整个片段上的统计量（如均值、方差、偏度、峰度）作为最终特征。
色度特征（Chroma Features）：音乐是建立在十二平均律之上的，无论什么调，一个八度内只有12个音级（C, C#, D, ..., B）。色度特征就是将整个频谱映射到这12个音级上，它强烈反映了音乐的和声内容。一段和弦进行是蓝调还是爵士，往往能在色度特征上找到线索。
节奏特征（Rhythm Features）：包括节拍强度、节奏直方图等。迪斯科有稳定强劲的四四拍，金属乐可能有复杂多变的双踩节奏，而古典乐的节奏可能更为自由。通过自相关函数或傅里叶变换分析信号的周期性，可以估算出节奏（BPM）和节拍位置。
频谱特征（Spectral Features）：如频谱质心（声音的“亮度”）、频谱滚降点（频谱能量集中程度）、频谱通量（相邻帧频谱的变化，感知“起伏”）。这些特征能捕捉声音在频谱维度上的整体形态。

为什么选择这些特征？背后的逻辑是模仿人类听觉系统的认知方式。我们听音乐时，不会去分析每秒44100个采样点，而是下意识地感知其旋律（部分由色度特征反映）、和声（色度特征）、节奏（节奏特征）和音色（MFCC及频谱特征）。这套手工特征体系，是将高维、冗余的原始信号，压缩成低维、具有音乐意义的判别性向量的成功实践。

在模型选择上，支持向量机（SVM）和随机森林（Random Forest）是当年的主流。SVM擅长处理高维特征和小样本数据，通过核函数可以学习复杂的非线性边界。随机森林则以其鲁棒性和可解释性著称，还能给出特征重要性排序，帮你理解到底是节奏还是音色在分类中起主导作用。

注意：使用传统方法时，特征标准化（如Z-score）是必不可少的一步。因为MFCC的数值范围、节奏特征的BPM值量纲完全不同，不进行标准化会让模型倾向于数值大的特征，严重影响性能。

2.2 深度学习端到端方案：让模型自己学习特征

深度学习，特别是卷积神经网络（CNN）的兴起，改变了游戏规则。我们不再需要依赖人类的先验知识去精心设计特征，而是可以将原始频谱图（如梅尔频谱图）甚至原始波形直接输入网络，让模型通过多层卷积自动学习从低级边缘（频谱中的特定模式）到高级语义（流派风格）的层次化特征表示。

为什么频谱图比波形更好？直接输入波形需要模型第一层就学习类似傅里叶变换的操作，这增加了学习难度。而梅尔频谱图可以看作音频的“图像”，横轴是时间，纵轴是梅尔刻度下的频率，颜色深浅代表能量强度。CNN在处理这种时频图像上有天然优势。

目前的主流架构是基于梅尔频谱图的2D-CNN。一个典型的网络结构可能如下：

输入层：一张128（梅尔频带数） x 1300（约30秒音频的帧数） x 1（通道数）的梅尔频谱图。
卷积块：多个Conv2D + BatchNorm + ReLU + MaxPooling的组合，逐步扩大感受野，提取从局部到全局的特征。
全局池化层：用GlobalAveragePooling2D将特征图空间维度压缩，得到一个固定长度的特征向量，替代传统的全连接层，能有效减少参数量并防止过拟合。
分类层：一个Dense层加上Softmax激活函数，输出10个流派的概率分布。

技术选型考量：对于GTZAN这样的小数据集（仅1000个样本），直接训练一个很深的CNN（如ResNet50）极易过拟合。因此，更常见的策略是：

使用轻量级CNN架构：如自己设计一个4-6层的浅层网络。
采用预训练模型进行迁移学习：将在ImageNet等大型图像数据集上预训练好的模型（去除顶部分类层）作为特征提取器，然后在GTZAN上微调顶层。虽然图像和频谱图领域不同，但底层的边缘、纹理检测能力是可以迁移的，能显著提升小数据集上的性能。
强力的数据增强：这是在小数据集上训练深度学习模型的“救命稻草”。对于音频，有效的数据增强包括：时移（在时间轴上随机平移一小段）、音高微调（轻微改变音高）、添加噪声、随机掩蔽部分时频区域（SpecAugment）等。

我的选型建议：如果你是初学者，想彻底理解流程，建议从传统特征+SVM做起，每一步都清晰可控。如果你想追求更高的准确率并学习前沿方法，那么梅尔频谱图+轻量CNN/迁移学习是更好的选择。在实际项目中，我通常会两条路都走一遍，传统方法的结果可以作为深度学习模型的基准参考，而深度学习模型中间层提取的特征，也常常可以反过来启发传统特征的改进。

3. 实战流程：从数据准备到模型评估

理论说得再多，不如动手跑一遍。下面我将以深度学习端到端方案为主线，详细拆解每一个实操步骤，并穿插传统方法的对应环节作为对比和补充。

3.1 环境搭建与数据准备

首先，你需要一个Python环境。我强烈推荐使用Anaconda创建独立的虚拟环境，避免包版本冲突。

# 创建并激活环境 conda create -n gtzan python=3.8 conda activate gtzan # 安装核心依赖 pip install numpy pandas matplotlib seaborn pip install scikit-learn # 用于传统机器学习模型和评估 pip install librosa # 音频处理的核心库，必装 pip install soundfile # 用于音频读写 pip install tensorflow # 或 pip install torch torchaudio

数据获取与探查：GTZAN数据集可以从Kaggle或一些大学网站找到。下载后，其目录结构通常是这样的：

gtzan/ ├── genres/ │ ├── blues/ │ │ ├── blues.00000.wav │ │ └── ... │ ├── classical/ │ └── ... └── features.csv (可能不存在，需要自己生成)

第一步永远是用librosa加载几首听听，看看频谱图。

import librosa import librosa.display import matplotlib.pyplot as plt # 加载一首歌曲 file_path = 'gtzan/genres/blues/blues.00000.wav' y, sr = librosa.load(file_path, sr=22050, duration=30) # 确保统一为30秒，22050Hz # 绘制波形 plt.figure(figsize=(14, 5)) plt.subplot(1, 2, 1) librosa.display.waveshow(y, sr=sr) plt.title('Waveform') # 绘制梅尔频谱图 plt.subplot(1, 2, 2) mel_spec = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000) mel_spec_db = librosa.power_to_db(mel_spec, ref=np.max) librosa.display.specshow(mel_spec_db, sr=sr, x_axis='time', y_axis='mel') plt.colorbar(format='%+2.0f dB') plt.title('Mel Spectrogram') plt.tight_layout() plt.show()

这个步骤能让你直观感受不同流派音频的差异。比如，古典乐的频谱图可能更“干净”，能量集中在特定频段；而金属乐则可能全频段都有很强的能量分布。

3.2 特征提取与数据集构建

对于深度学习方案，我们的核心任务是生成梅尔频谱图数据集。

import numpy as np import os def extract_mel_spectrogram(file_path, n_mels=128, duration=30, sr=22050): """从音频文件提取梅尔频谱图""" try: y, sr = librosa.load(file_path, sr=sr, duration=duration) # 统一长度，不足30秒的补零，超过的截断（GTZAN通常都是精确30秒） if len(y) < sr * duration: y = np.pad(y, (0, max(0, sr * duration - len(y))), mode='constant') else: y = y[:sr * duration] mel_spec = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=n_mels, fmax=8000) mel_spec_db = librosa.power_to_db(mel_spec, ref=np.max) return mel_spec_db except Exception as e: print(f"Error processing {file_path}: {e}") return None # 遍历所有文件，构建数据集 data = [] labels = [] genres = ['blues', 'classical', 'country', 'disco', 'hiphop', 'jazz', 'metal', 'pop', 'reggae', 'rock'] for label_idx, genre in enumerate(genres): genre_path = os.path.join('gtzan/genres', genre) for filename in os.listdir(genre_path): if filename.endswith('.wav'): file_path = os.path.join(genre_path, filename) spec = extract_mel_spectrogram(file_path) if spec is not None: data.append(spec) labels.append(label_idx) # 转换为NumPy数组 X = np.array(data) # 形状: (1000, 128, 时间帧数, 1) 需要增加通道维度 y = np.array(labels) # 划分训练集、验证集、测试集 (8:1:1) from sklearn.model_selection import train_test_split X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42) X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42) # 为CNN增加通道维度 X_train = X_train[..., np.newaxis] # 形状变为 (800, 128, 时间帧数, 1) X_val = X_val[..., np.newaxis] X_test = X_test[..., np.newaxis]

实操心得：这里有一个关键细节，梅尔频谱图的时间轴长度（帧数）取决于音频时长和librosa的hop_length参数。为了能让所有样本输入到同一个CNN中，必须统一时间维度。有两种方法：1) 固定duration并设置hop_length，使计算出的帧数一致；2) 在提取后，使用插值或裁剪/填充到固定长度。我通常选择第一种，计算更可控。例如，duration=30,sr=22050,n_fft=2048,hop_length=512，那么时间帧数n_frames = int((sr * duration) / hop_length) + 1 ≈ 1293。我们可以统一裁剪到1300帧。

对于传统机器学习方案，你需要提取MFCC等统计特征：

def extract_features(file_path): y, sr = librosa.load(file_path, duration=30, sr=22050) # 提取MFCCs并计算统计量 mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13) mfccs_mean = np.mean(mfccs, axis=1) mfccs_std = np.std(mfccs, axis=1) mfccs_delta = np.mean(librosa.feature.delta(mfccs), axis=1) # 提取色度特征统计量 chroma = librosa.feature.chroma_stft(y=y, sr=sr) chroma_mean = np.mean(chroma, axis=1) # 提取节奏特征 tempo, _ = librosa.beat.beat_track(y=y, sr=sr) # 将所有特征拼接成一个向量 feature_vector = np.concatenate([mfccs_mean, mfccs_std, mfccs_delta, chroma_mean, [tempo]]) return feature_vector

3.3 模型构建、训练与调优

深度学习模型构建（以TensorFlow/Keras为例）：

from tensorflow.keras import layers, models def create_cnn_model(input_shape, num_classes=10): model = models.Sequential([ # 第一个卷积块 layers.Conv2D(32, (3, 3), activation='relu', padding='same', input_shape=input_shape), layers.BatchNormalization(), layers.MaxPooling2D((2, 2)), layers.Dropout(0.25), # 第二个卷积块 layers.Conv2D(64, (3, 3), activation='relu', padding='same'), layers.BatchNormalization(), layers.MaxPooling2D((2, 2)), layers.Dropout(0.25), # 第三个卷积块 layers.Conv2D(128, (3, 3), activation='relu', padding='same'), layers.BatchNormalization(), layers.MaxPooling2D((2, 2)), layers.Dropout(0.25), # 全局平均池化 + 分类层 layers.GlobalAveragePooling2D(), layers.Dense(128, activation='relu'), layers.Dropout(0.5), layers.Dense(num_classes, activation='softmax') ]) return model # 输入形状: (梅尔频带数, 时间帧数, 通道数) input_shape = (128, 1300, 1) model = create_cnn_model(input_shape) model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy']) model.summary()

数据增强：这是提升小数据集性能的关键。我们可以使用TensorFlow的ImageDataGenerator思路，但需要自定义适用于频谱图的增强层。

from tensorflow.keras import layers import tensorflow as tf class AudioAugmentation(layers.Layer): def __init__(self, time_mask_param=10, freq_mask_param=5): super().__init__() self.time_mask_param = time_mask_param self.freq_mask_param = freq_mask_param def call(self, spec, training=True): if not training: return spec # 时移 spec = tf.roll(spec, shift=tf.random.uniform(shape=[], minval=-50, maxval=50, dtype=tf.int32), axis=2) # 频率掩蔽 (SpecAugment) if self.freq_mask_param > 0: f = tf.random.uniform(shape=[], minval=0, maxval=self.freq_mask_param, dtype=tf.int32) f0 = tf.random.uniform(shape=[], minval=0, maxval=spec.shape[1] - f, dtype=tf.int32) mask = tf.concat([tf.ones((spec.shape[0], f0, 1)), tf.zeros((spec.shape[0], f, 1)), tf.ones((spec.shape[0], spec.shape[1] - f0 - f, 1))], axis=1) spec = spec * mask return spec # 在模型开头加入这个增强层 inputs = layers.Input(shape=input_shape) augmented = AudioAugmentation()(inputs, training=True) # 注意：只在训练时启用 # ... 后续的卷积层接在 augmented 后面

训练与回调：

from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping, ReduceLROnPlateau callbacks = [ EarlyStopping(monitor='val_loss', patience=15, restore_best_weights=True), ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=5, min_lr=1e-6), ModelCheckpoint('best_model.h5', monitor='val_accuracy', save_best_only=True) ] history = model.fit( X_train, y_train, validation_data=(X_val, y_val), epochs=100, batch_size=32, callbacks=callbacks, verbose=1 )

传统机器学习模型训练：

from sklearn.svm import SVC from sklearn.preprocessing import StandardScaler from sklearn.pipeline import make_pipeline # 假设 X_train_feat, X_test_feat 是之前提取的传统特征 scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train_feat) X_test_scaled = scaler.transform(X_test_feat) # 使用带RBF核的SVM，并网格搜索最佳参数 from sklearn.model_selection import GridSearchCV param_grid = {'C': [0.1, 1, 10, 100], 'gamma': [1, 0.1, 0.01, 0.001]} svm = SVC(kernel='rbf', random_state=42) grid_search = GridSearchCV(svm, param_grid, cv=5, scoring='accuracy', verbose=1) grid_search.fit(X_train_scaled, y_train) print(f"Best params: {grid_search.best_params_}, Best CV score: {grid_search.best_score_:.4f}")

3.4 模型评估与结果分析

训练完成后，必须在独立的测试集上进行最终评估。

# 深度学习模型评估 test_loss, test_acc = model.evaluate(X_test, y_test, verbose=0) print(f'Test Accuracy (CNN): {test_acc:.4f}') # 绘制混淆矩阵 from sklearn.metrics import confusion_matrix, classification_report import seaborn as sns y_pred = model.predict(X_test) y_pred_classes = np.argmax(y_pred, axis=1) cm = confusion_matrix(y_test, y_pred_classes) plt.figure(figsize=(10, 8)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=genres, yticklabels=genres) plt.xlabel('Predicted') plt.ylabel('True') plt.title('Confusion Matrix') plt.show() print(classification_report(y_test, y_pred_classes, target_names=genres))

结果分析是关键。不要只看总体准确率。混淆矩阵能告诉你模型到底在哪些地方混淆了。在GTZAN上，一个常见的现象是：

摇滚和金属容易混淆（都强有力、失真吉他多）。
嘻哈和雷鬼可能混淆（都有强烈的节奏元素）。
乡村和流行的边界有时也比较模糊。

如果发现某些类别准确率特别低，就需要回到特征或数据本身：是不是这两个流派的音频特征本身就很相似？是不是数据集中存在标签错误（GTZAN确实有这个问题）？还是你的模型容量不够，无法学习其细微差别？

实操心得：在GTZAN上，一个精心调优的传统SVM模型准确率大约在70%-80%之间。而一个设计得当、使用了数据增强和正则化的CNN模型，准确率可以稳定在85%以上，甚至达到90%左右。这个提升主要来自于CNN从原始频谱中学习到了比手工特征更丰富、更有效的表示。但别忘了，传统方法训练速度极快，且可解释性强，这在某些场景下依然是巨大优势。

4. 避坑指南与进阶优化

复现一个经典项目，99%的时间可能都花在解决那些教程里不会写的“坑”上。下面是我在多次实践中总结出的核心问题和解决方案。

4.1 数据层面的陷阱与处理

GTZAN的“脏数据”问题：早有论文指出，GTZAN数据集中存在一些重复音频片段和可能的标签错误。例如，同一段爵士乐可能被复制到了不同文件；某段摇滚乐可能被错误标成了金属。这直接导致了模型性能的上限被锁定，并且不同研究者的结果难以直接比较。
- 应对策略：对于学术研究，建议使用清洗过的版本（如“GTZAN-cleaned”），或在论文中明确说明你使用的数据来源和预处理方式。对于学习目的，可以将其视为一种现实数据集的模拟——真实世界的数据从来都不是完美的，模型需要有一定的鲁棒性。
音频长度不一致：尽管声称都是30秒，但个别文件可能因为编码问题短那么零点几秒。这会导致提取特征时数组维度不一致，引发后续错误。
- 应对策略：在librosa.load时强制duration=30，并像我们之前代码那样，对不足时长的进行补零。这是最稳妥的方法。
类别不平衡：GTZAN本身是平衡的（每类100首）。但在划分训练/验证/测试集时，必须使用分层抽样（stratify=y），确保每个集合中各类别的比例与原数据集一致，否则可能导致评估偏差。

4.2 特征工程与模型训练的常见坑

梅尔频谱图的归一化：直接从librosa.feature.melspectrogram得到的是功率谱，数值范围很大，直接输入网络会导致梯度问题。必须进行归一化。常见方法有：
- 分贝转换：librosa.power_to_db，将功率转换为分贝值，更符合人耳感知。
- 全局归一化：对整个训练集计算均值和标准差，然后进行(x - mean) / std的标准化。
- 实例归一化：对每张单独的频谱图进行归一化，使其均值为0，标准差为1。这种方法对于不同音量、不同录音条件的音频鲁棒性更好，我通常推荐使用这个。
过拟合的魔咒：1000个样本对于CNN来说太少了，过拟合是头号敌人。
- 核心武器是数据增强：时移、音高偏移、加噪、SpecAugment（时频掩蔽）必须用上。其中，SpecAugment对音频分类任务提升显著。
- 模型结构要轻量：别一上来就用ResNet50。从3-4个卷积层的小网络开始。
- 正则化拉满：除了Dropout，在卷积层后加BatchNorm，使用L2权重衰减，Early Stopping必不可少。
- 利用迁移学习：在大型音频数据集（如AudioSet）上预训练的模型是更好的起点，但要注意领域适配。
学习率与优化器：Adam优化器是默认的好选择，但初始学习率不宜过大，1e-3或1e-4是常见的起点。配合ReduceLROnPlateau回调，在验证损失停滞时自动降低学习率，往往能带来最后一点的性能提升。

4.3 超越GTZAN：项目的延伸与思考

当你成功复现了GTZAN上的分类后，这个项目远未结束，这里有几个延伸方向：

探索更先进的模型架构：
- CRNN（卷积循环神经网络）：用CNN提取局部时频特征，再用RNN（如LSTM或GRU）建模时间序列上的长期依赖。音乐是随时间展开的艺术，这种结构非常契合。
- Attention机制：让模型学会“关注”歌曲中对分类最关键的部分（比如副歌、独特的吉他solo）。
- Transformer：Vision Transformer在图像上成功，Audio Spectrogram Transformer在音频上同样表现惊人，完全依赖自注意力机制来建模时频关系。
尝试不同的输入表示：梅尔频谱图不是唯一的输入。可以尝试：
- 常数Q变换（CQT）频谱图：在音乐分析中有时比STFT更有优势。
- MFCCs的一维卷积：将MFCCs的时间序列看作一维信号，用1D-CNN处理。
- 原始波形端到端：使用WaveNet或SincNet等结构直接处理波形，挑战更大，但意义也更大。
从分类到更细粒度的任务：
- 音乐情感识别：判断音乐是快乐的、悲伤的、激昂的还是舒缓的。
- 乐器识别：识别一段音频中包含哪些乐器。
- 音乐推荐系统：利用学习到的音频特征，计算歌曲之间的相似度，构建简单的推荐引擎。
部署与实践：将训练好的模型封装成一个简单的Web应用（用Flask或FastAPI），用户上传一段音乐，后端返回流派预测结果。这个过程会让你接触到模型序列化、API设计、前后端交互等工程化知识。

我个人在多次实践中最大的体会是：GTZAN项目的价值，不在于你最终达到了多高的准确率，而在于你完整地走完了一个音频机器学习项目的全生命周期，并理解了其中每一个环节的“为什么”。从音频加载、预处理、可视化，到特征设计、模型选择、训练调试，再到评估分析、问题排查，这套流程是通用的。掌握了它，你就具备了处理更复杂、更真实的音频AI项目的基础能力。最后一个小技巧，在训练时，除了看损失和准确率曲线，不妨多花时间听听那些被模型分错的样本，用你的耳朵去分析模型犯错的原因，这往往是启发你改进模型的最佳途径。