MindSpore开发之路（十三）：端到端实战：使用MindSpore实现LeNet-5手写数字识别-程序员充电站

经过前面十二篇文章的知识铺垫，我们已经掌握了MindSpore中数据处理、模型构建、训练与优化的各个独立模块。现在，是时候将所有这些“珍珠”串联起来，完成一个真正意义上的端到端深度学习项目了！

在本文中，我们将挑战一个深度学习领域的“Hello, World”级别的经典任务——使用LeNet-5模型识别MNIST手写数字。

1. 模型简介

LeNet-5：由“深度学习之父”Yann LeCun在1998年提出，是最早的卷积神经网络之一，其经典的“卷积-池化-全连接”结构至今仍在影响着现代CNN的设计。
MNIST数据集：一个包含了60,000张训练图像和10,000张测试图像的手写数字（0-9）数据集，是检验图像分类模型有效性的“试金石”。

这个项目将带您走过一个完整的AI开发流程：从数据加载、模型定义，到训练、评估，最后到实际预测。让我们开始吧！

2. 完整流程概览

我们的项目将遵循以下标准流程：

数据加载与处理：下载MNIST数据集，并使用mindspore.dataset构建高效的数据处理管道。
模型构建：使用nn.Cell精确搭建LeNet-5网络结构。
训练准备：定义损失函数、优化器和评估指标。
模型训练：使用高阶APImindspore.Model进行训练，并利用回调函数监控过程、保存模型。
模型评估：在测试集上验证模型的泛化能力。
模型推理：加载训练好的模型，对单张图片进行预测。

3. Step-by-Step 实战

3.1 环境与依赖导入

首先，确保你已经安装了MindSpore，然后导入所有需要的模块。

importosimportmindsporefrommindsporeimportnn,contextfrommindspore.trainimportModelfrommindspore.train.callbackimportModelCheckpoint,CheckpointConfig,LossMonitorfrommindspore.datasetimportvision,transformsfrommindspore.datasetimportMnistDataset# 设置MindSpore的执行模式和设备context.set_context(mode=context.GRAPH_MODE,device_target="CPU")

3.2 数据加载与处理

我们将使用mindspore.dataset模块来自动下载并处理MNIST数据集。

defcreate_dataset(data_path,batch_size=32,usage="train"):"""创建一个处理MNIST数据集的管道"""# 1. 加载数据集dataset=MnistDataset(data_path,usage=usage,shuffle=(usage=="train"))# 2. 定义数据增强和转换操作# 将图像尺寸调整为32x32，以匹配LeNet-5的输入要求resize_op=vision.Resize(size=(32,32))# 将图像像素值从[0, 255]归一化到[-1, 1]范围rescale_op=vision.Rescale(1.0/255.0,0.0)# 转换图像通道顺序，从HWC变为CHWhwc2chw_op=vision.HWC2CHW()# 3. 将操作应用到数据集中dataset=dataset.map(operations=[resize_op,rescale_op,hwc2chw_op],input_columns="image")dataset=dataset.map(operations=transforms.TypeCast(mindspore.int32),input_columns="label")# 4. 设置批量大小和随机打乱dataset=dataset.shuffle(buffer_size=10000)dataset=dataset.batch(batch_size)returndataset# 数据集路径data_path="./mnist_data"# 创建训练和测试数据集train_dataset=create_dataset(data_path,usage="train")test_dataset=create_dataset(data_path,usage="test")

3.3 模型构建 (LeNet-5)

接下来，我们精确地构建LeNet-5网络。这个网络包含两个卷积池化组和三个全连接层。

classLeNet5(nn.Cell):def__init__(self,num_classes=10):super(LeNet5,self).__init__()# 卷积层1: 输入1通道, 输出6通道, 5x5卷积核self.conv1=nn.Conv2d(1,6,5,pad_mode='valid')# 激活函数self.relu=nn.ReLU()# 最大池化层1: 2x2窗口, 步长2self.pool1=nn.MaxPool2d(kernel_size=2,stride=2)# 卷积层2: 输入6通道, 输出16通道, 5x5卷积核self.conv2=nn.Conv2d(6,16,5,pad_mode='valid')# 最大池化层2self.pool2=nn.MaxPool2d(kernel_size=2,stride=2)# 展平层self.flatten=nn.Flatten()# 全连接层1: 输入维度需要精确计算# 输入32x32 -> conv1 -> 28x28 -> pool1 -> 14x14# -> conv2 -> 10x10 -> pool2 -> 5x5# 所以展平后的维度是 16 * 5 * 5 = 400self.fc1=nn.Dense(16*5*5,120)# 全连接层2self.fc2=nn.Dense(120,84)# 全连接层3 (输出层)self.fc3=nn.Dense(84,num_classes)defconstruct(self,x):x=self.conv1(x)x=self.relu(x)x=self.pool1(x)x=self.conv2(x)x=self.relu(x)x=self.pool2(x)x=self.flatten(x)x=self.fc1(x)x=self.relu(x)x=self.fc2(x)x=self.relu(x)x=self.fc3(x)returnx# 实例化网络net=LeNet5()

3.4 训练准备：损失函数、优化器与评估指标

# 定义损失函数：交叉熵损失，常用于多分类任务loss_fn=nn.CrossEntropyLoss()# 定义优化器：使用Adam优化器optimizer=nn.Adam(net.trainable_params(),learning_rate=0.001)# 定义评估指标：准确率metrics={"accuracy":nn.Accuracy()}

3.5 模型训练

现在，我们将所有组件交给mindspore.Model，并配置好回调函数来启动训练。

# 实例化Modelmodel=Model(net,loss_fn,optimizer,metrics=metrics)# 配置并创建回调函数loss_cb=LossMonitor(200)# 每200个step打印一次lossconfig_ck=CheckpointConfig(save_checkpoint_steps=1875,keep_checkpoint_max=10)ckpoint_cb=ModelCheckpoint(prefix="lenet5",directory="./checkpoints",config=config_ck)print("开始训练...")# 启动训练，训练10个epochmodel.train(10,train_dataset,callbacks=[loss_cb,ckpoint_cb])print("训练完成！")

3.6 模型评估

训练完成后，我们使用model.eval()在测试集上评估模型的最终性能。

print("开始评估...")# 在测试集上评估模型acc=model.eval(test_dataset)print(f"评估完成！准确率:{acc}")

经过10个epoch的训练，你很可能会看到一个超过98%的准确率，这证明我们的模型已经学会了识别手写数字！

3.7 模型推理

最后，让我们加载训练好的模型，用它来预测一张我们自己提供的手写数字图片。

fromPILimportImageimportnumpyasnp# 1. 加载已保存的模型param_dict=mindspore.load_checkpoint("./checkpoints/lenet5-10_1875.ckpt")# 选择一个ckpt文件mindspore.load_param_into_net(net,param_dict)model_for_predict=Model(net)# 创建一个用于推理的Model# 2. 准备一张待预测的图片 (假设你有一张名为'my_digit.png'的28x28灰度图)# 这里我们用numpy生成一个模拟的'7'的图像img_data=np.zeros((28,28),dtype=np.uint8)img_data[5:23,10:13]=255img_data[5:8,10:20]=255img=Image.fromarray(img_data)img.save("my_digit_7.png")# 3. 预处理图片img=img.resize((32,32))# 调整尺寸img_array=np.array(img,dtype=np.float32)/255.0# 归一化img_array=np.expand_dims(img_array,axis=0)# 增加通道维度 Cimg_array=np.expand_dims(img_array,axis=0)# 增加批量维度 Ntensor_img=Tensor(img_array,mindspore.float32)# 4. 执行预测predictions=model_for_predict.predict(tensor_img)predicted_label=np.argmax(predictions.asnumpy())print(f"预测结果:{predicted_label}")