你的第一个图像分类项目：用PyTorch快速搞定VGG/ResNet/MobileNet（附完整数据集处理流程）-程序员充电站

从零到一：用PyTorch实现你的首个图像分类器实战指南

当你第一次接触深度学习时，没有什么比亲手训练一个能识别猫狗、花卉或其他物体的图像分类器更令人兴奋了。本文将带你用PyTorch框架，在不到一小时内完成从数据准备到模型评估的全流程。我们会重点介绍三种最流行的预训练模型（VGG16、ResNet50和MobileNetV2）的实战应用，而非深究其数学原理。

1. 环境配置与数据准备

在开始之前，确保你的Python环境已安装以下包：

pip install torch torchvision pillow pandas matplotlib

1.1 数据集组织结构

一个标准的图像分类数据集应该按以下结构组织：

your_dataset/ ├── train/ │ ├── class1/ │ │ ├── img1.jpg │ │ └── img2.jpg │ └── class2/ │ ├── img1.jpg │ └── img2.jpg └── val/ ├── class1/ │ ├── img1.jpg │ └── img2.jpg └── class2/ ├── img1.jpg └── img2.jpg

提示：每个子文件夹名称即为类别标签，建议使用英文且不含空格

1.2 数据预处理流程

PyTorch提供了torchvision.transforms模块来标准化图像处理：

from torchvision import transforms train_transform = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) val_transform = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ])

这里使用的归一化参数是ImageNet数据集的均值与标准差，对预训练模型至关重要。

2. 模型选择与加载

PyTorch的torchvision.models模块提供了多种预训练模型。我们比较三种主流架构：

模型	参数量(M)	Top-1准确率	适合场景
VGG16	138	71.3%	高精度需求
ResNet50	25.5	76.2%	平衡精度与速度
MobileNetV2	3.4	71.9%	移动端/资源受限环境

2.1 加载预训练模型

import torchvision.models as models # 选择其中一种模型 model = models.vgg16(pretrained=True) # 或resnet50/mobilenet_v2 # 冻结所有特征提取层参数 for param in model.parameters(): param.requires_grad = False # 修改最后的全连接层 num_classes = 10 # 你的类别数 if isinstance(model, models.VGG): model.classifier[6] = nn.Linear(4096, num_classes) elif isinstance(model, models.ResNet): model.fc = nn.Linear(2048, num_classes) # ResNet50 else: # MobileNetV2 model.classifier[1] = nn.Linear(1280, num_classes)

3. 训练流程实现

3.1 数据加载器配置

from torchvision.datasets import ImageFolder from torch.utils.data import DataLoader train_dataset = ImageFolder('your_dataset/train', transform=train_transform) val_dataset = ImageFolder('your_dataset/val', transform=val_transform) train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)

3.2 训练循环代码

import torch.optim as optim import torch.nn as nn criterion = nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.001) device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") model = model.to(device) for epoch in range(10): # 训练10个epoch model.train() running_loss = 0.0 for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() running_loss += loss.item() # 每个epoch结束后验证 model.eval() correct = 0 total = 0 with torch.no_grad(): for inputs, labels in val_loader: inputs, labels = inputs.to(device), labels.to(device) outputs = model(inputs) _, predicted = torch.max(outputs.data, 1) total += labels.size(0) correct += (predicted == labels).sum().item() print(f'Epoch {epoch+1}, Loss: {running_loss/len(train_loader):.4f}, ' f'Val Acc: {100*correct/total:.2f}%')

4. 模型评估与优化

4.1 常见性能指标

除了准确率，还应该关注：

混淆矩阵：揭示模型在各类别间的混淆情况
F1 Score：平衡精确率与召回率
ROC曲线：特别适用于类别不平衡的数据集

4.2 可视化训练过程

import matplotlib.pyplot as plt def plot_training(history): plt.figure(figsize=(12,4)) plt.subplot(1,2,1) plt.plot(history['loss'], label='train loss') plt.title('Training Loss') plt.xlabel('Epoch') plt.legend() plt.subplot(1,2,2) plt.plot(history['acc'], label='val acc') plt.title('Validation Accuracy') plt.xlabel('Epoch') plt.legend() plt.show()

4.3 实用调优技巧

学习率调度：使用torch.optim.lr_scheduler实现动态调整

scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=5, gamma=0.1)

数据增强扩展：添加更多变换提升泛化能力

transforms.RandomRotation(30), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2)

早停机制：当验证集性能不再提升时终止训练

5. 模型部署与应用

训练完成后，你可以将模型保存并集成到应用中：

# 保存整个模型 torch.save(model, 'model.pth') # 仅保存参数（推荐） torch.save(model.state_dict(), 'model_weights.pth') # 加载模型 loaded_model = models.vgg16() # 需要先初始化相同架构 loaded_model.load_state_dict(torch.load('model_weights.pth')) loaded_model.eval()

对于实际应用，这里有一个简单的预测函数示例：

from PIL import Image def predict(image_path, model, transform, class_names): img = Image.open(image_path).convert('RGB') img = transform(img).unsqueeze(0).to(device) with torch.no_grad(): output = model(img) _, pred = torch.max(output, 1) prob = torch.nn.functional.softmax(output, dim=1)[0] * 100 return class_names[pred.item()], prob[pred.item()].item()

在实际项目中，我发现MobileNetV2虽然精度略低，但在CPU上的推理速度比ResNet50快3-5倍，非常适合需要实时响应的应用场景。而当你需要最高精度且不计较计算成本时，VGG16仍然是可靠的选择。

你的第一个图像分类项目：用PyTorch快速搞定VGG/ResNet/MobileNet（附完整数据集处理流程）

从零到一：用PyTorch实现你的首个图像分类器实战指南

1. 环境配置与数据准备

1.1 数据集组织结构

1.2 数据预处理流程

2. 模型选择与加载

2.1 加载预训练模型

3. 训练流程实现

3.1 数据加载器配置

3.2 训练循环代码

4. 模型评估与优化

4.1 常见性能指标

4.2 可视化训练过程

4.3 实用调优技巧

5. 模型部署与应用

Easy-Llama：一键部署本地大模型，降低Llama使用门槛的实践指南

保姆级教程：彻底解决Kettle Spoon.bat闪退，从内存分配到缓存清理一条龙

大数据深度学习毕设开题建议

CSS表单库设计：从样式重置到可访问性的完整实现方案

共享单车信息系统|基于java+ vue共享单车信息系统(源码+数据库+文档)

5分钟高效掌握AssetRipper：专业级Unity资产提取完整指南

从零到一：用PyTorch实现你的首个图像分类器实战指南

1. 环境配置与数据准备

1.1 数据集组织结构

1.2 数据预处理流程

2. 模型选择与加载

2.1 加载预训练模型

3. 训练流程实现

3.1 数据加载器配置

3.2 训练循环代码

4. 模型评估与优化

4.1 常见性能指标

4.2 可视化训练过程

4.3 实用调优技巧

5. 模型部署与应用

Easy-Llama：一键部署本地大模型，降低Llama使用门槛的实践指南

保姆级教程：彻底解决Kettle Spoon.bat闪退，从内存分配到缓存清理一条龙

大数据 深度学习毕设开题建议

CSS表单库设计：从样式重置到可访问性的完整实现方案

共享单车信息系统|基于java+ vue共享单车信息系统(源码+数据库+文档)

5分钟高效掌握AssetRipper：专业级Unity资产提取完整指南

大数据深度学习毕设开题建议