ResNet18手把手教学：从零到识别只需1小时1块钱-程序员充电站

ResNet18手把手教学：从零到识别只需1小时1块钱

引言

想象一下，你刚参加了一个编程培训班，老师说要带大家体验AI项目。但问题来了：有的同学用着顶配游戏本，有的还在用五年前的旧电脑，怎么保证所有人能同步完成实验？这就是我们今天要解决的痛点——用ResNet18实现零门槛的物体识别。

ResNet18是深度学习领域的"入门神器"，相当于图像识别界的Hello World程序。它由微软研究院在2015年提出，通过残差连接（Residual Connection）解决了深层网络训练难题。别看它结构简单，在ImageNet数据集上能达到69.76%的top-1准确率，足以识别日常生活中的上千种物体。

本文将带你用云GPU资源（成本仅1元/小时）完成三个里程碑： 1. 10分钟部署预训练模型 2. 30分钟跑通摄像头实时检测 3. 20分钟自定义识别自己的物品

💡 提示
所有操作都在浏览器中完成，不需要配置本地环境，老旧电脑也能流畅运行。

1. 环境准备：5分钟搞定云环境

我们先在CSDN星图镜像广场选择预装好的PyTorch环境：

访问镜像广场
搜索"PyTorch 1.12 + CUDA 11.3"基础镜像
点击"立即创建"，选择按量计费（建议选T4显卡，1.2元/小时）

启动成功后，通过网页终端登录，执行以下命令检查环境：

nvidia-smi # 查看GPU状态 python -c "import torch; print(torch.__version__)" # 检查PyTorch版本

正常会显示类似输出：

Tesla T4 | 15GB显存 1.12.1+cu113

2. 模型部署：10分钟加载ResNet18

PyTorch已经内置了ResNet18模型，我们直接调用预训练版本：

import torch import torchvision.models as models # 加载预训练模型（自动下载权重） model = models.resnet18(weights='IMAGENET1K_V1') model.eval() # 切换到推理模式 # 转移到GPU加速 device = torch.device("cuda" if torch.cuda.is_available() else "cpu") model = model.to(device) print("模型加载完成！")

这个预训练模型已经能识别1000类常见物体（从键盘到考拉）。我们通过一个简单例子测试：

from PIL import Image import torchvision.transforms as transforms # 预处理管道 preprocess = transforms.Compose([ transforms.Resize(256), transforms.CenterCrop(224), transforms.ToTensor(), transforms.Normalize( mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225] ) ]) # 加载测试图片（替换为你自己的图片路径） img = Image.open("test.jpg") inputs = preprocess(img).unsqueeze(0).to(device) # 推理 with torch.no_grad(): outputs = model(inputs) _, preds = torch.max(outputs, 1) # 显示结果 with open('imagenet_classes.txt') as f: classes = [line.strip() for line in f.readlines()] print(f"预测结果：{classes[preds[0]]}")

3. 实时检测：30分钟玩转摄像头

让模型实时分析摄像头画面才是真功夫。我们需要用到OpenCV：

pip install opencv-python

然后创建实时检测脚本camera_demo.py：

import cv2 import numpy as np from PIL import Image # 初始化摄像头 cap = cv2.VideoCapture(0) while True: ret, frame = cap.read() if not ret: break # 转换颜色空间并预处理 rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) pil_img = Image.fromarray(rgb_frame) inputs = preprocess(pil_img).unsqueeze(0).to(device) # 推理 with torch.no_grad(): outputs = model(inputs) _, preds = torch.max(outputs, 1) # 显示结果 label = classes[preds[0]] cv2.putText(frame, label, (10, 30), cv2.FONT_HERSHEY_SIMPLEX, 1, (0, 255, 0), 2) cv2.imshow('ResNet18实时检测', frame) if cv2.waitKey(1) & 0xFF == ord('q'): break cap.release() cv2.destroyAllWindows()

运行后会看到摄像头画面和实时识别结果。试着拿水杯、手机等物品测试吧！

4. 自定义训练：20分钟教会模型认新东西

想让模型识别培训班logo？只需少量数据就能微调：

准备数据集（每类至少20张图）：data/ ├── logo/ │ ├── 1.jpg │ └── ... └── others/ ├── 1.jpg └── ...
修改最后一层并微调：

import torch.optim as optim from torchvision import datasets, transforms # 修改模型最后一层（原1000类改为2类） model.fc = torch.nn.Linear(512, 2) # 数据加载 train_transforms = transforms.Compose([ transforms.RandomResizedCrop(224), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225]) ]) train_dataset = datasets.ImageFolder('data/', train_transforms) train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=4, shuffle=True) # 训练配置 criterion = torch.nn.CrossEntropyLoss() optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9) # 微调5个epoch for epoch in range(5): for inputs, labels in train_loader: inputs, labels = inputs.to(device), labels.to(device) optimizer.zero_grad() outputs = model(inputs) loss = criterion(outputs, labels) loss.backward() optimizer.step() print(f'Epoch {epoch+1}/5, Loss: {loss.item():.4f}') torch.save(model.state_dict(), 'custom_resnet18.pth')