news 2026/6/10 14:51:21

如何写一个可以识别图像数字的基于VIT大模型的简单代码?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
如何写一个可以识别图像数字的基于VIT大模型的简单代码?

直接上代码,源代码来自于kaggle上的大神,经过简单修改得到

# 模型# 数据# 训练fromtorch.utils.dataimportDataset,DataLoaderimportnumpyfromPILimportImageclassconvertDataset(Dataset):def__init__(self,data,transform)->None:super().__init__()self.data=data self.transform=transform self.labels=self.data.iloc[:,0].values self.images=self.data.iloc[:,1:].values.astype(numpy.uint8)def__len__(self):returnlen(self.data)def__getitem__(self,index):label=self.labels[index]image=self.images[index].reshape(28,28)image=Image.fromarray(image,"L")image=self.transform(image)returnimage,labeldefmain():# 模型importtorch.nnasnnimporttimm dict_path="D:\\kaggle\\digit-recognizer\\dict.pth"importosclassVIT(nn.Module):def__init__(self,*args,**kwargs)->None:super().__init__(*args,**kwargs)self.model=timm.create_model("vit_base_patch16_224",pretrained=True)self.model.head=nn.Linear(self.model.head.in_features,10)# type:ignoreifos.path.exists(dict_path):print("load dict")self.model.load_state_dict(torch.load(dict_path))defforward(self,x):returnself.model(x)importtorch device=torch.device("cuda"iftorch.cuda.is_availableelse"cpu")model=VIT().to(device)# 数据importpandas train_data=pandas.read_csv("input/train.csv")fromtorchvisionimporttransforms transform=transforms.Compose([transforms.Resize((224,224)),transforms.Grayscale(num_output_channels=3),transforms.ToTensor(),transforms.Normalize((0.5,),(0.5,))])train_dataset=convertDataset(train_data,transform)train_dataloader=DataLoader(train_dataset,batch_size=20,shuffle=True,num_workers=1,pin_memory=True)# 训练epoches=5optimizer=torch.optim.Adam(model.parameters(),lr=1e-4)criterion=nn.CrossEntropyLoss()importtimeimporttorch.autograd.profilerasprofilerforepochinrange(epoches):model.train()batch=0forimages,labelsintrain_dataloader:start_time=time.time()images,labels=images.to(device),labels.to(device)optimizer.zero_grad()output=model(images)loss=criterion(output,labels)loss.backward()optimizer.step()batch+=1total=len(labels)start_time1=time.time()_,predicted=output.max(1)correct=(predicted==labels).sum().item()print(f"batch:{batch}/{len(train_dataloader)}",f"epoch:{epoch}/{epoches}",f"loss:{loss.item():.4f}",f"accuracy:{correct/total:.4f}",f"spend:{time.time()-start_time:.2f}")ifbatch%1000==0:torch.save(model.model.state_dict(),dict_path)if__name__=="__main__":main()
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:50:24

从“搅局”到“重构”:开源AI智能名片多商户商城小程序对电商生态的范式转型研究

摘要:在“互联网”浪潮中,传统电商通过价格战、资本驱动、轻资产模式和舆论炒作快速扩张,但抗风险能力弱、烧钱严重、客流不稳定等问题导致大量企业衰败。本文以开源AI智能名片多商户商城小程序为研究对象,分析其通过技术赋能、供…

作者头像 李华
网站建设 2026/6/10 11:50:29

39、编程与开发相关知识及环境搭建与许可协议解读

编程与开发相关知识及环境搭建与许可协议解读 编程术语解释 在编程领域,有许多重要的术语和概念,下面为大家详细介绍一些常见的术语。 - SVG :一种基于 XML 文档类型的开放标准矢量图形格式,常用于创建可缩放的图形。 - 同步(synchronous) :使用同步 I/O 操作的程…

作者头像 李华
网站建设 2026/6/10 11:50:23

23、Ubuntu相关工具与社区介绍

Ubuntu相关工具与社区介绍 在Ubuntu的生态系统中,有众多实用的工具和活跃的社区。下面为你详细介绍这些内容。 一、Launchpad相关工具 Launchpad Blueprint Tracker(蓝图跟踪器) - 功能概述 :这是Ubuntu自定义的规范和特性跟踪系统。用户能创建规范页面,并链接到现…

作者头像 李华
网站建设 2026/6/10 11:56:36

MySQL内置函数

1. 日期函数函数名称描述current_date()当前日期current_time()当前时间current_timestamp()当前时间戳date(datetime)返回 datetime 参数的日期部分date_add(date, interval d_value_type)在 date 中添加日期或时间interval 后的数值单位可以是:year minute second…

作者头像 李华
网站建设 2026/6/10 11:52:20

11fps实时视频生成革命:Krea Realtime 14B如何重塑内容创作范式

11fps实时视频生成革命:Krea Realtime 14B如何重塑内容创作范式 【免费下载链接】krea-realtime-video 项目地址: https://ai.gitcode.com/hf_mirrors/krea/krea-realtime-video 导语 2025年10月,Krea AI发布的Realtime 14B模型标志着实时视频生…

作者头像 李华
网站建设 2026/6/9 23:11:10

NocoDB数据导出实战指南:5分钟掌握CSV/JSON双格式导出技巧

NocoDB数据导出实战指南:5分钟掌握CSV/JSON双格式导出技巧 【免费下载链接】nocodb nocodb/nocodb: 是一个基于 node.js 和 SQLite 数据库的开源 NoSQL 数据库,它提供了可视化的 Web 界面用于管理和操作数据库。适合用于构建简单的 NoSQL 数据库&#xf…

作者头像 李华