news 2026/4/18 10:08:39

AI模型训练:数据获取与增强

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI模型训练:数据获取与增强

数据是训练一切模型的基础,因此如何获取数据就成了一个先行条件。

1.常见的机器学习数据集

(1)MNIST

属于计算机视觉领域,手写数字灰度图,包含有六万的训练集以及一万的测试集。

(2)ImageNet

引领了深度学习的热点,它包含1400万+的标注图像,2万多的类别。

(3)AudioSet

基于 YouTube 上声音的切片,用于进行声音分类。

(4)KITTI

基于驾驶的信息用作无人驾驶训练。

(5)LibriSpeech

有声读物训练集,基于 LibriVox 项目的公共领域英语有声读物构建,用于自动语音识别。

(6)Object Detection Datasets

用于目标检测的数据集,包含车辆、人脸、火灾、危险行为等。https://public.roboflow.com/object-detection

2.生成数据集

(1)使用 GAN s

https://this-person-does-not-exist.com/en

(2)数据增强

通过对原始训练数据进行一系列随机但有意义的变换,生成新的、多样化的训练样本的技术。例如旋转、缩放、噪音、抖动等技术增加数据的多样性和数量,让模型看到更多可能的“变体”,从而提高模型的泛化能力鲁棒性

# 定义多种增强变换 def create_augmentation_transforms(): transforms_list = { # 基础几何变换 'Original': transforms.Compose([ transforms.Resize((256, 256)), ]), # 各种旋转 'Rotate 30°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(30), ]), 'Rotate 45°': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomRotation(45), ]), 'Rotate -15°': transforms.Compose([ transforms.Resize((256, 256)), lambda x: F.rotate(x, -15), # 固定角度旋转 ]), # 缩放和裁剪 'Random Resized Crop': transforms.Compose([ transforms.RandomResizedCrop( size=256, scale=(0.5, 1.0), # 随机缩放50%-100% ratio=(0.75, 1.33) # 宽高比范围 ), ]), # 翻转 'Horizontal Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomHorizontalFlip(p=1.0), # 强制翻转 ]), 'Vertical Flip': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomVerticalFlip(p=1.0), ]), # 颜色变换 'Color Jitter (Strong)': transforms.Compose([ transforms.Resize((256, 256)), transforms.ColorJitter( brightness=0.5, contrast=0.5, saturation=0.5, hue=0.3 ), ]), 'Grayscale': transforms.Compose([ transforms.Resize((256, 256)), transforms.Grayscale(num_output_channels=3), # 保持3通道 ]), # 噪声 'Gaussian Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='gaussian', intensity=0.2), ]), 'Salt & Pepper Noise': transforms.Compose([ transforms.Resize((256, 256)), AddNoise(noise_type='salt_pepper', intensity=0.05), ]), # 模糊效果 'Gaussian Blur': transforms.Compose([ transforms.Resize((256, 256)), transforms.GaussianBlur(kernel_size=5, sigma=(0.1, 2.0)), ]), # 透视变换 'Perspective Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomPerspective( distortion_scale=0.5, p=1.0 ), ]), # 仿射变换 'Affine Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAffine( degrees=0, translate=(0.2, 0.2), # 平移20% scale=(0.8, 1.2), # 缩放80%-120% shear=20 # 错切20度 ), ]), # 弹性变换 'Elastic Transform': transforms.Compose([ transforms.Resize((256, 256)), transforms.ElasticTransform(alpha=50.0, sigma=5.0), ]), # 组合增强(随机顺序) 'Random Combination': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomApply([ transforms.RandomRotation(20), transforms.ColorJitter(0.3, 0.3, 0.3, 0.1), ], p=0.8), transforms.RandomHorizontalFlip(p=0.5), transforms.RandomGrayscale(p=0.2), ]), # 边缘增强 'Sharpness Adjust': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAdjustSharpness(sharpness_factor=2, p=1.0), ]), # 自动对比度 'Auto Contrast': transforms.Compose([ transforms.Resize((256, 256)), transforms.RandomAutocontrast(p=1.0), ]), }

文本增强:将一段话翻译为另一种中间语言,然后又翻译回该语言以此实现语义相同但是语法结构不同的效果。此外还有多种方式,比如词汇级增强(同义词替换、随机插入)字符级增强(随机字符替换、随机字符交换等)句子级增强(语法树变换等)。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:30:49

Windows下快速安装Python GDAL指南

在Windows系统下安装GDAL包(适用于Python 3.7版本)的完整指南: 步骤1:确认环境信息 打开命令提示符(cmd)执行: python -c "import platform; print(platform.architecture()[0], platfo…

作者头像 李华
网站建设 2026/4/18 8:44:43

YOLO26涨点改进 | 首发全网创新、主干改进篇 | AAAI 2026 | PartialNet 主干让 YOLO26 更加强大!引入部分通道机制 和 部分注意力卷积,全方面提升了模型的性能

一、本文介绍 ⭐本文介绍将 PartialNet 改进 YOLO26 的主干网络,通过引入 部分通道机制(PCM) 和 部分注意力卷积(PATConv),显著提升了计算效率和推理速度,同时保持了较高的检测精度。PartialNet 通过拆分特征图通道并对不同部分应用不同的操作,减少了计算量和内存占用…

作者头像 李华
网站建设 2026/4/18 8:45:53

YOLO26涨点改进 | 全网独家创新/Conv篇 | AAAI 2025 | PConv新型风车形卷积和SPConv二次创新改进(移动风车卷积,使它充分活跃起来),增强特征提取,扩大感受野

一、本文介绍 本文给大家介绍一种PConv新型风车形卷积优化YOLO26模型!含二次创新SPConv移动风车卷积。针对红外小目标检测中标准卷积忽略像素高斯分布的问题,本文提出了一种新型风车形卷积(PConv),它通过不对称填充和组卷积有效地扩展了感受野并增强了底层特征提取能力。…

作者头像 李华
网站建设 2026/4/17 13:53:27

告别 `print` 调试:构建生产级 Python 应用的日志系统

目录告别 print 调试:构建生产级 Python 应用的日志系统1. 为什么 print 在生产环境中是“原罪”?1.1 print 的三大致命缺陷1.2 什么是“生产级”日志?2. 深入 Python logging 模块的核心架构2.1 Logger:日志的入口2.2 Handler&am…

作者头像 李华
网站建设 2026/4/18 8:52:40

社会网络仿真软件:NetLogo_(12).NetLogo模型调试与测试

NetLogo模型调试与测试 在社会网络仿真软件NetLogo中,模型的调试与测试是确保模型正确性和可靠性的关键步骤。本节将详细介绍如何在NetLogo中进行模型调试和测试,包括常见的调试技巧、测试方法以及如何使用NetLogo内置的工具来帮助我们定位和解决模型中的…

作者头像 李华