day39图像数据与显存-程序员充电站

一、图像数据的介绍

1.1 灰度图像

从这里开始我们进入到了图像数据相关的部分，也是默认你有之前复试班计算机视觉相关的知识，但是一些基础的概念我仍然会提。

昨天我们介绍了minist这个经典的手写数据集，作为图像数据，相较于结构化数据（表格数据）他的特点在于他每个样本的的形状并不是(特征数，)，而是(宽，高，通道数)

上述是昨天的代码，我们介绍了图像数据的预处理，这是我们首次接触图像数据，他和之前的结构化数据有什么差异点呢？

结构化数据（如表格）的形状通常是 (样本数, 特征数)，例如 (1000, 5) 表示 1000 个样本，每个样本有 5 个特征。图像数据的形状更复杂，需要保留空间信息（高度、宽度、通道），因此不能直接用一维向量表示。其中颜色信息往往是最开始输入数据的通道的含义，因为每个颜色可以用红绿蓝三原色表示，因此一般输入数据的通道数是 3。

1.2 彩色图像

在 PyTorch 中，图像数据的形状通常遵循 (通道数, 高度, 宽度) 的格式（即 Channel First 格式），这与常见的 (高度, 宽度, 通道数)（Channel Last，如 NumPy 数组）不同。---注意顺序关系，

注意点：

如果用matplotlib库来画图，需要转换下顺序，我们后续介绍
模型输入通常需要批次维度（Batch Size），形状变为 (批次大小, 通道数, 高度, 宽度)。例如，批量输入 10 张 MNIST 图像时，形状为 (10, 1, 28, 28)。
二、图像相关的神经网络的定义
考虑课程内容的推进，今日的内容只提定义，不涉及训练和测试过程
2.1 黑白图像模型的定义
实际定义中，输入图像还存在batchsize这一维度
在 PyTorch 中，模型定义和输入尺寸的指定不依赖于 batch_size，无论设置多大的 batch_size，模型结构和输入尺寸的写法都是不变的。
三、显存占用的主要组成部分
昨天说到了在面对数据集过大的情况下，由于无法一次性将数据全部加入到显存中，所以采取了分批次加载这种方式。即一次只加载一部分数据，保证在显存的范围内。
那么显存设置多少合适呢？如果设置的太小，那么每个batchsize的训练不足以发挥显卡的能力，浪费计算资源；如果设置的太大，会出现OOT（out of memory）
显存一般被以下内容占用：
模型参数与梯度：模型的权重（Parameters）和对应的梯度（Gradients）会占用显存，尤其是深度神经网络（如 Transformer、ResNet 等），一个 1 亿参数的模型（如 BERT-base），单精度（float32）参数占用约 400MB（1e8×4Byte），加上梯度则翻倍至 800MB（每个权重参数都有其对应的梯度）。
部分优化器（如 Adam）会为每个参数存储动量（Momentum）和平方梯度（Square Gradient），进一步增加显存占用（通常为参数大小的 2-3 倍）
其他开销。@浙大疏锦行

快速理解Multisim主数据库初始化失败应对策略

当Multisim打不开？一文搞懂“主数据库初始化失败”的底层逻辑与实战修复你有没有遇到过这样的场景：刚打开电脑准备画个电路仿真，结果双击启动 Multisim，弹出一个红色警告框——“主数据库初始化失败”或者“找不到主数据库”&…

李华

音乐厅混响调试：基于ASR评估实际听感质量

音乐厅混响调试：基于ASR评估实际听感质量在音乐厅或演出空间的设计与调优过程中，如何让观众“听得清楚”始终是一个核心挑战。传统的声学调试依赖昂贵的测量设备和专家主观判断，不仅成本高、周期长，更难以量化“听起来清不清楚”…

李华

神经辐射场结合：语音描述生成3D场景的新范式

神经辐射场结合：语音描述生成3D场景的新范式在数字内容创作的前沿，一个曾经只存在于科幻电影中的设想正悄然变为现实——用户只需说出一句“我想建一个阳光洒满木地板的咖啡馆”，系统便能自动生成逼真的三维空间，并支持从任意角度…

李华

基于Xilinx Artix-7的Vivado注册2035问题系统学习

深入理解Vivado注册2035问题：为你的Artix-7项目提前规避“数字断电”风险你有没有想过，一个今天能正常编译的FPGA工程，在十年后可能因为“时间到了”而彻底打不开？这不是科幻。对于使用Xilinx Vivado进行开发的工程师和科研人员来…

李华

商业授权模式：企业使用需额外购买生产环境许可

Fun-ASR 商业授权模式与企业级语音识别实践在智能办公、远程协作和客户服务日益依赖语音交互的今天，企业对高精度、低延迟、强隐私保护的语音识别系统需求急剧上升。许多团队开始尝试部署本地化 ASR（自动语音识别）方案，以摆脱公有…

李华

动态漫画配音神器：IndexTTS 2.0精准对齐画面节奏

动态漫画配音的破局者：IndexTTS 2.0 如何实现音画精准同步与情感自由表达在B站上，一段“AI配音手绘动画”的短片悄然走红——主角情绪从平静到愤怒层层递进，每一句台词都严丝合缝地卡在画面转场的瞬间，语气起伏自然得仿佛真人演绎…

李华

一、 图像数据的介绍

1.1 灰度图像

1.2 彩色图像

二、 图像相关的神经网络的定义

2.1 黑白图像模型的定义

三、显存占用的主要组成部分