训练PyTorch模型遇到显存不足的情况怎么办

在跑代码的过程中，遇到了这个问题，然后参考《南溪的目标检测学习笔记》——训练PyTorch模型遇到显存不足的情况怎么办(“OOM: CUDA out of memory“)_墨门-CSDN博客减小batch_size的数量最小的数量可以设置为2；本文目的：修改batch_size，在哪修改batch_size呢?在train.py文件下，参数设置：很奇怪？电脑的GPU是6G，为啥连4都跑不了？如何

DaYinYi

23027人浏览 · 2022-01-12 16:00:02

DaYinYi · 2022-01-12 16:00:02 发布

在跑代码的过程中，遇到了这个问题，当前需要分配的显存在600MiB以下

RuntimeError: CUDA out of memory. Tried to allocate 60.00 MiB (GPU 0; 10.76 GiB total capacity; 8.71 GiB already allocated; 59.00 MiB free; 8.81 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

然后参考《南溪的目标检测学习笔记》——训练PyTorch模型遇到显存不足的情况怎么办(“OOM: CUDA out of memory“)_墨门-CSDN博客

减小batch_size的数量

最小的数量可以设置为2；

本文目的：修改batch_size，在哪修改batch_size呢?

在train.py文件下，参数设置：

很奇怪？

电脑的GPU是6G，为啥连4都跑不了？

如何设置batchsize

batchsize过小：每次计算的梯度不稳定，引起训练的震荡比较大，很难收敛。

batchsize过大：

（1）提高了内存利用率，大矩阵乘法并行计算效率提高。

（2）计算的梯度方向比较准，引起的训练的震荡比较小。

（3）跑完一次epoch所需要的迭代次数变小，相同数据量的数据处理速度加快。

缺点：容易内容溢出，想要达到相同精度，epoch会越来越大，容易陷入局部最优，泛化性能差。

batchsize设置：通常10到100，一般设置为2的n次方。

原因：计算机的gpu和cpu的memory都是2进制方式存储的，设置2的n次方可以加快计算速度。

ZA技术社区

科技之力与好奇之心，共建有温度的智能世界

更多推荐

AI编程助手探索之旅：Amazon CodeWhisperer 提高编程效率的利器

ZA技术社区

C语言按行读取文本文件

C语言按行读取文本文件一般来说，计算机文件可以分为两类：文本文件和二进制文件。文本文件是一种由若干行字符构成的计算机文件。文本文件存在于计算机文件系统中。通常，通过在文本文件最后一行后放置文件结束标志来指明文件的结束。文本文件具有可读性，一般我们用的txt文件，log文件都是文本文件，其由字符构成，故我们就按字符处理，按行读取（linux下由’\n’字符换行，wondows下由’\r’’\n’组合