您的位置：首页 >邮票收藏 > 邮票资讯 >

用上PytorchLightning这六招，深度学习pipeline可提速10倍

2022-02-13 04:47:15 来源：

　　面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验？

　　这样的问题，或许在做机器学习研究的你，也会经常遇到。

　　而就在最近，一个国外小哥就提出了一种建议：

　　在 Pytorch lightning 基础上，让深度学习 pipeline 速度提升 10 倍！

　　用他自己的话来说就是 &mdash；&mdash；爬楼时像给了你一个电梯。

　　这般酸爽，到底是如何做到的呢？

　　优化机器学习 pipeline，很重要

　　无论你是身处学术界还是工业界，时间和资源等各种因素，往往会成为你在搞实验的枷锁。

　　尤其是随着数据集规模和机器学习模型，变得越发庞大和复杂，让实验变得既费时又耗力。

　　提速这件事，就变得至关重要。

　　例如在 2012 年的时候，训练一个 AlexNet，要花上 5 到 6 天的时间。

　　而现如今，只需要短短几分钟就可以在更大的数据集上训练更大的图像模型。

　　这位小哥认为，从某种角度上来说，这是得益于各种各样的利器的出现。

　　例如 Pytorch Lingtning，就是其中一种。

　　于是，他便死磕pipeline，总结了六种闪电加速实验周期的方法。

　　并行数据加载

　　数据加载和增强(augmentation)往往被认为是训练 pipeline 时的瓶颈之一。

　　一个典型的数据 pipeline 包含以下步骤：

　　从磁盘加载数据

　　在运行过程中创建随机增强

　　将每个样本分批整理

　　在这个过程中，倒是可以用多个 CPU 进程并行加载数据来优化。

　　但与此同时，还可以通过下面的操作来加速这一过程：

　　1、将 DataLoader 中的 num_workers 参数设置为 CPU 的数量。

　　2、当与 GPU 一起工作时，将 DataLoader 中的 pin_memory 参数设置为 True。这可以将数据分配到页锁定的内存中，从而加快数据传输到 GPU 的速度。

　　使用分布式数据并行的多 GPU 训练

　　与 CPU 相比，GPU 已经大大加速了训练和推理时间。

　　但有没有比一个 GPU 更好的方法？或许答案就是：

　　多个 GPU！

　　在 PyTorch 中，有几种范式可以用多个 GPU 训练你的模型。

　　两个比较常见的范式是DataParallel和DistributedDataParallel。

　　而小哥采用的方法是后者，因为他认为这是一种更可扩展的方法。

　　但在 PyTorch(以及其他平台)中修改训练 pipeline 并非易事。

　　必须考虑以分布式方式加载数据以及权重、梯度和指标的同步等问题。

　　不过，有了 PyTorch Lightning，就可以非常容易地在多个 GPU 上训练 PyTorch 模型，还是几乎不需要修改代码的那种！

　　混合精度

　　在默认情况下，输入张量以及模型权重是以单精度(float32)定义的。

　　然而，某些数学运算可以用半精度(float16)进行。

　　这样一来，就可以显著提升速度，并降低了模型的内存带宽，还不会牺牲模型的性能。

　　通过在 PyTorch Lightning 中设置混合精度标志(flag)，它会在可能的情况下自动使用半精度，而在其他地方保留单精度。

　　通过最小的代码修改，模型训练的速度可以提升 1。5 至 2 倍。

　　早停法

　　当我们训练深度学习神经网络的时候，通常希望能获得最好的泛化性能。

　　但是所有的标准深度学习神经网络结构，比如全连接多层感知机都很容易过拟合。

　　当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。

　　因此，早停法 (Early Stopping)便在训练过程中加入了进来。

　　具体来说，就是当验证损失在预设的评估次数(在小哥的例子中是 10 次评估)后停止训练。

　　这样一来，不仅防止了过拟合的现象，而且还可以在几十个 epoch 内找到最佳模型。

　　Sharded Training

　　Sharded Training 是基于微软的 ZeRO 研究和 DeepSpeed 库。

　　它显著的效果，就是让训练大模型变得可扩展和容易。

　　否则，这些模型就不适合在单个 GPU 上使用了。

　　而在 Pytorch Lightning 的 1。2 版本中，便加入了对 Shared Training 的支持。

　　虽然在小哥的实验过程中，并没有看到训练时间或内存占用方面有任何改善。

　　但他认为，这种方法在其它实验中可能会提供帮助，尤其是在不使用单一 GPU 的大模型方面。

　　模型评估和推理中的优化

　　在模型评估和推理期间，梯度不需要用于模型的前向传递。

　　因此，可以将评估代码包裹在一个 torch。no_grad 上下文管理器中。

　　这可以防止在前向传递过程中的存储梯度，从而减少内存占用。

　　如此一来，就可以将更大的 batch 送入模型，让评估和推理变得更快。

　　效果如何？

　　介绍了这么多，你肯定想知道上述这些方法，具体起到了怎样的作用。

　　小哥为此做了一张表格，详解了方法的加速效果。

　　那么这些方法，是否对在做机器学习实验的你有所帮助呢？

　　快去试试吧~

　　参考链接：

　　

相关阅读

热门新闻


用上PytorchLightning这六招，深度学习pipeline可提速10倍 面对数以亿计的图片数据，到底该用什么样的方法才能快速搞实验？　　这样的问题，或许在做机器学习研究的你，也会经常遇到。　　而就在 2022-02-13 04:47


闪瞎眼让你意想不到的几个邮票 近两年，有些邮票走出了不一样的行情。开始时候没人搭理打折都没人要，后面却一飞冲天翻了好多倍，没有抓住机会的朋友，肯定拍断了腿， 2022-02-13 03:59


石墨文档2.0：新版本让团队协作更加井然有序 对于很多人来说，传统的文档编辑有诸多弊端：好不容易写好的文档电脑死机后要重写；文档的修改过程琐碎且低效；团队一起进行文档编辑， 2022-02-13 03:22


胜利落地东北辽宁京东专卖店招商大会再传捷报！ 导读： 8月9日，京东专卖店招商大会在辽宁沈阳浑南万达文化酒店隆重举行，京东商城线下零售拓展部总经理谢易、线下零售拓展部京东专卖店 2022-02-13 01:29


薪人薪事亮相铅笔道真相大会，获评“逆生长”独角兽企业 1月15日，由铅笔道主办的真相大会在北京如期举行，本次活动汇集众多国内一线投资大佬、创业公司代表，共同探讨了资本寒冬下投融资趋势 2022-02-13 00:44


海尔厨电逆势上扬与行业形成“剪刀差” 2019年初始，各行业及企业陆续发布2018年总结，以期为新年发展策略规划提供参考。其中，从厨电行业总结最近几年增长趋势中发现，海尔厨电 2022-02-12 22:28

推荐图文

玉器珠宝