滚动新闻 | RSS订阅 | 网站地图 |
你好,游客 登录 注册 搜索

英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍

发布时间:2020-02-05 11:04:32  来源:机器之心 企鹅号   采编:郭椿砾  背景:

  你的数据处理影响整个训练速度,如果加上英伟达 DALI 库,处理速度比原生 PyTorch 也能快上四倍。

  深度学习的加速上,除了对训练和推理过程的加速之外,还有对数据加载和预处理阶段的加速。这一阶段也尤为关键,因为数据处理 pipeline 的处理速度也影响着整体的流程效率。

  近日,有开发者介绍了如何使用 NVIDIA Data Loading Library(DALI),以及使用这个库进行数据预处理加速的方法。DALI 和 TensorFlow 自带的 DataLoader 类似,是一个专门用于加速数据预处理过程的库。

  在一篇博客中,开发者表示,该库不仅可以进行 GPU 加速,也可以在 CPU 上构建一个完整的数据预处理流程。如果在 Tesla V100 上做测试,PyTorch+DALI 的处理速度能达到 4000 images/s,比原版 PyTorch 要快近 4 倍。

  支持多个框架,针对预处理

  英伟达数据加载库 DALI 是一个便捷式开源库,用于图像或视频的解码及增强,从而加速深度学习应用。通过并行训练和预处理过程,减少了延迟及训练时间,并为当下流行的深度学习框架中的内置数据加载器及数据迭代器提供了一个嵌入式替代器,便于集成或重定向至不同框架。

  开发人员可以在 GPU 上运行他们的数据处理通道,从而减少训练神经网络的时间。而 DALI 实现了数据处理 pipeline 可移植,因为可以轻松地重定向至 TensorFlow,PyTorch 和 MXNet。

  DALI 设计之初就是用来帮助用户突破数据预处理的瓶颈,使得模型的训练和推理能够达到最高的效率。其主要设计是用于在 GPU 上的预处理,但大多数操作也可在 CPU 上实现。

  主要特征

  易于使用的 Python API

  在多个 GPU 之间显式地缩放

  加快图像分类(ResNet-50)和目标检测分类(SSD)工作流

  灵活的计算图使得开发人员可创建自定义的数据处理 pipeline

  支持多种格式 - LMDB、RecordIO、TFRecord、COCO、JPEG、H.264 以及 HEVC

  开发人员可添加自定义的图像或视频处理 operator

  DALI 在 MXNet 上训练 ResNet50 的性能表现。

  使用 DALI 重构数据预处理 pipeline

  内存占用大是 DALI 在加速数据预处理中面对的一个重要问题。随着批大小的上升,DALI 的内存占用会变得更大。这一问题现在还没有得到修复。

  DALI 的内存占用问题。

  而和其他的数据预处理工具相比,DALI 能够最大处理的批大小相比 TorchVision 少了一半。

  因此,使用 DALI 加速数据预处理需要重新构建整个 pipeline。在教程中,作者分别介绍了构建 CPU pipeline 和 GPU pipeline 的方法。

  构建 CPU pipepline

  使用 CPU 进行数据预处理的时候,常用的做法是让 CPU 处理解码和 resize 的工作,而 CropMirrorNormalize 这样的工作放到 GPU 上。由于使用 DALI 将输出传入 GPU 中就会占用很大的内存,因此作者构建了一个完全基于 CPU 的 pipeline。

  首先,重新加载并导入 DALI。

  然后构建基于 CPU 的 pipeline。

  在这里设置一下哪些操作应当由 CPU 运行。

  然后开始相应的操作。如解码:

  以及 resize:

  CropMirrorNormalize 的操作由 GPU 进行。

  当然,还需要从 CPU 到 GPU 的转移过程,这一过程使用 PyTorch 进行,作者在教程中也给出了相应的代码。

  构建基于 GPU 的 pipeline

  当模型较大(如使用 ResNet50)的时候,基于 CPU 的 pipepline 效果较好,而在类似于 AlexNet 或 ResNet18 这样的小模型上,CPU 的处理还是跟不上 GPU 的数据处理速度。其主要原因在于,GPU pipeline 会降低近一半的批大小。

  为了解决这个问题,作者建议将验证 pipepline 从 GPU 中关掉,直到每个 epoch 的最后需要的时候再开启。

  效果评价

  以下是作者在 ResNet18 中使用的最大批量大小:

  因此通过合理应用这一系列修改,DALI 可以使得最大批量大小在 CPU 或 GPU 模式下提升 50%

  而在 Shufflenet V2 0.5 上,如果批大小为 512,则 DALI GPU 和 CPU 能够处理的批大小如下:

  可以看到,即使是 CPU,其处理速度也达到了每秒 1800 张图像,速度超过了 TorchVision。

  所有的测试都在 Google Cloud V100 实例下运行:包含 12 个 vCPU(6 个物理内核),78GB 内存,以及使用 ApexFP16 进行训练。

  因此,通过 DALI,一个 Tesla V100 GPU 就可以达到将近每秒 4000 张图像。接近英伟达有 8 个 V100 GPU 的 DGX-1 的性能,尽管使用的是小模型。

  参考链接:

  https://towardsdatascience.com/nvidia-dali-speeding-up-pytorch-876c80182440


本文来源:机器之心 企鹅号

本文评论
人在家中坐,“货”从天上来!酝酿多年的无人配送服务迎来大机会?
全国抗击新型冠状病毒肺炎的战斗还在继续。这场突如其来的疫情给全国各城市的餐饮休闲、商超便利、文化娱乐、旅游出行等行业带来了巨大严峻挑战。而在全...
日期:02-05
英伟达DALI加速技巧:让数据预处理速度比原生PyTorch快4倍
你的数据处理影响整个训练速度,如果加上英伟达 DALI 库,处理速度比原生 PyTorch 也能快上四倍。
日期:02-05
让谷歌折戟的AI流行病预测,在今天如何被创业公司攻占?
预测未知,一直是人类十分向往的能力。远不说国人熟悉的周易八卦、唐代道士编写的《推背图》,还有西方人熟知的占星术、中世纪流行起来的塔罗牌,近的比...
日期:02-05
2035年整个世界都将通过区块链技术实现协同工作
6年前,一帮声名狼藉之徒想利用现金的匿名性在网上贩卖毒品,于是便想找到一种没有政府插手的货币。而一些拥护人权的可敬人士也在苦苦寻找一种货币系统,...
日期:02-05
“消毒机器人”在德阳定点医院隔离病区上岗
2月2日下午,四川德阳地区第一台消毒机器人在定点医院隔离病区上岗。这是一个不需要戴口罩、不会被病毒感染的智能机器人。
日期:02-04
Miso Robotics 为快餐店打造了下一代机器人厨房助手
根据麦肯锡公司(McKinsey&Company)的分析,食品服务人员从事的活动 73% 具有自动化的潜力。
日期:02-04
共抗疫情,小i机器人向公众无偿推出“防疫外呼”“疫情防控问答”服务
当前新型冠状病毒肺炎正在全国蔓延,疫情防护工作形式严峻。各级政府、企事业单位、社区、相关机构每天都需进行大量的调查访问,极大的消耗人力且很难有...
日期:02-04
在为配钥匙发愁吗?无人AI钥匙机帮你配Hello Kitty定制钥匙
图片来源@全景视觉
  钛媒体注:本文来自于微信公众号硅谷洞察(ID:guigudiyixian),作者为Shumin,钛媒体经授权发布。
  从小到大,不少...
日期:02-04
抗击冠状病毒疫情 AI能否有所作为
新型冠状病毒肺炎疫情还在持续,世界卫生组织(WHO)紧急委员会日内瓦时间1月30日召开会议,宣布中国新型冠状病毒疫情构成国际关注的突发公共卫生事件(PHEI...
日期:02-04
AI每日精选:思必驰疫情防控机器人免费服务;科大讯飞营收破100亿
以下新闻选自人工智能信息平台“机器之心Pro”:花最少的时间,看最重要的新闻。
日期:02-04
JS环球生活今年将在国内推出Shark高端厨电及扫地机器人
“Shark ninja与九阳产业协同提升。”
日期:01-20
国际权威分析机构沙利文发布AI白皮书 百度AI实力全球第四中国第一
中新网1月17日电 人工智能发展60余年,全球格局日渐清晰,在各国政策的支持引导和大型AI厂商的主导下,人工智能正在进一步释放能量。近日,全球最大的企...
日期:01-19
沙利文AI白皮书示:百度AI实力全球第四中国第一
美股研究社1月17日消息,据中新网报道,近日,全球最大企业增长咨询公司Frost & Sullivan弗若斯特沙利文发布了《2019年中美人工智能产业及厂商对比白...
日期:01-19
人类没失业、搞AI的先失业了,怎么办?
燃财经(ID:rancaijing)原创
  作者 | 苏琦
  编辑 | 魏佳
  “人工智能没能让人类失业,搞人工智能的人先失业了。”这本...
日期:01-19
亚马逊员工监听丑闻曝光后 欧盟监管机构准备监管Alexa等语音助手
腾讯科技讯 据外媒报道,在亚马逊员工通过Alexa语音助手监听用户对话的丑闻被曝光后,欧盟隐私监管机构正准备对Alexa等语音助手进行监管。
日期:01-19
谷歌AI技术再升级:可以即时预测天气预报
天气预报的精准性越来越高,速度也越来越快,而近日谷歌的一项AI研究表明,通过AI算法的计算谷歌可以实现“近乎即时”地预报天气。
日期:01-18
制造业是人工智能应用蓝海,德勤预计中国市场规模年增长超40%
最新发布的《2020德勤人工智能制造业应用调查》报告指出,人工智能的应用正从消费智能扩大到企业智能。93%的受访企业认同其为全球制造业增长和创新的关键...
日期:01-17
AI能取代配音员吗?效果能赶上赵忠祥老师吗?
1月16日,著名主持人赵忠祥因病在京去世,享年78岁。赵忠祥老师曾主持、参与过多档知名节目录制,尤其是在科普节目《动物世界》中的配音,成为了很多人共...
日期:01-17
韩国科技部:未来10年为AI半导体技术研发投资1万亿韩元
1月16日消息,据国外媒体报道,韩国科技部今日公布了2020年度工作计划。根据计划,韩国科技部今年正式启动《人工智能国家战略》,将在未来10年内为人工智...
日期:01-17
华为台式机真机来了,微软和英特尔危险了:AI性能全球第一
在刚刚结束的2019年中,华为大动作不断,鸿蒙OS、麒麟990 5G等产品一个接一个问世,值得关注的是,去年9月19日,华为全联接大会上。
日期:01-16