DeepRack深度学习一体机要逆天了?
中誉瑞禾
2017-12-26
提要:深度学习已经成为人工智能时代的入口,国内外行业巨头纷纷在语音识别、图像识别、自然语言处理等领域拓展深度学习版图,代表性的有谷歌的深度学习框架
TensorFlow,Facebook的人工智能计算服务器Big Sur,越来越“机智”的IBM人工智能Watson,微软的“深度残差学习”,科大讯飞的语音识别云等。
深度学习(Deep Learning)在这两年风靡全球,大数据和高性能计算平台的推动作用功不可没,绝对算得上是深度学习的“燃料”和“引擎”,而GPU(图形处理器)则是引擎中的引擎,基本所有的深度学习计算平台都采用GPU加速,其出色的浮点计算性能特别提高了深度学习两大关键活动:分类和卷积的性能,同时又达到了所需的精准度。
采用GPU加速与只采用CPU训练CNN(卷积神经网络)的性能比较
以ImageNet竞赛为例,基于GPU加速的深度学习算法,百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98%(2015年1月数据)、4.94%(2015年2月数据)、4.8%(2015年2月数据)的错误率,接近或超过了人类识别水平。
深度学习为什么会选中GPU呢?与CPU擅长逻辑控制和通用类型数据运算不同,GPU采用了数量众多的计算单元和超长的流水线,但只有非常简单的控制逻辑并省去了Cache,面对的是类型高度统一、相互无依赖的大规模数据和不需要被打断的纯净的计算环境,擅长大规模并发计算。相比之下,CPU的计算能力只是GPU很小的一部分。
CPU与GPU的结构对比图
因此,与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,在同样的深度学习程序中,应用单个GPU的执行速度比单纯使用 CPU快上10倍。按照这样的比率,云创大数据刚发布的DeepRack深度学习一体机,在4个节点满配时,相当于160台选用英特尔E5-2600系列至强处理器的服务器,可提供最大每秒128万亿次的单精度计算能力,计算性能完全逆天。