您的位置:网站首页 > 汽车新闻 > 产业评论 > 正文

自动驾驶平台之争 NVIDIA为何能先赢一局?

  在今年4月初开幕的图形处理器技术大会(TheNvidiaGPUtechnologyConference,简称GTC)上,NVIDIA展示了针对VR虚拟现实和深度学习应用的最新技术和产品。
 
 
  在开场的主题演讲中,NVIDIA联合创始人兼CEO黄仁勋在反复重申“一个全新的计算模型”这样的字眼。他指出,“消费市场需要的计算机可再也不是那种马马虎虎就能打发的一般产品。大家都愿意享受超级计算速率带来的快感,特别是基于GPU加速带来的计算体验”。
 
  当然,超级计算时代的到来并非只是想想就能实现的,基于这样的目标,NVIDIA在今年的GTC大会上推出了包括GPU芯片TeslaP100(基于全新Pascal平台架构上打造)、DRIVEPX2(用于自动驾驶汽车的开发平台)和用于深度学习研究的超级计算机DGX-1(使用TeslaP100芯片建造,运算速度可达170万亿次)在内的一系列新技术和新产品。
 
 
  NVIDIATeslaP100图形处理器芯片
 
  为深度学习应用搭建的全新解决方案
 
  基于NVIDIA全新计算平台Pascal打造的TeslaP100GPU芯片集成了NVLink总线,16GBHBM2显存,内建3584个CUDA,224个纹理单元,16GBHBM2显存,带宽可达到720GB/s,拥有基于16nmFinFET工艺打造的最大GPU核心。
 
 
  NVIDIATeslaP100图形处理器芯片
 
  此外,TeslaP100芯片也是继2014年发布,基于Kepler架构平台打造的TeslaK80之后,Tesla系列GPU产品的首次重大升级。
 
  不过既然这是一款针对深度学习打造的GPU芯片,那么这里还必须要提一下TeslaP100芯片使用的NVIDIA旗舰GP100核心。GP100的性能一公布,给车云菌的感觉就是NVIDIA这次回归了GK110大核心时代注重双精度运算的设计,而且比之前更加变态。它每组SM单元中有64个FP32单元,但有32个FP64单元,FP64与FP32比例是1:2。这样的设计意味着GP100的FP32CUDA核心可以同时执行2个FP16半精度运算,因此FP16浮点性能高达21.6TFLOPS。
 
 
  NVIDIAGP100核心架构示意图
 
  由于深度学习这样的计算并不需要高精度运算,因为它天生自带纠错能力,因此我们不难发现,GP100的设计完全是为深度学习而生的。不过据车云菌了解,NVIDIA在TeslaP100之外还推出了基于GP100核心的DGX-1深度学习超级计算机,由8颗GP100核心及2颗16核XeonE5处理器组成,深度计算性能达到了170TFLOPS,号称比250台X86服务器还要强大。
 
 
  NVIDIA超级计算机DGX-1售价高达$129000,真心不便宜
 
  在过去的两年里,每次GTC大会的主题演讲环节,黄仁勋都会将话题的重点放在深度学习和神经网络研究上,并适时推出相关的新技术和新产品,而这些为NVIDIA之后进行人工智能的研究奠定了基础。今年也不例外。除了基于Pascal全新架构平台打造的TeslaP100芯片外,NVIDIA还发布了两款Maxwell计算平台下的全新GPU芯片—TeslaM40/M4,而这两款图形处理器正是为深度学习应用而特别打造的。
 
  显而易见的是,使用通用的架构平台,相同的算法,这样便于进行高效的深度学习研究。而如果按照传统的解决办法,程序是不同的专家写的,不同的算法导致的实验结果可能也会千差万别。因此,要长期进行深度学习研究,NVIDIA的这两款芯片封装了固定的算法,并且提供了海量数据和强大的计算能力供你使用。
 
 
 
  NVIDIA的TeslaM40芯片拥有8倍更快的caffe性能
 
  因此,车云菌认为如果只有深度学习的训练,NVIDIA的TeslaM40/M4虽然不便宜,但企业或者机构购买还是比较合适的(百度的深度学习研究院就用的这一款),相对于K40单精度浮点运算性能是4.29Tflops,M40可以达到7Tflops。
 
  驱动自动驾驶汽车发展的深度学习
 
  尽管深度学习有成千上万种潜在的应用领域,但迄今为止,车云菌认为可能发展相对成熟的要数其在自动驾驶技术研究上的应用。尽管基于深度学习打造的自动驾驶汽车平台仍处于概念阶段,但NVIDIA一直都在同主机厂和软件开发商合作,设计开发不仅能够模仿人类驾驶员同时还可以在复杂情况下做决定的自动驾驶平台。
 
  DRIVEPX2是NVIDIA最新开发的用于自动驾驶汽车的硬件计算平台。而尽管看起来体积如此之小,但它却是之前很多无人驾驶试验车后备箱塞得满满当当的,体积庞大的计算机的替代品。
 
 
  NVIDIADRIVEPX2自动驾驶开发平台
 
  我们不妨先看看DRIVEPX2的一些基本性能参数:
 
  1.基于16nmFinFET工艺,功耗高达250W,采用水冷散热设计。支持12路摄像头输入、激光定位、雷达和超声波传感器;
 
  2.CPU部分:两颗新一代NVIDIATegra处理器,当中包括了8个A57核心和4个Denver核心;
 
  3.首发NVIDIA的新一代GPU架构Pascal(即帕斯卡,宣称性能是上一代的麦克斯韦构架的10倍),单精度计算能力达到8TFlops,超越TITANX,有后者10倍以上的深度学习计算能力。
 
  那么既然有了如此强大的性能,NVIDIA的DRIVEPX2平台到底如何在自动驾驶汽车上发挥作用呢?这里要重点讲一下它在高精度地图绘制上发挥的优势。DRIVEPX2能够将外部传感器获取的图像数据加工处理后制成单个的高精度点云。系统将所有DRIVEPX2平台的点云数据上传至云端服务器,经过DGX-1处理后,可融合为一副完整的高精度地图。所以,车内的DRIVEPX2,云端的DGX-1配合发挥作用,形成了NVIDIA完整的自动驾驶技术平台解决方案。
 
 
  前面车云菌已经为大家简单介绍了DGX-1的架构和参数,那么它的性能到底有多强,我们通过下面这个例子就能直观地了解到。
 
  如果将DGX-1和一枚因特尔的双核Xeon处理器作比较。这枚双核Xeon的运算速度为3teraflop,但DGX-1的运算速度为170teraflop。那么这意味着如果用这枚双核Xeon芯片来训练Alexnet网络结构模型的话,它需要150个小时,但DGX-1却只要两个小时就够了。
 
  此外,车云菌还了解到,NVIDIA将为自动驾驶汽车,打造名为“NVIDIADIGITS”的端到端深度学习训练平台。该平台依靠DRIVEPX2进行部署,通过网络让每一辆车都构建自己的深度学习网络。在此基础之上要建立“NVIDIADRIVENet”的深度神经网络。它包括3个卷积码层,3700万个神经元,而信息在整个网络流经一次,会产生400亿次操作。
 
 
  参加今年首届Roborace大奖赛的无人驾驶赛车渲染图
 
  而涉及到具体应用层面,黄仁勋在GTC大会的主题演讲环节还透露称,参加今年首届Roborace的无人驾驶赛车,将使用英伟达的DRIVEPX2作为计算平台。而明年,DrivePX2还将被沃尔沃用于在瑞典哥德堡的实地自主驾车实验中。所以,各位敬请期待吧!
 
  车云小结
 
  不得不承认,尽管自动驾驶技术还没有发展到Level3这个阶段,各大芯片厂商已经陆续亮剑,祭出了各自的杀手锏。
 
  这个月16号,恩智浦NXP推出了一款号称“能够帮助车企和供应商实现模块化量产无人驾驶汽车”的计算平台BlueBox。按照初步得到的信息,BlueBox作为新一代ADAS平台,主要功能是将之前彼此隔离的单个传感器节点和处理器进行功能上的结合,似乎并不具备什么深度学习功能。而相比之下,NVIDIA今年发布了DRIVEPX2,TeslaP100以及超级计算机DGX-1,可谓在基于深度学习的自动驾驶技术研发上火力全开。所以,如果从产品战略布局来看,似乎NVIDIA已经领先一局了。
NVIDIA今年发布了DRIVE PX 2, Tesla P100以及超级计算机DGX-1,可谓在基于深度学习的自动驾驶技术研发上火力全开。
评论

0/200

验证码: 点击换一张