Habana推出训练处理器Gaudi 比相同数量GPU系统高4倍的处理能力
- +1 你赞过了
2018年9月,Habana Labs推出了自家首款用于推理与预测的处理器GOYA,相比面对于通用计算的CPU与GPU,GOYA凭借架构上的优势,让其创造了两项行业记录。其一是在ResNet-50基准测试中提供了每秒15000张图片的吞吐量、以及1.3毫秒的延迟。其二便是其功耗仅为仅为100瓦。而拥有出色性能的GOYA目前已被Facebook所使用,作为其Glow ML的编译器。
在GOYA发布的同时,Habana Labs对外宣称,将会在2019年Q2季度中推出用于训练的处理器Gaudi,而近日这款产品终于登上了舞台。
据悉,Gaudi处理器的创新架构可实现训练系统性能的近线性扩展,即使在较小Batch Size的情况下,也能保持高计算能力。而基于Gaudi的训练系统实现了比拥有相同数量的GPU系统高了近乎4倍的处理能力。
除了领先的性能,Gaudi处理器还为人工智能训练带来了另一项行业记录。该人工智能处理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。
凭借Gaudi处理器,Habana Labs的客户亦可利用标准以太网交换进行人工智能训练系统的纵向扩展和横向扩展。同时,以太网交换机已被数据中心应用于计算系统和存储系统的扩展中,在速度和端口数方面可提供几乎无限的可扩展性。另外,与Habana的标准设计相比,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。
Linley集团首席分析师Linley Gwennap评论说:“Habana Labs推出新产品,其产品组合迅速地从推理处理器扩展到训练处理器,涵盖了神经网络的所有功能。在众多的人工智能训练加速器产品中,Gaudi?处理器能够提供强大的性能,达到行业领先的能效水平。作为首款集成100G以太网链路并支持RoCE的人工智能处理器,Gaudi?为使用行业标准组件构建而成的大型加速器集群提供了强大的支持。”
Gaudi处理器配备了32GB HBM-2内存,目前拥有HL-200,支持8个100Gb以太网端口的PCIe卡。以及HL-205,符合OCP-OAM规范的子卡,支持10个100Gb以太网端口或20个50Gb以太网端口两种规格。
此外,Habana还推出了一款名为HLS-1的8-Gaudi系统,其中包括8个HL-205 子卡,带有用于外部主机连接的PCIe连接器和24个100Gbps以太网端口,用于连接现成的以太网交换机。客户能够通过在19英寸标准机柜中部署多个HLS-1系统,实现性能的扩展。
Habana Labs首席执行官David Dahan 表示,人工智能模型训练所需的计算能力每年呈指数增长。因此,提高生产率和可扩展性,解决数据中心和云计算对计算能力的迫切需求成为至关重要的任务。
而从另一方面来看,计算能力呈指数增长意味着AI芯片市场未来也将是个指数级增长的市场。但就目前来看,英伟达两年前开始发售其Volta AI芯片,而今年晚些时我们还可能看到Volta的继任者。此外英特尔和Facebook也在开发训练处理器Nervana,而高通和ARM也早已做好了打算。所以凭借GOYA与Gaudi这两个拳头产品,Habana Labs能否从巨头手中拿到属于自己的市场份额,这十分值得我们关注。