当前位置:系统粉 >   IT资讯 >   微软资讯 >  微软: FPGA在AI领域胜过Google的TPU

微软: FPGA在AI领域胜过Google的TPU

时间:2017-08-30 来源:互联网 浏览量:

在最近的HotChips大会上,三家全球最大的数据中心公司详细介绍了利用现场可编程门阵列(FPGA)作为性能匮乏的数据中心应用程序加速器的项目,特别是机器学习。 虽然赛灵思和英特尔(子公司Altera)长期以来一直在谈及其技术改变数据中心景观的潜力,但广泛应用仍然难以实现,部分原因是FPGA开发带来的挑战。特别是亚马逊、百度和微软都宣布了相应的技术和举措,他们希望通过解决这些障碍来加强自己的AI服务。百度和亚马逊的公告可能会对FPGA在数据中心的应用带来好处,反过来也可能为英特尔,特别是赛灵思(主营业务就是FPGA)的发展铺平道路。赛灵思公司战略高级副总裁史提夫格拉泽曾说:“当业界最亮眼的热潮转向HotChips大会时,亚马逊、百度和微软全都选择了在数据中心的FPGA加速方面进行创新。很显然,超大型数据中心的FPGA加速势头依然在上升。”

微软: FPGA在AI领域胜过Google的TPU(1)

首先,百度宣布了一个新架构,他们希望扩大FPGA作为加速平台的使用。新的百度“XPU”将赛灵思的FPGA中的CPU,GPU和FPGA灵活配置在一起,与传统的低级技术开发人员使用FPGA相比,他们希望比传统的低级技术更容易编程。对于他们来说,亚马逊网络服务通过F1加速平台方面对他们的进展情况进行了更新,F1加速平台支持配备8节点Xilinx的EC2实例,以实现FPGA加速应用程序的开发。

微软宣布了什么?

虽然亚马逊和百度正在努力使FPGA更易于访问和更容易在云上进行编程,但微软可能是数据中心应用程序的最大的FPGA终极用户,可以加速大规模的计算基础架构和Bing以及Azure上的应用程序。为了展现自己的实力,微软推出了一个可扩展的深度学习加速平台Project Brainwave,可以为基于云的AI服务提供实时响应。微软此前已经宣布了其中大约29个这样的AI API,减少了企业拥抱AI的障碍。现在,Microsoft正在共享有关构建这些MLaaS, APl和Bing内部服务的硬件基础架构的详细信息。

微软的Project Brainwave由三个组成部分组成:

一个高性能的系统架构,它是用于加速数据中心服务和扩展的加速器。通过将其加速器连接在高带宽,低延迟架构上,Microsoft可以动态分配这些资源以优化其利用率,同时保持超低延迟。

一个在14nm级Altera FPGA上编程或合成的“软”DNN处理器(DPU)。 以下有更多内容。

一个编译器和运行环境,用以支持使用微软DNN平台的CNTK有效部署训练神经网络模型。与Google的TPU和TensorFlow类似,Microsoft需要一个能为自己进行优化的硬件平台。有趣的是,微软声称CNTK可以比TensorFlow有更显著的性能优势,特别是在用于自然语言处理的复现神经网络方面。但Brainwave在进一步增强CNTK性能上尚不清楚。

微软: FPGA在AI领域胜过Google的TPU(2)

正如我最近所探讨的那样,一个完全自定义的芯片或者ASIC可以为像Google这样的公司带来一个非常快速的机器学习加速器,而且每单位成本会更低,但是开发过程在固定功能芯片中可能成本高昂、冗长且需要重新集成,阻碍了随着算法演变而快速适应实现的能力。微软公司宣布将其作为基于FPGA策略的主要驱动力。通过为其“软”DPU使用FPGA而不是ASIC,微软认为能更好地优化其硬件,使软件成本更低且随着时间的推移具有更大的灵活性。

FPGAs在机器学习中能体现优势的一个很好的例子就是能够定制深层神经网络中特定层所需的精度水平。NVIDIA率先在Pascal和Volta GPU中使用了精简计算精度(这两者都支持16位浮点和8位整数运算)。但是为什么停在那里?考虑从图像中确定某人的性别的神经网络层的要求,该属性只需要2位:男性,女性或其他(未知)。此外,使用FPGA,神经网络设计者可以以最佳(最小)位数对网络中的每个层进行建模,这可以对性能和效率产生重大影响,如下图所示。对LSTM或长时间内存的引用是一种通常用于自然语言处理的机器学习,这是微软的一部分。

微软: FPGA在AI领域胜过Google的TPU(3)

总结

机器学习领域需要快速的加速芯片,虽然Google采用了ASIC路径,但微软已经证明,他们可以使用FPGA与其相当甚至在某些情况下获得更好的结果,从而使他们能够通过自定义硬件来持续跟踪软件创新。同时,赛灵思,百度和亚马逊正在共同努力,降低甚至完全消除FPGA应用的传统障碍。总而言之,这些举措意味着其他大型AI客户和供应商也有机会分得一块蛋糕; 他们可以为应用优化定制芯片,同时降低定制ASIC方法所需的成本,避免潜在的技术过时问题。但是,我们只是接触到了这个创新应用的表面而已。

我要分享:

最新热门游戏

版权信息

Copyright @ 2011 系统粉 版权声明 最新发布内容 网站导航