英伟达商用GPU和谷歌超算霸榜！

最新的 AI 芯片跑分大赛结果公布，英伟达 A100 和谷歌 TPU 领跑。

7 月 30 日，MLPerf 发布了 MLPerf Training v0.7 的结果。MLPerf 是 2018 年发起的一套通用基准，用以测量和评价机器学习软硬件性能。目前有 70 多家 AI 公司和哈佛、斯坦福等 10 所研究机构参与。

MLPerf Training 的结果从 2018 年开始发布 v0.5 开始，每年发布一次，v0.7 是第三版。

每年的测试标准都会进行修订。相比于去年，v0.7 版基准测试增加了两项新的测试项目，以及一个原有项目的修订。

今年的测试项目按照视觉、语言、商业、研究分为四类，共八项基准（Benchmarks）。其中新增的两项是自然语言处理（NLP）模型 BERT，推荐模型 DLRM。前者广泛应用于翻译、机器问答、文本生成等领域；后者则常应用于商业上的购物推荐、社交媒体推荐、搜索结果显示。

今年的测试一共有 9 个组织参加，最终提交了来自不同系统的 138 个测试结果。与去年相比，五个未改变的基准测试的最快结果平均提高了 2.7 倍。

英伟达与谷歌霸榜

英伟达凭借其 5 月份新发布 A100 Tensor Core GPU 和 HDR InfiniBand 架构方案，实现了八项测试的性能大幅增长。与去年的 V100 相比，A100 的训练速度提升了 1.5 到 2.5 倍。同时，它也是唯一一家以商用芯片参与了全部八项测试的公司。

图 | 英伟达 A100 在 8 项测试中实现性能突破（来源：英伟达）

而在用于研究的芯片方面，谷歌表现不俗。其基于 TPU v3 和 TPU v4 研发的超级计算机，参与了其中的六项测试，性能也显著提升。

其提交的 TPU v4 结果显示，与去年 Traning v0.6 的五个相同项目测试结果相比，相同规模的 64 个芯片上提交的 TPU v3 结果平均提高了 2.7 倍。性能优化是由于 TPU v4 的硬件创新和软件改进。

图 | 谷歌 TPU 在 Traning v0.7 上的性能提升（来源：谷歌官网）

图 | 谷歌超级计算机的改进（来源：谷歌官网）

英伟达的产品管理高级主管帕雷什 · 卡尔亚 (Paresh Kharya) 表示，“商用解决方案有一个非常严格的要求，即硬件、所有软件和所有组件都必须向客户提供第三方使用的证据。”

A100 在测试中的优异表现，也体现了其市场潜能。

A100 是英伟达首款基于安培（Ampere）架构的处理器，进入市场的速度也比以往任何 NVIDIA GPU 更快。A100 在发布之初用于第三代 DGX 系统，正式发布六周后即被谷歌云采用。

此外，AWS、百度云、微软 Azure 和腾讯云等全球领先的云提供商，以及 Dell Technologies、HPE、浪潮和超微等数十家主要服务器制造商，均采用了 A100。

图 | 使用对话式 AI 和推荐系统的英伟达客户（来源：英伟达）

性能与商用之争

谷歌参与测试的 TPU 属于研究类别的产品，较长一段时间内都不会面市。如果不衡量商业使用，谷歌能够在 BERT 项目上实现目前的最优解。

英伟达用 2048 块 A100 芯片训练 BERT 用时花了 49 秒。在谷歌云上，使用 16 个 TPU 芯片的商业化方案，这个任务需要 57 分钟。而谷歌使用 4096 个 TPU 芯片，只需要 23 秒，取得了目前的最短时间纪录。

谷歌 Cloud TPU 产品经理扎克 · 斯通 (Zak Stone) 表示，他们突破性能极限的方式之一是建造世界上最快的超级计算机。

另外值得注意的一点是，参与测试的 76 种配置中，55 种采用了 NVIDIA DGX 系统。9 家公司中，有 6 家使用英伟达的 GPU 提交了测试结果。这其中，包括三家云服务提供商：阿里云、谷歌云和腾讯云，以及三家服务器制造商：戴尔、富士通和浪潮。

剩下的 21 种配置中，8 种来自谷歌，7 种来自英特尔，6 种来自华为。

硅谷芯片初创公司 Cerebras，以及英国芯片公司 Graphcore 都没有参与测试。他们认为，测试结果展现的竞争格局，并不能反映他们的客户感兴趣的实际工作。

目前 MLPerf 测试只衡量计算性能，而没有将能源效率作为指标。来自 MLPerf 的坎特（Kanter）表示，测量能源效率是一个挑战。这是由于参与竞争的不同系统的规模非常复杂，云计算模式和预定模式的消耗资源方式就非常不同。