英伟达商用GPU和谷歌超算霸榜!

最新的 AI 芯片跑分大赛结果公布,英伟达 A100 和谷歌 TPU 领跑。

7 月 30 日,MLPerf 发布了 MLPerf Training v0.7 的结果。MLPerf 是 2018 年发起的一套通用基准,用以测量和评价机器学习软硬件性能。目前有 70 多家 AI 公司和哈佛、斯坦福等 10 所研究机构参与。

MLPerf Training 的结果从 2018 年开始发布 v0.5 开始,每年发布一次,v0.7 是第三版。

每年的测试标准都会进行修订。相比于去年,v0.7 版基准测试增加了两项新的测试项目,以及一个原有项目的修订。

今年的测试项目按照视觉、语言、商业、研究分为四类,共八项基准(Benchmarks)。其中新增的两项是自然语言处理(NLP)模型 BERT,推荐模型 DLRM。前者广泛应用于翻译、机器问答、文本生成等领域;后者则常应用于商业上的购物推荐、社交媒体推荐、搜索结果显示。

今年的测试一共有 9 个组织参加,最终提交了来自不同系统的 138 个测试结果。与去年相比,五个未改变的基准测试的最快结果平均提高了 2.7 倍。

英伟达与谷歌霸榜

英伟达凭借其 5 月份新发布 A100 Tensor Core GPU 和 HDR InfiniBand 架构方案,实现了八项测试的性能大幅增长。与去年的 V100 相比,A100 的训练速度提升了 1.5 到 2.5 倍。同时,它也是唯一一家以商用芯片参与了全部八项测试的公司。

图 | 英伟达 A100 在 8 项测试中实现性能突破(来源:英伟达)

而在用于研究的芯片方面,谷歌表现不俗。其基于 TPU v3 和 TPU v4 研发的超级计算机,参与了其中的六项测试,性能也显著提升。

其提交的 TPU v4 结果显示,与去年 Traning v0.6 的五个相同项目测试结果相比,相同规模的 64 个芯片上提交的 TPU v3 结果平均提高了 2.7 倍。性能优化是由于 TPU v4 的硬件创新和软件改进。

图 | 谷歌 TPU 在 Traning v0.7 上的性能提升(来源:谷歌官网)

图 | 谷歌超级计算机的改进(来源:谷歌官网)

英伟达的产品管理高级主管帕雷什 · 卡尔亚 (Paresh Kharya) 表示,“商用解决方案有一个非常严格的要求,即硬件、所有软件和所有组件都必须向客户提供第三方使用的证据。”

A100 在测试中的优异表现,也体现了其市场潜能。

A100 是英伟达首款基于安培(Ampere)架构的处理器,进入市场的速度也比以往任何 NVIDIA GPU 更快。A100 在发布之初用于第三代 DGX 系统,正式发布六周后即被谷歌云采用。

此外,AWS、百度云、微软 Azure 和腾讯云等全球领先的云提供商,以及 Dell Technologies、HPE、浪潮和超微等数十家主要服务器制造商,均采用了 A100。

图 | 使用对话式 AI 和推荐系统的英伟达客户(来源:英伟达)

性能与商用之争

谷歌参与测试的 TPU 属于研究类别的产品,较长一段时间内都不会面市。如果不衡量商业使用,谷歌能够在 BERT 项目上实现目前的最优解。

英伟达用 2048 块 A100 芯片训练 BERT 用时花了 49 秒。在谷歌云上,使用 16 个 TPU 芯片的商业化方案,这个任务需要 57 分钟。而谷歌使用 4096 个 TPU 芯片,只需要 23 秒,取得了目前的最短时间纪录。

谷歌 Cloud TPU 产品经理扎克 · 斯通 (Zak Stone) 表示,他们突破性能极限的方式之一是建造世界上最快的超级计算机。

另外值得注意的一点是,参与测试的 76 种配置中,55 种采用了 NVIDIA DGX 系统。9 家公司中,有 6 家使用英伟达的 GPU 提交了测试结果。这其中,包括三家云服务提供商:阿里云、谷歌云和腾讯云,以及三家服务器制造商:戴尔、富士通和浪潮。

剩下的 21 种配置中,8 种来自谷歌,7 种来自英特尔,6 种来自华为。

硅谷芯片初创公司 Cerebras,以及英国芯片公司 Graphcore 都没有参与测试。他们认为,测试结果展现的竞争格局,并不能反映他们的客户感兴趣的实际工作。

目前 MLPerf 测试只衡量计算性能,而没有将能源效率作为指标。来自 MLPerf 的坎特(Kanter)表示,测量能源效率是一个挑战。这是由于参与竞争的不同系统的规模非常复杂,云计算模式和预定模式的消耗资源方式就非常不同。