日本超算又进一步：富士通公布Post-K超级计算机处理器细节

超级计算机具有很强的计算和处理数据的能力，主要特点表现为高速度和大容量，配有多种外部和外围设备及丰富的、高性能的软件系统。现有的超级计算机运算速度大都可以达到每秒一万亿次以上。这个巨大的计算机系统主要用来承担重大的科学研究、国防尖端技术和国民经济领域的大型计算课题及数据处理任务：如大范围天气预报，整理卫星照片，原子核物理探索，研究洲际导弹、宇宙飞船等，制定国民经济的发展计划等。

到 2016 年，中国的“神威·太湖之光”（每秒 9.3 亿亿次的浮点运算）和“天河二号”夺得状元和榜眼，第三至第十名依次是美国的“泰坦”、“红杉”、“科里（Cori）”，日本的“Oakforest-PACS”、“京（Kyo）”，瑞士的“代恩特峰”以及美国的“米拉”和“三一”。

现在，超级计算机正被用于各国国家高科技领域和尖端技术研究，同时也是一个国家科研实力和科技发展水平的体现。

而在超算领域，有一个知名的排名“TOP 500”榜单。该榜单始于 1993 年，是对全球已安装的超级计算机“排座次”的知名排行榜，由美国与德国超算专家联合编制，该榜单每半年发布一次。

图|（来源：TOP500 官网）

其中，日本的超算“京”曾于 2011 年获得 TOP 500 榜单冠军，是由富士通联合日本理化研究所开发的，到 2018 年６月已跌至全球第 16 位。富士通表示计划开发下一代超级计算机（代号 Post-K）重夺全球超算榜首，它的性能将是现在的“京”的 100 倍，同时能耗只有三倍。

Post-K 将使用全新研发的处理器 A64FX，架构转向 ARM，将于 2021 年推出。在今年美国硅谷举行的 HotChips 会议上，富士通公开了 A64FX 处理器的详细架构及性能。

图丨富士通超级计算机的配置

A64FX 由 87.86 亿个晶体管组成，采用 7nm FinFET 工艺技术制造。它将是第一个实现 Arm 的可扩展向量扩展（Scalable Vector Extensions/SVE）的处理器，这是一个专为高性能计算而设计的指令集。

今年 6 月，富士通已经开始生产该处理器的原型并开始进行初步测试，还披露了 CPU 的一些基本细节，包括其核心数（48 个计算核心加 4 个辅助核心）和 SIMD 矢量宽度（512 位）。在 HotChips 会议上，富士通的吉田敏夫（Toshio Yoshida）对微体系结构及其性能概况进行了更深入的研究。

图|（来源：TOP500 官网）

在运算速度上，作为第一款 SVE Arm 芯片，A64FX 提供了一些不错的浮点性能数据：64 位系统（FP64）每秒可以做超过 2.7 万亿次浮点运算，32 位系统（FP32）的速度则达到每秒 5.4 万亿次，16 位系统（FP16）每秒超过 10.8 万亿次。后两个系统对于深度学习应用尤其重要，传统上使用较低精度的 FP32 和 FP16 来训练神经网络。

A64FX 还实现了 16 位（INT16）和 8 位（INT8）格式的整数点积运算，可用于推理这些相同的网络。富士通称，使用 INT8 的新 CPU 可以达到每秒 21.6 万亿次操作以上，INT16 可以达到每秒 10.8 万亿次操作以上。

虽然 A64FX 的浮点性能值得肯定，但它只比最先进的 Xeon Skylake CPU 快了大约 35％，比现在已经不存在的 Xeon Phi CPU 慢了 20％。不难想象，无论是使用 Ice Lake Xeon CPU 还是未经证实的 Xeon AP 处理器，英特尔将在 2021 年为 Aurora exascale 超级计算机生产更高速的 CPU。另一方面，现在富士通只是提供了 A64FX 的低端性能估计，它暗示将在最终芯片推出几年后公布更多的测试信息。

虽然浮点运算速度并不是超级计算机的一切，但这确实让我们了解到亿亿次级计算机所需的处理器数量。使用保守的每秒 2.7 万亿次估计，需要超过 37 万块芯片才能达到峰值，而在 Linpack 或真正的浮点密集型应用程序上达到峰值可能需要 40 万。

由于富士通计划在每个 Post-K 节点中只放置一个 A64FX 处理器，因此该 40 万个处理器就是计算机的节点。Post-K 每个机架将有 384 个节点，在最终的亿亿级计算机中将需要 1000 多个这样的机架。如果在未来两年继续改进芯片，可以再次提高计算峰值。

处理器的节点这么多，说明计算机需有高性能互连能力。为此，A64FX 将配备一个片上网络控制器，通过一个叫“豆腐”的大规模并行互连网络来传输数据。对于 Post-K ，这种结构将是一个 6 维 mesh/torus 网络，它有六个坐标轴：X、Y、Z、A、B 和 C，每个处理器（节点）提供 2 个通道，每个通道有 10 个每秒 28000 兆位的端口。每个 CPU 或节点的传输速度可达到 560000 兆位。

图丨“豆腐”网络是如何在节点之间产生联系的（来源：IEEE Computer Society ）

Post-K 另一个突出之处是内存带宽。A64FX 将使用 32GB 的封装 HBM2 内存为每个 CPU 提供高达 1024 GB/秒的速度。根据富士通的说法，他们能够在 Stream Triad 基准测试中实现超过 830 GB /秒的速度，超过处理器峰值带宽的 80％。富士通没有提到将这种芯片是否连接到传统的 DDR 内存。

在内部，48 + 4 内核分为四个核心内存组，也叫 CMG。CME 是 13 个核心，由 12 个计算核心和 1 个辅助核心组成。CME 处理 OS 函数，如 I/O 和守护进程处理。13 个内核中的每一个都配备了 64 KB 的 L1 缓存，能够以超过 11 TB/秒的速度传输数据。而每个 CMG 都配备 8MB 二级缓存，运行速度超过 3.6 TB/秒。L2 高速缓存连接到存储器控制器和片上网络（NoC）的接口。NoC 可以和其他 CMG、豆腐网络和 PCIe 控制器产生连接。

图丨 A64FX 芯片的内部结构（来源：TOP500 官网）

平均而言，A64FX 的速度比 SPARC64 XIfx（富士通之前的高性能 CPU）快 2.5 倍，适用于各种高性能计算和人工智能的工作负载。A64FX 在流体动力学和地震波传播等领域的运算速度特别快，分别比 SPARC64 Xifx 快 3.0 倍和 3.4 倍。

图丨 A64FX 在高性能计算和人工智能领域的表现（来源：TOP500 官网）

在软件方面，Post-K 机器的客户富士通和日本理化学研究所正在为 A64FX 处理器和系统本身共同开发软件。基于 Arm 的系统软件和工具的开发人员 Linaro 以及各种开源和独立软件开发人员也将参与其中。预计到 2021 年时，富士通将开发出一整套高性能计算软件组件，包括 Linux，C / C ++和 Fortran 编译器，调试器，MPI，OpenMP，数学库，资源管理器和 Lustre 等。