英特尔最强工具包oneAPI Gold交付,为下一个十年铺路

不少分析认为,2020 年,半导体行业局势已发生微妙变化,英特尔正面临着巨大外在挑战。

今年,英伟达斥资 400 亿美元收购 ARM,志在拓宽 GPU 之外的计算硬件体系;AMD 借助台积电 7 纳米工艺推出了多款第三代处理器,与英特尔同期产品展开竞争激烈;而苹果公司在笔记本电脑新品中,首次使用基于 ARM 架构的 5 纳米自研芯片 “M1”,激发的连锁市场反应变数增多。

从 1971 年制造出第一颗处理器开始,英特尔开始引领摩尔定律发展,在 PC 时代奠定霸主地位,迅速成为全球最大的半导体芯片制造商,对待变局,这家巨头企业可能要比其他任何公司都敏锐和最先感知。

时代转型之下变量正在激增,比如摩尔定律正在逼近极限,人工智能、AIoT 发展迈向深水区,5G 通讯浪潮已经掀起,新的 “抓手” 会是什么?

在日前的一次媒体沟通会上,英特尔架构、图形和软件集团副总裁兼中国区总经理谢晓清,以及英特尔大数据技术全球 CTO、大数据分析和人工智能创新院院长戴金权,分享了英特尔正在打造的 “新利器”,最为关键的举措便是 “XPU” 愿景和 oneAPI 工具包,据悉,oneAPI Gold 工具包已于 12 月 9 日正式交付。

面对变量,英特尔的答案可能更倾向于重新定义一个半导体行业 “游戏规则”,展开新维度的竞争,而最大的优势是,它有这个定义能力。

底层硬件逻辑稳中求变

其实早在 2020 年 8 月份举办的架构日活动上,英特尔首席架构师拉贾?科杜里(Raja Koduri)就点明英特尔的新策略,重新梳理了竞争脉络。

英特尔之所以能长期稳居宝座,很大程度上得益于其核心技术贯穿了芯片制程与封装、XPU 架构、内存与存储、互联、安全、软件等 6 大技术领域,形成协同效应,通过软硬结合将每个晶体管的性能发挥到极限。

今年以来,英特尔在 7 纳米及以下的先进制程推出上虽有延期,但其 “压榨” 干净现有 10 纳米芯片性能的方式仍不容小觑,其提出 10 纳米 SuperFin 工艺,实现了该公司历史上最大的单节点内部增强,提供了与全节点过渡相当的性能改进。

此外,英特尔还将下一代 Willow Cove CPU 架构与 10nm SuperFin 技术集成起来 ,形成全新的 Tiger Lake 平台架构,这将取代上一代的 Ice Lake 微架构系列移动处理,让 CPU 性能、图形处理、AI 计算、内存带宽、安全性能等方面实现系统性提升。

提到英特尔只能想到 CPU 处理器?这个认知是时候刷新一下了。

下一个十年,在稳固 CPU 市场竞争力的基础上,英特尔更大的一盘棋在于 “XPU”,其目标是重新衡量晶体管缩小和 CPU 的发展以外的技术路线,重点在于满足智能设备时代,数据计算指数级增长的需求,而硬件布局也早已从单独的 CPU 拓展到跨 CPU、GPU、FPGA 和其他加速器的混合架构。

目前,英特尔的 GPU 和 FPGA 市场布局已初露锋芒。2020 年 11 月,英特尔推出了锐炬 ? Xe MAX 独立显卡,用于轻薄笔记本电脑,相比配有第三方显卡的同类笔记本电脑,可将基于人工智能的创作速度提升 7 倍,而相比高端台式机显卡可将视频编码速度提升高达 1.78 倍。

英特尔 GPU 的竞争优势在于能和英特尔 CPU 更好地协同,搭载其他独立显卡的轻薄笔记本电脑,很少对 CPU 进行性能优化,而英特尔锐炬 ? Xe MAX 独立显卡处于空闲状态时,可将所有电源和散热资源专门用于 CPU,在创作者持续实施任务(如执行高级渲染)时可将 CPU 性能提高多达 20%。

笔记本电脑 GPU 之外,英伟达还发布了其首款数据中心独立图形显卡。该服务器 GPU 基于 Xe-LP 微架构,搭配英特尔 ? 至强 ? 可扩展处理器,丰富的开源和授权的英特尔软件组件,企业通过较低的总体拥有成本(TCO)即可实现高密度、低时延的云游戏或流媒体服务解决方案。

FPGA 方面,8 月份,英特尔推出的 Agilex?FPGA 系列芯片,采用了异构 3D 系统级封装(SiP)技术,搭配最新 10 纳米工艺,可为数据中心、网络和边缘计算等应用提供高达 40% 的性能或功耗降低;11 月又陆续发布了可定制解决方案英特尔 ? eASIC N5X,以及最新的英特尔 ? 开放式 FPGA 堆栈 (Intel? OFS),这一切,都意在扩张在 5G、人工智能、云端与边缘计算中的渗透率。

随着市场竞争的日趋激烈,不少半导体科技巨头的拓展可能会对英特尔的固有市场造成侵蚀,但从英特尔的布局押注来看,也早已谋划好了如何对外扩张。

软件先行,oneAPI 一统开发者生态

硬件体系扩张带来最大的挑战是,需要更全面的软件栈,oneAPI 便是英特尔俘获开发者喜爱的新大招。

智能计算场景下有很多痛点,例如每一类硬件平台通常需要开发者维护独立的代码库,以及需要使用不同的语言、库和软件工具进行编程,这是一项极其复杂和耗时的工作,大大阻碍了开发效率。开发者们已经对一种通用、开放且是行业标准的编程工具包期待已久,而制定一个新标准,这恰恰是英特尔过去几十年所擅长的。

谢晓清表示,“oneAPI Gold 工具包会给开发者提供一个非常友好的编程环境,让他们可以自由选择硬件平台,不必要用某一种语言就必须绑定在某一个硬件平台上;其次,我们提供的编译器、系统都是高度优化,所以可以实现最大的硬件性能,并且最优支持不同异构计算的硬件加速;第三,它的开发模式非常快速、高效,并且源码的维护成本可以达到最低。”

具体而言,oneAPI 相当于是扩展了现有的开发人员编程模型,以通过数据并行语言,一组库 API 和一个低级硬件接口来支持跨体系结构编程,从而支持多种硬件体系结构,在英特尔本身行业标准之上,提供了一个开放的,跨平台的开发人员堆栈。

基于过去数十年的开发工具积累,英特尔开发出一种跨架构的编程语言 Data Parallel C++(DPC++)、以及用于 API 编程的函数库以及底层硬件接口(oneAPI Level Zero),其它硬件厂商也能使用 oneAPI 实现对特定硬件进行优化。

正如我们所看到的,oneAPI 编程模式兼容性堪称达到了历史最强。目前在各个领域应用比较广泛的高性能计算开发工具如 Fortran,在 AI 领域的 Python,以及像 OpenMP 这样不同领域使用的语言都可以做到无缝对接,同时,oneAPI 也支持一些主流的 AI 工具包,包括 Hadoop、Spark、TensorFlow、PyTorch、PaddlePaddle、OpenVINO 等等,形成更适合人工智能时代的软件栈。

oneAPI 是英特尔 “软件先行” 战略一种体现,毕竟,展开硬件新布局之前,让开发者爱上自己的工具乃至离不开这些工具的便捷性,是芯片制程、性能之外最重要的市场抓手。就目前官方提供的下载内容来看,除了跨平台基础开发套件之外,重点的工具也包括了高性能计算、物联网和高级渲染层面的工具整合。

而英特尔的信心在于,从最早的计算机时代开始,开发者生态持续维护了 20 多年,并有 10000 项与客户合作的软件部署经验,现在也是 Linux Kernel 最大的贡献者,每年修改的代码超过 50 万行,为 100 多个操作系统进行过优化。

拥有 15000 多名软件工程师英特尔,软实力同样强悍,在跨基础架构、网络、操作系统、开发工具和 SDK 以及其标准制定方面,广泛应用和经验积累造就了绝对的话语权。

上层应用小试牛刀

全新软、硬件生态布局可让英特尔的技术方案更有延展性,比如推动云游戏系统框架的优化。

据谢晓清介绍,英特尔最新发布的 GPU—SG1 能在整个安卓云游戏的框架上起到非常大的作用。它的图形渲染能力以及多媒体编解码能力,使得技术人员有可能利用独立 GPU 把云游戏的图形界面在云端直接渲染,并且利用流媒体的方式,把它编码之后直接发布到终端。

而在 CPU 端,英特尔把安卓用比较轻量级云原生的技术,用容器化的技术把它跑到轻量级的容器当中,提供云端协同的创新应用。值得一提的是,英特尔在安卓的框架层和运行层都做了非常多的优化,能使安卓容器化方案做到很高的密度,这些方案目前正在进行测试,可能会比较快的看到产品化的实现。

具体案例方面,腾讯基于 Intel 服务器 GPU,在每台双卡服务器上可生成 100 多个游戏实例,已测试过比较热门的游戏包括《王者荣耀》、《传说对决》等。

英特尔大数据技术全球 CTO、大数据分析和人工智能创新院院长戴金权,则重点介绍了 oneAPI Gold 对 AI 软件栈和软件生态的推进。

在 XPU 和 oneAPI 软硬件之上,新的技术体系可支持开发人员使用深度学习、机器学习、大数据等各种各样的框架,包括 TensorFlow、PyTorch、MXNet、OpenVINO、Spark 等等,帮助开发者方便地将他们端到端的数据分析加上 AI 的解决方案给快速构建出来。

戴金权表示,AI 技术已经进入到了我们现实生活的各方各面,可用来提升商业效率、提高利润、准确率等等,但对于在现实场景中需要把这些 AI 落地的开发人员来说,最大挑战之一,是如何将 AI 算法应用到复杂的数据当中。

首先这个数据量非常大;其次,数据非常复杂,可能来自各个不同的地方,数据又在非常快速变化。

针对这些行业问题,英特尔去年 6 月在中国设立的大数据分析和人工智能创新院,近期开源了一个端到端的大数据 + AI 软件平台:Analytics Zoo,开源地址可参考:https://github.com/intel-analytics/analytics-zoo

Analytics Zoo 在底层可提供端到端的数据流水线的能力,能够帮助开发者直接无缝地将 AI 模型运行在其分布式大数据上;中间层可提供机器学习的工作流,目的是能够将很多人工的作业、人工的任务变成自动化;在最上层,则能构建不同应用场景,快速开发例如推荐系统、时间序列分析、计算机视觉、以及自然语言处理等方面的应用。

结语

对于芯片巨头来说,除了芯片纳米制程的 PK,最关乎生存发展的可能便是强大的软件开发者生态。

总体来看,经过几十年的发展积淀,英特尔跨基础架构、网络、操作系统的开发经验,在半导体行业中屈指可数,也是为数不多有能力重新定义未来应用程序开发方式的巨头。在 XPU 产品版图之上,oneAPI 作为英特尔 “软件优先” 策略的一种体现,有望让英特尔在日益融合、异构化及跨架构编程的人工智能时代,更有市场把控力。

在很多开发者眼中,英伟达从十余年前的濒临破产到人工智能时代快速崛起,其开发的通用并行计算架构平台 CUDA 绝对是核心杀器。而 oneAPI 对于现在的英特尔来说,有点异曲同工,XPU 和 oneAPI 软硬结合的这盘棋变得更大,近年来,英特尔也面对着不少质疑声,而让自身不焦虑的方式是,或许就是把目光放远到下一个十年的竞争维度上。