AMD和英伟达势均力敌
|
需要老是发现之母,若是你正试图成立自从的计较引擎设想和制制能力(就像中国正正在做的那样),那么中国八个国度计较核心不只会为其超等计较机建制国产加快器,还会建立没有卸载模子的全CPU机械,这些机械只是利用MPI将计较使命分离到保守的横向扩展收集中。
此次新增了 44 台机械,显而易见的是,除了 LineShine 机械占领从导地位(占 6 月份新增 5。3 exaflops 总算力的 51。6%)之外,一些高机能计较核心仍正在不雅望,倾向于正在配备加快器的机械中安拆“Hopper”H100 和 H200 GPU。缘由显而易见。起首,Hopper GPU 更廉价,并且取后续的“Blackwell”B200 和 B300 GPU 比拟,它们的 FP64 浮点运算能力更强,每美元的浮点运算能力也更高。目前,仅利用 Nvidia 计较引擎的最强新机械基于 Hopper 架构。
我将正在另一篇文章中深切切磋LineShine机械的架构——LineShine大要是英文“sunbeam”(阳光)的曲译——但总的来说,LineShine基于深圳新思科技(NSC Shenzhen)取中国IT巨头华为(可能是其海思芯片部分)结合设想的Armv9兼容办事器CPU。凌坤LX2 CPU设想有304个勾当焦点,并且很可能芯片上还有更多焦点以提高良率。LineShine机械采用凌琦专有的LQLink互连手艺,我相当必定它基于InfiniBand手艺的某种变体,但也可能是以太网的简化版。
正如您所见,高机能计较 (HPC) 范畴的升级呈海浪式成长,并遵照产物周期。而 2026 年 6 月和 2024 年 11 月则非常强劲。此外,值得一提的是,此次要由百亿亿次级 (exascale) 级机械的安拆所从导。再次强调:这里指的并非高机能计较超等计较机,而是提交了 Top500 HPL 基准测试成果的已安拆高机能计较系统。但更普遍且有时较为现蔽的高机能计较市场可能会正在必然程度上反映榜单的环境,而这恰是我们关心 Top500 榜单的初志。
五台认证的百亿亿次级处置器(exaflops)从导了机能款式,别的五台HPL机能跨越400万万亿次级的机械也挤占了很多机能较小的机械的市场份额。此次,你必需具有2。66万万亿次级的HPL机能才能跻身榜单。率直说,考虑到现代CPU或GPU的机能极限,这个数字并不算高。
结论是——或者更切当地说,鉴于 LineShine 正在已正式提交高机能 Linpack 测试成果的超等计较机中排名第一——这款 LX2 CPU 凭仗其 SVE2 向量单位供给了强大的 FP64 运算能力,仅需 1379 万个焦点即可实现 2。74 exaflops 的理论峰值机能(四舍五入到小数点后三位)。正在 HPL 测试中,LineShine 的机能略低于 2。2 exaflops,比之前排名第一的超等计较机——位于美国劳伦斯利弗莫尔国度尝试室、基于 AMD MI300A 计较引擎的“El Capitan”超等计较机——机能提拔了 21。5%。
如许一来,中国就能制制出相对简单的大型机械,其现实仅正在于空间和功率。为了设想兵器以及推进所有科学范畴的尖端手艺,中国有资金和实力走规模化线,而不是依赖稠密的计较机辅帮设想。
看看哪些供应商正在 Top500 排名中拥有多大份额也很风趣,所以这里有一个标致的树状图,显示了谁按总容量占多大份额,这才是最主要的,由于失败案例就像代币一样,就是。
另一点值得留意的是,良多集群都采用了英特尔至强处置器搭配英伟达显卡。这也不难理解,由于高机能计较范畴和整个行业一样,对CPU的偏好和偏好也同样存正在。此外,正在人工智能(GenAI)兴旺成长的今天,价钱和可用性也是一个主要要素。还有9台机械采用了AMD Epyc处置器搭配英伟达显卡。这些夹杂架构加起来占总浮点运算能力的15。3%。
中国正在超等计较机范畴沉回巅峰,我们强烈思疑中国还具有更多未公开的百亿亿次级超等计较机。,即便中国没有提交的Top500排名,它正在百亿亿次级超等计较机竞赛中也一曲处于领先地位。
接下来,让我们来看看2026年6月Top500榜单上的新机械。以下是所无机器的列表,按架构排序,并正在每个架构内按尺寸排序。
这里有一个风趣的小表格,比力了过去五个列表中新增机械的焦点数、HPL 上的 Rmax 和 Rpeak 机能。
话虽如斯,我们仍需提示大师,我们仍然没有赶上摩尔定律每两年机能翻一番的程序,至多正在超等计较范畴,我们的投入还不脚以让我们搭上这趟顺风车。请看。
另一台大型新机械是意大利石油天然气巨头埃尼集团的HPC7系统,它基于AMD的夹杂CPU-GPU加快器MI300A;HPC7素质上是El Capitan系统的升级版,正在榜单上排名第六。它是目前已提交计较成果的最大商用超等计较机。(不要把它和最大的商用超等计较机混合。我们不晓得全球各大石油公司可能具有几多台更大的机械。他们很少公开炫耀。)这两台MI300A系统占新增浮点运算能力的16。3%。此外,还有两台机械夹杂利用了的AMD CPU和GPU,正如你所看到的,它们又添加了1。7%的计较能力。新增的五个高机能计较集群仅采用AMD Epyc处置器做为计较引擎,贡献了新增浮点运算总量的0。8个百分点;还有四个新增的英特尔至强处置器集群,贡献了别的1。8%的算力。纯CPU算力机械虽然不会世界,但它们也不会消逝。
几年前,中国恰是如许做的,为无锡国度超等计较核心打制了“海洋之光”超等计较机,它基于自从研发的神威SW26010-Pro CPU,具有4193万个焦点,理论峰值机能约为1。5 exaflops。现在,中国又用同样的体例打制了“光之星”超等计较机,它现正在是世界上最快的超等计较机,并安拆正在深圳国度超等计较核心。
英伟达正在机械数量上占领绝对劣势,具有237套系统,而AMD只要32套。但若是以峰值浮点运算能力来看,AMD的拆机容量为8。18 exaflops,而英伟达只要11 exaflops。正在并发能力方面,AMD售出的加快机械的CPU和GPU并发焦点总数达到3530万个,这是一场实正的合作,大概也预示着人工智能计较的将来。
最初,我们来看看加快计较方面的环境。按照 Top500 网坐的列表,共有 274 台机械具备某种形式的加快功能,虽然网坐上的文字显示有 277 台机械。我频频查对了三次,成果该当没问题。以下是这 274 台机械的架构分类?。 |
