128核Zen 5无惧计算挑战 ! 第五代AMD EPYC 9755处理器深度测评
脚本之家
在服务器处理器市场,AMD的市场份额持续刷新历史纪录。根据Mercury Research的数据显示,在2024年第三季度,AMD在服务器市场的出货份额多达24.2%,营收份额更是高达33.9%,双双创下历史新高。今年10月10日,AMD推出了搭载“Zen 5”和“Zen 5c”核心架构的EPYC 9005系列新品。这些新品凭借其创新架构、创纪录的核心/线程数量以及全面升级的先进特性,巩固了EPYC系列处理器在服务器处理器市场的领先地位。那么,在实际测试和应用中,新一代EPYC 9005系列产品的性能究竟提升了多少呢?我们对基于Zen 5核心的旗舰级EPYC 9755处理器进行了独家的性能测试。
参测处理器规格解析
我们先来看看本次测试的主角——AMD EPYC 9755处理器的基本情况。它是一款针对通用服务器的旗舰产品,具有16个CCD,每个CCD有8个核心,总共拥有128核心256线程,基础频率为2.7GHz,最高Boost频率为4.1GHz,每个CCD配备32MB共享L3缓存,L3缓存总量为512MB。值得注意的是,这一次它所支持的AVX-512指令集具有完整的512bit数据路径。
虽然从产品型号的命名方式来看,有读者可能会以为EPYC 9755处理器是EPYC 9754的升级,但其实并非如此。因为EPYC 9755处理器采用的是Zen 5核心,而EPYC 9754采用的是Zen 4c核心,两者在产品规格和市场定位方面有较大差异。严格说,上一代产品中的EPYC 9654是采用Zen 4核心的旗舰(96核心192线程),所以EPYC 9755其实是EPYC 9654的升级,在核心、线程数量以及整体规格上有了全面提升。
▲第五代AMD EPYC系列处理器的创新规格综述
除了核心架构的升级,EPYC 9755处理器支持的内存规格也进一步升级,最高可以支持DDR5 6400 MT/s规格的ECC RDIMM内存,每个Socket最高可支持高达6TB内存。在2P模式下,新一代系统整体拥有最高160条PCIe Gen5通道,还支持CXL 2.0规范和更多安全功能。
▲AMD EPYC处理器的安全功能演进图
此外,EPYC 9755处理器完全支持新增的Trusted-IO功能。该功能扩展了可信设备的边界,除了CPU以外,外部的存储、加速器和智能网卡也纳入其中,可以让整个系统更加安全。
由EPYC 9755处理器组建的双路系统能为用户打造256核心、512线程的超多核心计算系统。同时,由于是Zen 5核心架构设计,其每核心可共享的L3缓存容量也很充足,对那些既需要多线程数量,又不想妥协综合运算性能的用户来说,这样的双路系统是颇具吸引力的。因此本次测试也以此作为测试平台。
为了更直观地体现第五代EPYC 9755处理器的进步,我们引入曾经测试过的,包括AMD第四代基于Zen 4架构的EPYC 9654处理器、基于Zen 4c架构的9754处理器、基于Zen 4架构带有3D V-Cache的9684X处理器以及第三代基于Zen 3架构的EPYC 7763处理器的双路系统的部分相关性能测试数据作为参照,让大家可以更加直观地了解EPYC 9755处理器平台的综合性能提升。
我们如何测试
本次EPYC 9755测试平台采用AMD代号Volcano的双路主板,SSD为三星NVMe SSD,总共配备24通道内存,总共安装24根海力士DDR5 6400 64GB内存,总容量为1.5TB。
EPYC 9654、EPYC 9684X以及EPYC 9754的双路系统同样支持24个内存通道,所使用的内存为三星DDR5 4800 64GB,内存总数量同为24根,内存总容量同为1.5TB,搭配美光9300系列企业级NVMe SSD。
基于Zen 3架构的EPYC 7763双路系统则采用AMD DAYTONA_X主板、三星 DDR4 3200 32GB内存,总数量为16根,内存总容量为512GB,搭配三星PM883企业级SSD。
本次的测试平台软件操作系统同样基于Ubuntu 22.04系统,通过11个专业的测试项目来考察处理器在浮点与整数性能、内存性能、光线追踪、渲染等方面的表现。
第五代AMD EPYC处理器双路系统测试平台一览
- 处理器:AMD EPYC 9755×2
- 内存:海力士DDR5 6400 64GB×24
- 主板:AMD Volcano
- 硬盘: 三星NVMe SSD
- 系统:Ubuntu 22.04
- 性能测试:SPECrate 2017
SPEC旗下的系列测试软件是目前业界标准的、权威的基准测试之一。其中,SPEC CPU测试中的SPECrate 2017主要测试单位时间的吞吐量或工作量,这是服务器采购时的主要性能指标。SPECrate 2017包含SPECrate Integer和SPECrate Floating Point,前者主要测试整数计算性能,后者主要测试浮点计算性能。值得一提的是,该软件可以调动处理器的所有核心与线程数参与计算。
从测试成绩来看,EPYC 9755的表现相当强悍。在双路系统中,平台整体规格达到256核心512线程,再加上更大的L3缓存,双路EPYC 9755出色地发挥出了最大实力。对比双路Zen 3架构的EPYC 7763,其整数性能的领先幅度高达207.6%,浮点运算性能的领先幅度则达到夸张的223%。也就是说对于EPYC老用户来讲,全新Zen 5加持的EPYC 9755在性能上具备相当突出的优势,完全值得升级换代。
如果和第四代Zen 4架构的EPYC 9654对比,EPYC 9755不仅在参数规格上拥有绝对优势(128核256线程),在性能上也优势明显。其在整数性能上领先EPYC 9654(96核心192线程)双路系统44.85%,在浮点运算性能上领先EPYC 9654双路系统多达45.93%。
如果考虑核心数量和线程数量相同情况下的性能对比,EPYC 9755也能轻松击败上一代基于Zen 4c架构的EPYC 9754。其整数性能的领先幅度为29.19%,浮点运算性能领先38.73%。
对于通用的数据中心而言,EPYC 9755不但可以带来核心密度的大幅提升,而且综合性能提升非常明显,能够更好地保证企业客户的业务应用流畅运行。
性能测试:Stream-Triad
Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。与硬件厂商提供的理论最大内存带宽不同,通过fortran、C两种高级、高效的语言编写完成的Stream可以在测试中充分发挥出内存的能力。Stream支持Copy、Scale、Add和Triad这4种操作,其中Triad组合了前面3种操作,所以其测试成绩更具参考价值。
在内存规格方面,本次对比的五款EPYC处理器可以划分为三个类别,即支持DDR4 3200的Zen 3平台(EPYC 7763)、支持DDR5 4800的Zen 4/Zen 4c平台(EPYC 9684X、EPYC 9654、EPYC 9754),以及支持DDR5 6000的EPYC 9755平台。有了这三个类别的划分,我们的内存测试成绩图表看起来就很有趣—三个类别呈现出三种梯度。其中,最新的EPYC 9755的表现最为出色,它的测试成绩达到845160.686MB/s,领先基于Zen 3的EPYC 7763平台大约127%。与支持DDR5 4800的Zen 4/Zen 4c平台(比如EPYC 9654)对比,全新的EPYC 9755由于所支持的内存频率更高,理论内存带宽更大,所以它也有大约14%的领先优势。
在服务器市场中,随着处理器处理核心数量的增多,内存带宽对于提升整个系统性能越发重要,如果某个系统不能迅速地将内存中的数据传输到处理器当中,若干处理核心就会处于等待数据的闲置状态,而其中所产生的闲置时间不仅会降低系统的效率,还会抵消多核心和高主频所带来的性能提升因素。从我们的测试结果来看,全新的EPYC 9755处理器新增对DDR5 6000内存的支持,理论内存带宽也提升到576GB/s,对比DDR5 4800平台来说有显著的性能提升,这也为整个平台强大的综合性能打好了基础。
性能测试:OpenSSL
OpenSSL广泛用于保护服务器之间的通信,这是许多服务器堆栈中的重要协议,是云计算中为应用程序提供信息安全的保障,不过在不少服务器中,由于硬件设备性能不济、用户数量增多等问题,OpenSSL的运算速度会不断降低。OpenSSL测试主要包含生成签名和验证签名两部分,我们在本次测试中主要进行OpenSSL生成签名测试,最后通过统计每秒处理的数据量来判断处理器的性能表现。
测试结果显示,OpenSSL测试比较依赖处理器的多线程运算性能。拥有256核心、512线程的EPYC 9755双路系统与核心数量、线程数量相同的基于Zen 4c架构的EPYC 9754双路系统相比,EPYC 9755双路系统依然有46.46%的领先优势,这主要得益于全新Zen 5架构带来的性能狂飙。这意味着数据中心如果升级到EPYC 9755平台,显然可以更好地提高资源利用率以及整体效率。
基准性能测试:UnixBench Dhrystone 2和Whetstone
UnixBench是一个类Unix系统下的性能测试工具,该工具的主要目的是提供服务器性能的基本指标。这是一个系统基准测试工具,拥有多个测试子项目,而不仅仅是CPU、内存或磁盘基准测试工具,它的结果不仅取决于硬件,还取决于操作系统、库甚至编译器。在本次测试中,我们主要使用能够体现整数性能的Dhrystone 2 using register variables和能够测试双精度浮点操作速度与效率的Double-Precision Whetstone两个项目。此外,在这两个测试项目均可选用单线程或多线程进行,我们选用多线程进行测试。
可以看到,在体现处理器整数性能的Dhrystone 2 using register variables测试中,相对隔代产品——基于Zen 3架构的EPYC 7763双路系统,全新的EPYC 9755双路系统带来了出色的表现,领先优势达到186.51%。与基于Zen 4架构的EPYC 9654双路平台相比,EPYC 9755双路平台也有高达56.41%的领先优势,这样的迭代性能表现相当不错。
众所周知,CPU的整数运算主要用于处理离散数据,比如压缩算法、图像处理、编译器语法分析、电脑电路辅助设计等,它还可以反映处理器控制程序流的能力。从测试结果可以看到,EPYC 9755处理器具备更强悍的整数性能,意味着它能为企业的业务运行提高系统的执行效率。
在Double-Precision Whetstone测试中,全新的EPYC 9755双路系统性能表现更加强悍,领先基于Zen 3架构的EPYC 7763双路系统190.55%。对比EPYC 9654双路系统,EPYC 9755双路系统的领先幅度同样达到夸张的115%,性能幅度比整数性能测试更高。这也意味着在科学计算、工程模拟等依赖处理器浮点运算能力的领域,EPYC 9755的优势非常明显。
性能测试:C-ray 1.1
C-ray是一种常用的光线追踪基准测试,它可以显示多线程工作负载下处理器的性能差异,时间越短说明系统性能越强。在本次测试中,我们分别使用4K和8K分辨率进行测试。
使用处理器来完成光线追踪任务,对于处理器的计算性能有很高要求,而处理器缓存容量的差异,也会带来一定的性能影响。EPYC 9755升级到Zen 5架构,IPC更高,核心数量更多,Boost频率更高,所以从测试结果可以看到,EPYC 9755双路系统的光线追踪表现是完全领先的——完成4K分辨率的渲染只需要1.225秒,完成8K分辨率的渲染只需要4.281秒,而上一代旗舰EPYC 9654相对应的成绩为2秒和7秒。新一代EPYC 9755分别节约38.75%和38.84%的运行时间,效率大幅度提升。
性能测试:Sysbench CPU
Sysbench一个开源、模块化、跨平台的多线程性能测试工具,它可以对CPU进行性能测试,在测试中主要是通过CPU进行多轮次的质数加法运算,质数极限为10000个。
在这个测试中,我们默认设置启用最大512个线程来进行质数计算。可以看到,由于EPYC 9755双路系统拥有256核心、512线程,所以它在这项测试中的表现远远领先于Zen 4架构的EPYC 9654双路系统(尽管它也拥有192核心384线程),领先幅度达到大约62%。
采用Zen4c核心的EPYC 9754双路系统也拥有256核心、512线程,但采用全新的Zen 5核心的EPYC 9755双路系统的领先幅度仍然高达44.14%。这意味着,在多线程运算的应用环境中,拥有256核心、512线程的EPYC 9755双路系统能够为加密和科学计算等领域提供极为明显的性能提升。
性能测试:HPL
HPL是High Performance Linpack的简称,也叫高度并行计算基准测试。它是一款用于测试高性能计算机系统浮点性能的基准测试工具,通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考察高性能计算机的浮点计算能力。值得一提的是,该测试支持调用AVX-512指令集。
从测试结果来看,拥有更多计算核心的EPYC 9755双路系统在该测试中轻松战胜EPYC 9654双路系统,领先幅度达到夸张的100.17%。对比Zen 3架构的EPYC 7763双路系统,EPYC 9755双路系统的领先优势则高达332%。
EPYC 9755相对上一代旗舰产品EPYC 9654在核心数量和线程数量提升了33%,但测试成绩领先的幅度远超这一水平,看来更高的CPU主频和Boost频率,以及完整的AVX-512指令集在本项测试中发挥了巨大的作用!
性能测试:DGEMM
DGEMM是一个基于双精度矩阵乘法例行程序的快速基准测试,可计算以下乘积:C←αAB+βC。其中A、B和C是包含双精度浮点值的矩阵,α和β是标量。AMD的开源DGEMM基准使用AOCL 4.0的AMD BLIS组件,其结果最终会反馈出一个Gflops值,该值将接近于可实现的最大系统吞吐量。这个测试可以使用AVX-512指令集运算,能体现处理器在支持AVX-512指令集后的性能优势。
毫无疑问,256核心、512线程配置的EPYC 9755双路系统在这个测试中处于绝对的领先地位,它的测试成绩突破18329Gflops,对比EPYC 7763双路系统有多达340.3%的领先优势,对比EPYC 9654双路系统,它的领先优势达到97.46%,这样的成绩相当亮眼。
性能测试:V-RAY 5.02
VRay是业界最受欢迎的渲染引擎,基于V-Ray内核开发的VRay for 3ds max、Maya、Sketchup、Rhino等诸多版本,为不同领域的优秀3D建模软件提供了高质量的图片和动画渲染,方便使用者渲染各种图片。Chaos公司还推出了免费的V-Ray Benchmark测试工具,用于帮助大家测试CPU、GPU的渲染速度。
渲染应用一般都更依赖处理器的多核心和多线程数量,因此拥有更多核心和线程数量的处理器在这项测试中往往能得到更高的成绩。从测试结果可以看到,拥有256核心、512线程配置的EPYC 9755双路系统取得最好的成绩,领先EPYC 9654双路系统大约32%。对比相同核心数量和线程数量的EPYC 9754平台,EPYC 9755双路系统依然能够取得大约27%的领先幅度。
FFmpeg视频编码性能测试
FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序,它提供了录制、转换以及流化音视频的完整解决方案。我们使用FFmpeg中的编码工具来测试处理器的视频编码性能,编码器为x264,通过测试处理器在live场景中的编码速度(也就是帧率)来考察处理器的性能。
最后我们使用FFmpeg中的编码工具测试双路系统的视频编码性能,编码器为x264,测试处理器在live场景中的编码速度(即帧率)。对于这一特定领域而言,我们考察的是Zen 5核心EPYC 9755相对上一代Zen 4核心EPYC 9654以及EPYC 9684X的性能提升。可以看到,核心数量带来的影响是比较明显。比如128个Zen 5核心的EPYC 9755双路系统就比96个Zen 4核心的EPYC 9654双路系统性能提升31.19%,比EPYC 9684X双路系统提升28.02%。
评测综述
在经过一系列测试后,我们发现AMD EPYC 9755处理器在128核心/256线程的性能竞赛中,无疑是通用服务器市场的新一代“性能巨兽”。综合本次对比测试的结果,EPYC 9755双路系统在所有测试项目中均显著超越了前代Zen4核心的旗舰产品EPYC 9654以及Zen4c核心的旗舰EPYC 9754所组成的双路系统。与EPYC 9654相比,EPYC 9755在测试中的最大性能领先幅度高达115%;与EPYC 9754相比,最大领先幅度达到70%;而与Zen 3时代的EPYC 7763双路系统相比,EPYC 9755更是展现了惊人的跨代性能提升,最大领先幅度达到340%。
EPYC 9755处理器的性能提升并不仅仅源自核心数量的增加。生产工艺的进步带来了基准频率和Boost频率的显著提升,核心架构的创新则持续提高IPC(每时钟周期执行的指令数),加之I/O方面的内存规格提升和缓存容量的不断增加,这些因素共同促成了令人瞩目的跨代性能提升。对于那些不愿因核心数量增加而牺牲性能的用户而言,单节点性能的持续提升仍然至关重要。EPYC 9755处理器显然能够轻松满足科学计算、工程模拟以及大数据分析等企业级高性能计算需求。
另一方面,对于那些既关注性能又关注机架密度的数据中心用户来说,采用新一代核心密度更高的EPYC 9755处理器可以实现更高的机架核心密度,从而减少对机架空间的需求。
当然,对于更注重核心密度的用户,例如提供虚拟化服务的云服务商,选择基于Zen 5c核心的EPYC 9005系列处理器将更有助于实现极致的核心密度和更佳的综合能耗表现。例如,Zen 5c核心的旗舰EPYC 9965处理器拥有创纪录的192核心和384线程,在双路配置下规格可达到384核心和768线程,它所提供的核心密度和能效优势在企业级服务器市场中同样无出其右。
综上所述,以EPYC 9755为代表的EPYC 9005系列处理器再次证明了AMD在芯片设计领域的深厚技术底蕴。该系列处理器所达到的创纪录规格,带来的极致性能和能效表现,使其成为行业发展的新标杆。对于企业用户和数据中心用户而言,如果需要兼顾性能、核心密度、能效表现和总体拥有成本,那么在采购决策时,AMD EPYC 9005系列处理器无疑是首选,以确保获得最佳的投资回报。