
在Computex2024的发布会上,AMD推出了全新的Zen5架构,包括桌面端的锐龙9000系以及面向移动端的锐龙AI300系处理器。但当时并没有透露关于架构的太多信息,只是说了产品的型号命名和参数......
在Computex2024的发布会上,AMD推出了全新的Zen5架构,包括桌面端的锐龙9000系以及面向移动端的锐龙AI300系处理器。但当时并没有透露关于架构的太多信息,只是说了产品的型号命名和参数规格,而在上周举行的AMD技术日活动上他们详细介绍了Zen5、和XDNA2的技术细节,还包括了锐龙9000和锐龙AI300系处理器的一些关键性能数据。
AMD新一代处理器的核心:Zen5架构解析本次锐龙9000桌面处理器以及锐龙AI300系移动处理器均使用Zen5架构,而这两款处理器都会在本月上市,具体时间是锐龙AI300的笔记本会在7月28日,而锐龙9000处理器则是7月31日。
Zen5架构的改进方向大体可归纳为:每周期可执行更多指令;更宽的调度和执行单元;数据缓存带宽翻倍;更强的AI加速性能。
先来看前端的改进,Zen5直接升级成双管道预取和解码,搭配高级分支预测技术,可有效减少延迟、提高准确性和吞吐量,指令缓存的延迟和带宽也得到改进,这些措施有效提高了数据流和数据处理速度,且不会牺牲准确性。
整数执行单元加宽了指令分派和执行通道,分配和引退从以往Zen架构的每时钟周期6条指令增加到8条,以往的旧Zen架构整数执行单元包括4个ALU和3个AGU,而Zen5则增加到6个ALU和4个AGU,它们均配备一体化调度器,这样Zen5就拥有更大的执行窗口,在更复杂的计算工作负载下会有更好表现。此外核心缓冲区从320条目增加到448条目,以更好地处理更广的调度和执行8203;所产生的更多的未命中。
浮点执行单元获得重大更新,AMD自上代Zen4开始支持AVX-512指令集,但那是使用256位SIMD用两个时钟周期来执行AVX-512指令的,而Zen5则可提供完整的512位数据位宽,搭配6管线与2周期延迟的FADD,可处理更多浮点指令,在CPU执行一些AI模型时,能够显著提高反应速度与效能,面对未来各种AI应用。
缓存方面,一级数据缓存容量从32KB增加到48KB,宽度也从8路增加到12路,每周期4次读取2次写入,这让一级缓存与浮点单元的最大带宽直接比上代翻倍,改善了数据预取的效率。
根据AMD给出的数据,Zen5架构的性能提升主要由数据带宽、执行/退休、解码/指令缓存以及获取/分支预测这四大部分改进相互促进而成的,而Zen5的IPC较Zen4平均提升了16%之多,而使用VNNI的机械学习单核性能则比Zen4提升了32%,使用AVX-512的AES-XTS加密负载单核性能则提升了35%。
除了在7月会上市的两款消费级处理器外,采用Zen5内核的第五代EPYC也将会在今年下半年上市,目前的Zen5CCD以及锐龙AI300将会采用台积电4nm工艺生产,而未来更紧凑、更节能的Zen5c则会采用台积电3nm工艺。从图片可以看出EPYCTurin最多16个Zen5CCD,按每个CCD有8个核心计算的话最多128核,而采用Zen5cCCD的版本则最多192核。
在Zen5之后,Zen6也在路上了
锐龙AI300的核显:架构今年AMD有没有RDNA4这点我还不知道,但这是AMD专门为StrixPoint移动处理器所打造的,针对每瓦能效、内存每bit效能以及更长的电池续航时间进行架构优化,它将被用在Radeon800M系列核显上。
较原来的RDNA3相比有两倍的纹理采样率和插值与比较速率,前者意味着GPU拥有前代的两倍性能,在游戏过程中纹理和图形的细节和清晰度得到增强,理论上有助于改善细节纹理,在高分辨率时更有冗余,而后者则可以更好地呈现高质量图形细节。
还引进了更先进的内存管理技术,提高了内存每bit的操作效能,降低了对LPDDR5内存访问频率,意味着读写更快,总体上也更节能,延长笔记本的电池续航力。
根据官方的数据,在同样是15W性能释放下,Radeon800M的3DMarkTimespy得分比上代提升了32%,而NightRaid跑分则提升了19%。以上就是关于的内容,说真的AMD并没有透露太多的细节信息。
新NPU算力高达50TOPS:XDNA2架构Intel在宣传LunarLake时说它有CPU、GPU、NPU三个AI内核,实际上AMD自锐龙7040系列处理器开始就是这种结构,而现在StrixPoint则配备了全新的XDNA2架构NPU,可提供高达50TOPS的AI算力,比锐龙7040的10TOPS和锐龙8040系的16TOPS提升非常大。
上图是XNDA架构NPU和传统的多核处理器的对比,说真的XDNA的这结构其实更像GPU这种平衡处理器,XDNA设计将灵活的计算与自适应内存层次结构结合起来,内部拥有大量互联的AI引擎,有着弹性的运算单元与内存调度制度。
XDNA2拥有32个AI引擎,每列拥有4个AI引擎,MAC数量较上代翻倍,缓存容量增加1.6倍,支持BlockFP16块状浮点格式,支持非线性增强。NPU可根据任务的轻重程度以列为单位开启AI引擎,在轻任务下可以关闭部分核心,从而节约功耗,能效比初代提高了一倍。性能方面,XDNA2可提供50TOPS的AI算力,是上代的5倍。
XDNA2架构行业首创支持BlockFP16浮点格式,对于AI运算来说数据类型至关重要,Int8有较高的计算效能但精确度相对较低,而FP16则有较高的精确度但效能较低,而BlockFP16则可实现Int8的性能和FP16的精度。
AMD对比了StrixPoint和苹果M4ANE、IntelLunarLake和高通骁龙EliteX处理器运行FP16数据的峰值算力,性能要高出很多,LunarLake的48TOPS是基于Int8数据的,跑FP16大概减半。
BlockFP16数据类型精准度其实仅比FP32低那么一点点,而且对于开发商来说,可以相当容易的把模型转化为FP16、FP32和BF16等数据类型。
在大语言模型Llamav27B的FP16量化模型的性能测试中,最新的锐龙AI300处理器NPU的响应速度是酷睿Ultra7155H的5倍。
AMD也计划推出RyzenAISoftware以支持各种模型并对其优化,并采用ONNXRuntime执行,让未来搭载锐龙AI处理器的笔记本电脑具备更多的AI应用功能。
锐龙9000桌面处理器其实锐龙9000系列桌面处理器的规格早在Computex2024上就公布了,基本和当年的锐龙7000是完全一样的,包括:
锐龙99950X,16核32线程,最高频率5.7GHz,64MBL3缓存,170WTDP;
锐龙99900X,12核24线程,最高频率5.6GHz,64MBL3缓存,120WTDP;
锐龙79700X,8核16线程,最高频率5.5GHz,32MBL3缓存,65WTDP;
锐龙59600X,6核12线程,最高频率5.4GHz,32MBL3缓存,65WTDP;
两颗锐龙9是双CCD,而锐龙7和锐龙5则是单CCD,而且锐龙99950X、锐龙99900X的最高频率和锐龙97950X、锐龙97900X也是一样的,而锐龙79700X和锐龙59600X则比锐龙7000的两款同型号的高100MHz,而这些处理器的上市时间敲定在7月31日。
由于Intel的新一代桌面处理器估计要10月才上市,这次AMD给锐龙99900X找的对手是现在Intel现在的旗舰酷睿i9-14900K,而锐龙79700X的对手则是酷睿i7-14700K,锐龙59600X是酷睿i5-14600K,具体的性能对比大家看图就好了,至于顶级的锐龙99950X,就等着对手的下一代处理器来挑战。
AMD没给出锐龙79700X与锐龙77800X3D的性能对比,而是放出了锐龙75800X3D的对比,根据官方数据,65W的锐龙79700X在游戏性能上领先于105W的锐龙75800X3D,平均要快12%,而且功耗更低,实际上锐龙9000X3D应该也不远了,到时候再和锐龙77800X3D对比吧。
除了最顶级的锐龙99950X外,这代每个型号的TDP都要比上代有所降低,性能方面则有11%到22%不同幅度的增长,此外得益于新架构和新工艺,处理器的热阻降低了15%,同TDP下温度要比上代低7℃,对散热器的要求明显降低。
内存支持也有所改进,默认的JEDEC内存可支持DDR5-5600,但新的AGESEA可让内存频率直达DDR5-8000,同时支持内存实时超频,可在系统内对内存时序经行更改,可随时使用RyzenMaster软件进行内存超频,也可随时切回默认状态。
CPU超频可直接交给PBO,可实现6%~15%的性能提升
此外AMD在原有的CurveOpitimizer功能基础上推出CurveShaper功能,可进一步允许玩家最大化调整降压曲线,可提供最多15组频率与温度的组合,玩家可以在稳定区降低电压并在必要时增加电压,这允许玩家把锐龙9000处理器的潜力挖掘到极致,这设置适用于所有核心,不能单独对某个核心进行调节。
主板方面,且和之前透露的消息差别不大,X870E是双芯片,与X670E相比就是多了USB4的支持。X870变成了单芯片,现在GPU和都强制支持,同时也支持USB4,可看作是多了USB4的B650E。B850其实就是B650的平替,但支持,而显卡的则是可选的。B840大家把它理解成A620就行了,不支持CPU超频但支持内存超频,只支持USB10Gbps,显卡和口都是的,其他扩展则是。
锐龙AI300处理器其实上面所说的以及XDNA2都是锐龙AI300移动处理器的独享内容,锐龙9000桌面处理器并不会配备这些,它的IO-Die还是锐龙7000上面那个,所以核显也是RDNA2架构的。
其实到这里StrixPoint也没多少东西可说了,首批提供了锐龙AI9HX370和锐龙AI9365两款产品。其采用了混合架构设计,CPU部分包括了Zen5和Zen5c架构的内核,与Intel异构不同,Zen5、Zen5c还是完全相同的架构,IPC和ISA是完全相同的,不同之处在于核心频率以及搭配的L3缓存容量。
锐龙AI9HX370拥有4个Zen5和8个Zen5c,共24线程,配备24MBL3缓存,基础频率2.0GHz,最大加速频率5.1GHz,配备16组CU的Radeon890M核显。
锐龙AI9HX365拥有4个Zen5和6个Zen5c,共20线程,配备24MBL3缓存,基础频率2.0GHz,最大加速频率5.0GHz,配备12组CU的Radeon880M核显。
两者均配备50TOPS的XDNA2架构NPU,TPD从15~54W可调。
AMD拿锐龙AI9HX370对比了Intel酷睿Ultra9185H以及高通的骁龙XElite处理器,不论生产力还是创作力方面的性能都是要领先对手的。
游戏性能更是AMD处理器的拿手好戏,而且高通XElite处理器在游戏上出现了不少兼容性问题,根本不能运行,ARM架构在Windows系统下还是存在较严重的兼容性问题,而AMD新一代架构Radeon890M核显则可在高画质下流畅运行不少3A游戏。
总结AMD新一代Zen5架构的锐龙AI300笔记本会在7月28日上市,而锐龙9000处理器则是7月31日,虽然上面的PPT对比的都是Intel当前这代的产品,但大家应该都清楚它们真正的对手是Intel下一代的ArrowLake和LunerLake,当然了LunerLake其实并不是一个赛道上的东西,但难免被大家拿来对比。
由于这次LionCove架构P核和Skymont架构E核改动很大,再加上大家都使用台积电4nm工艺,到时的性能对比肯定很精彩,只不过AMD这次确实有时间优势,因为搭载LunerLake处理器的笔记本大概率要等到9月才上市,而ArrowLake桌面版本则要等到10月,移动版更是要明年初。AMD这次早至少两个月不说,而且还让他们搭上了暑期销售旺季这班车,打对手一个先手,至于到时会不会被反推还很难说,反正可以确定的是AMD还有X3D这个后手藏着。