美国超微公司(AMD.US)发布了AMD Instinct MI300X加速器、进行了大量优化并添加了支持LLM新功能的ROCm 6开源软件套装,以及配备锐龙AI功能的锐龙(Ryzen)8040系列加速器。
AMD新品
AMD Instinct MI300X加速器可用于生成AI,并具有大型语言模型(LLM)训练和推理性能,此外,还发布了AMD Instinct MI300A加速处理单元(APU)——结合最新的AMD CDNA 3架构和“Zen 4”CPU,可为高性能计算和人工智能工作负载提供突破性性能。
据其介绍,微软、劳伦斯利弗莫尔国家实验室的“El Capitan”超级计算机,甲骨文的云基础架构计划,都成为其客户。
AMD Instinct MI300X加速器采用全新的AMD CDNA 3架构。与上一代AMD Instinct MI250X加速器相比,MI300X的计算单元增加了近40%,内存容量增加了1.5倍,峰值理论内存带宽增加了1.7倍,能支持FP8和稀疏性等新的数学格式,并能适应人工智能和高性能计算工作负载。
AMD Instinct MI300X加速器拥有192GB HBM3(高带宽存储)内存容量和5.3 TB/s峰值内存带宽,可为需求激增的AI工作负载提供所需的性能。
AMD Instinct平台是基于行业标准OCP设计的生成式AI平台,拥有8个MI300X加速器,提供行业领先的1.5TB HBM3(高带宽存储)内存容量。AMD Instinct平台的行业标准设计允许OEM合作伙伴将MI300X加速器设计到现有的AI产品中,简化部署并加速采用基于AMD Instinct加速器的服务器。
值得留意的是,AMD在发布公告中提到,与英伟达的H100 HGX相比,AMD Instinct 平台在BLOOM 176B4等大语言模型上运行推理可快1.6倍,并且是市场上仅以单一MI300X加速器为70B参数模型(如Llama2)运行推理的唯一选择,并能简化企业级大语言模型部署。
AMD Instinct MI300A加速处理器,是全球第一个专为高性能计算和AI提供的数据中心加速处理器,结合了高性能的AMD CDNA 3 GPU内核、最新的AMD“Zen 4”x86 CPU内核和128GB的下一代HBM3(高带宽存储)内存,在FP32高性能计算和人工智能工作负载上,与上一代AMD Instinct MI250X相比,每瓦性能提高了1.9倍,而且与英伟达的Grace Hopper超级芯(H200与Grace CPU搭配)相比,每瓦性能或高出2倍。
不过更为重要的是,AMD宣布推出最新的AMD ROCm 6开放软件平台,并承诺向开源社区开放最先进的软件库,推进其开源AI软件部署的愿景。ROCm 6软件大大提升了AI的加速性能,并增加了对生成式AI几个新关键功能的支持,包括FlashAttention, HIPGraph和vLLM等。
至于配备锐龙AI功能的锐龙(Ryzen)8040系列加速器,预计于2024年第1季面向宏碁、华硕、戴尔、惠普、联想和雷蛇等厂商推出。
此外,AMD表示通过收购Nod.AI与Mipsology以及更多战略性生态合作,投资于软件性能。
AMD能替代英伟达吗?
据CNBC报道,Meta(META.US)、OpenAI和微软(MSFT.US)已表示将使用AMD最新AI芯片Instinct MI300X,或意味着这些正在部署AI的科技巨头们倾向于寻找其他产品,来替代英伟达(NVDA.US)供应紧缺而且昂贵的AI芯片。
AMD的首席执行官CEO苏姿丰预计,AI芯片市场到2027年的市场价值可达到4000亿美元以上,并认为AMD可在其中占据较大的市场份额。AMD没有披露MI300X的定价,但英伟达目前每颗芯片的成本大约为4万美元,而苏姿丰透露,AMD的芯片要低于英伟达的对应产品。
更为重要的是,AMD表示,已经改进了用于优化AI软件栈的软件套装ROCm 6,以便与英伟达的行业标准CUDA软件进行竞争,而这可能是AI开发者目前更倾向于英伟达的原因。
英伟达的护城河
说到AMD与英伟达的AI芯片竞争,有必要先说说为何GPU在AI发展中扮演核心角色,这要由并行计算说起。
并行计算是一种一次可以执行多个指令的算法——将一个计算任务分解成众多子任务,并通过多个处理器同时执行,来加快计算速度。其目的是提高计算速度,并通过扩大问题求解规模,解决大型而复杂的计算问题。
在上世纪八九十年代,出现第一代并行计算机,例如超算和多处理器系统,这些系统通常需要多个CPU(中央处理器)或者CPU与其他专用芯片组成来实现高性能的科学计算。但这些系统成本高昂,利用效率低,编程复杂。
随着图形学的发展,以及游戏对图形处理能力需求的上升,GPU(图形处理器)出现并发展起来。ATI于1985年开发出第一款图形芯片和图形卡。
最开始的时候,GPU扮演着CPU协处理器的角色,由CPU负责逻辑任务,GPU负责图形渲染任务,当时的GPU(或称显卡),仅包含简单的存储器和帧缓冲区,只能进行图形的存储和传递,一切操作都得由CPU来控制。
随着电子技术的发展,显卡技术含量越来越高,功能越来越强大,英伟达于1999年发布GeForce 256图形处理芯片时率先提出了GPU的概念,GPU应运而生,使显卡降低对CPU的依赖,并进行部分原本属于CPU的工作。
随着GPU架构的改进和编程模型的创新,GPU开始从图形渲染扩展到数据挖掘和AI等涉及大量数据并行计算的其他领域。由于GPU拥有强大的并行运算能力,其作用已不局限于图形加速器,而是被用作通用计算。有别于CPU的优势在串行处理(CPU适合处理需要前后计算步骤严密关联的任务),GPU可以同时处理数百个线程,在短时间内完成大量的计算任务。
人工智能(AI),顾名思义,是一种模仿人类智能和思维过程的技术,需要从海量的数据中提取新的见解和进行深度学习,从而生产出一种新的、能以人类智能相似的方式作出反应的智能机器。因此,AI的发展涉及到大量的数据处理和模型训练,尤其深度学习需要对大量数据进行矩阵运算,这些数据是可以并行进行的类似运算,GPU正好能迎合这一需求,这正是GPU被誉为AI计算引擎和核心的原因。
英伟达与2006年以54亿美元收购显卡先驱ATI的AMD,是目前最主要的GPU生产商。2006年,英伟达推出通用并行计算架构CUDA——简单来说,就是与英伟达自家GPU强绑定的生态,这也是英伟达AI芯片大受欢迎的原因,许多早期工程师早就使用CUDA,也因此,要突破英伟达AI芯片的护城河,首先得突破CUDA的生态壁垒。这也是AMD在其发布会上承认所面对的障碍。
为此,AMD推出ROCm就是要用自己的生态,来抗衡英伟达的CUDA,需要注意的是,支持CUDA的GPU销量已上亿,数以千计的开发人员造就习惯使用英伟达的CUDA来解决各种问题,AMD要培育属于自己的生态或需要一段时间。
总结
AMD在之前已经透露Instinct MI300A和MI300X GPU于第4季量产推进顺利,并在第3财季业绩发布会上指出,其AI的进展较预期理想,预计第4季数据中心GPU收入约为4亿美元,到2024年将超过20亿美元。MI300有望成为AMD历史上在最短时间内达到销售额上十亿美元的产品。
可见当前市场对于AMD的AI芯片早有预期,但从AMD的业绩指引来看,AI的强劲发展或尚未在第4财季获反映,要到2024财年才能体现在业绩上。
英伟达则不然,其收入与非会计准则净利润以前所未见的加速度攀升,其AI芯片供不应求所带来的强劲收入增长已在今年的业绩中得到体现。英伟达截至2023年10月末止的2024财年第3季,该公司的收入同比大增205.51%,按季增长34.15%,至181.2亿美元;非会计准则净利润按年大增588.19%,至100.2亿美元;并预计第4财季的收入将达到200亿美元,算力和网络需求的持续强劲将带动其数据中心的强劲增长。
当前英伟达的AI芯片供不应求与价格昂贵,或许会驱使用户转向AMD,不过从短期来看,AMD要取代英伟达还需要一段时间,主要因为英伟达在AI芯片领域已先声夺人,累积了不少订单,而且有平台与生态的竞争优势保护,AMD要打破这些壁垒取而代之并非没有可能,但在短期内或难以实现。