亚马逊网络服务(AWS)宣布推出搭载其自主研发人工智能(AI)芯片的新型数据中心服务器,对Nvidia在该板块的主导地位提出挑战。苹果已确认成为客户,计划使用这些新的Trainium2芯片。AWS云计算部门透露,这些服务器将成为一个大型超级计算机的一部分,该超级计算机将包含数十万个芯片。这一消息于周二公布。
AI初创公司Anthropic将成为首家使用这项技术的公司,利用由AWS Trainium2芯片驱动的超级计算机。Anthropic以创建可靠且可解释的AI系统而闻名,将利用这一计算能力来增强其AI模型的性能。
苹果高管Benoit Dupin也承认,这家科技巨头正在使用Trainium2芯片,标志着AWS新产品的重要采用。
AWS首席执行官Matt Garman进一步透露,公司已经在开发Trainium3,这是他们AI芯片的下一代产品,计划于明年亮相。
搭载AWS Trainium2的新型Amazon Elastic Compute Cloud(Amazon EC2)实例现已全面上市,并推出了Trn2 UltraServers。这些UltraServers旨在为训练和部署现代AI模型(包括大型语言模型(LLM)和基础模型(FM))提供卓越的性能和成本效益。
Trn2实例承诺比当前基于GPU的EC2实例在价格性能上提高30-40%,并配备16个Trainium2芯片,提供20.8峰值petaflops的计算能力。这使它们非常适合处理具有数十亿参数的AI工作负载。
对于更具挑战性的AI任务,Trn2 UltraServers提供了一项新的EC2服务,配备64个互连的Trainium2芯片,可提供高达83.2峰值petaflops的计算能力。这种设置将单个实例的计算、内存和网络能力提高了四倍,能够训练和部署世界上最大的AI模型。
AWS与Anthropic之间的合作项目名为Project Rainier,旨在构建一个由Trn2 UltraServers组成的EC2 UltraCluster,一旦完成将成为世界上最大的AI计算集群。
AWS还强调了即将推出的Trainium3芯片,该芯片将采用3纳米制程节点制造,承诺将当前Trn2 UltraServers的性能提高四倍。
AWS Neuron软件开发套件(SDK)可以优化AI模型以在Trainium芯片上运行,支持JAX和PyTorch等流行框架,并与托管超过100,000个模型的Hugging Face模型中心集成。
Trn2实例目前在AWS美国东部(俄亥俄州)区域可用,计划很快扩展到其他区域。同时,Trn2 UltraServers正处于预览阶段。
本文由人工智能协助翻译。更多信息,请参见我们的使用条款。