开放工程联盟MLCommons发布了最新的MLPerf Training v2.0结果,浪潮AI服务器在封闭分区单节点性能方面领先。
MLPerf 是全球最具影响力的 AI 性能基准。它由MLCommons管理,成员来自50多家全球领先的人工智能公司和顶级学术机构,包括浪潮信息、谷歌、Facebook、NVIDIA、英特尔、哈佛大学、斯坦福大学和加州大学伯克利分校。MLPerf AI Training基准测试每年举办两次,追踪计算性能的提升,为用户提供权威的数据指导。
最新的MLPerf Training v2.0吸引了包括浪潮信息、Google、NVIDIA、百度、Intel-Habana、Graphcore在内的全球21家厂商和研究机构参与。共有 264 份投稿,比上一轮增加了 50%。八个 AI 基准测试涵盖了当前主流的 AI 场景,包括 ResNet 图像分类、3D U-Net 医学图像分割、RetinaNet 轻量级目标检测、Mask R-CNN 重量级目标检测、RNN- 语音识别等。 T,使用 BERT 进行自然语言处理,使用 DLRM 进行推荐,使用 MiniGo 进行强化学习。
在单节点系统的封闭划分基准测试中,浪潮信息凭借其高端AI服务器在BERT的自然语言处理、DLRM的推荐和RNN-T的语音识别方面表现最佳。它在单节点系统提交者中赢得了最多的称号。在搭载8颗NVIDIA A100 Tensor Core GPU的主流高端AI服务器中,浪潮信息AI服务器在5项任务(BERT、DLRM、RNN-T、ResNet和Mask R-CNN)中名列前茅。
AI计算性能持续领先
浪潮AI服务器通过软硬件全面优化,不断实现AI性能突破。与 2018 年的 MLPerf v0.5 结果相比,浪潮 AI 服务器对于典型的 8-GPU 服务器模型表现出高达 789% 的显着性能提升。
浪潮AI服务器在MLPerf中的领先性能得益于其出色的AI设计创新和全栈优化能力。针对AI训练中密集I/O传输的瓶颈,浪潮AI服务器采用PCIe无重定时器设计,实现CPU与GPU的高速互联,降低通信时延。针对高负载、多GPU协同任务调度,优化NUMA节点与GPU之间的数据传输,保证训练任务中的数据I/O处于最高性能状态。散热方面,浪潮信息率先部署8颗500W高端NVIDIA Tensor Core A100 GPU4U空间,支持风冷和液冷。同时,浪潮AI服务器持续优化预训练数据处理性能,采用超参数、NCCL参数等组合优化策略,以及NVIDIA AI软件栈提供的诸多增强,最大限度提升AI模型训练性能。
大幅提升Transformer训练性能
基于 Transformer 神经网络架构的预训练大规模模型导致了新一代 AI 算法的发展。MLPerf 基准测试中的 BERT 模型基于 Transformer 架构。Transformer 简洁可堆叠的架构使得训练海量参数的海量模型成为可能。这导致了大模型算法的巨大改进,但对AI系统的处理性能、通信互联、I/O性能、并行扩展、拓扑结构和散热提出了更高的要求。
在BERT benchmark中,浪潮AI服务器通过优化数据预处理、改进NVIDIA GPU之间的密集参数通信以及自动优化超参数等方法,进一步提升了BERT训练性能。浪潮信息AI服务器可完成约3.3亿参数的BERT模型训练使用来自维基百科数据集的 2,850,176 条数据仅用了 15.869 分钟,与 Training v0.7 的最高性能 49.01 分钟相比,性能提升了 309%。至此,浪潮AI服务器连续第三次获得MLPerf Training BERT benchmark。
浪潮信息在MLPerf Training v2.0中得分最高的两款AI服务器是NF5488A5和NF5688M6。NF5488A5 是世界上首批在 4U 空间中支持八个采用 NVIDIA NVLink 技术的 NVIDIA A100 Tensor Core GPU 和两个 AMD Milan CPU 的服务器之一。它同时支持液冷和风冷。它总共赢得了 40 个 MLPerf 冠军。NF5688M6 是一款可扩展的 AI 服务器,专为大规模数据中心优化而设计。支持8颗NVIDIA A100 Tensor Core GPU和2颗Intel Ice Lake CPU,最高支持13个PCIe Gen4 IO,共获得25个MLPerf冠军。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都浪潮Inspur服务器总代理
【销售经理】李经理
【联系方式】座机:028-85596747 手机:13540160369
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码