基于海量数据和 GPU 加速器的机器学习技术现在已经有将近十年的历史了。它们最初由世界上的超大规模者部署,他们拥有大量数据并且需要使用它来提供更好的搜索引擎或推荐引擎结果。但现在机器学习正在成为主流,这意味着它是一个完全不同的游戏。
世界上的企业和政府组织不会有无限的资金用于基础设施建设。他们需要弄清楚他们将如何在他们的应用程序中使用人工智能技术以及支持它的基础设施类型,然后在他们已经有很多其他事情要做的情况下找到做这个新事物的预算。
尽管存在所有这些问题,人工智能正在成为主流,浪潮现在是戴尔和惠普企业之后的全球第三大服务器制造商,结果证明是英伟达 GPU 的最大供应商。因此,它为市场带来了一些独特的洞察力,并利用其工程来创建针对机器学习训练和机器学习推理工作负载的独特服务器。
为了进一步了解浪潮如何看待 AI 市场的增长和变化,我们与浪潮信息全球 AI 和 HPC 总监 Vangel Bojaxi 坐下来讨论IT 基础设施解决方案。Bojaxhi 过去 6 年一直在浪潮信息工作,在此之前,他是著名的石油和天然气行业地震服务和软件提供商 Schlumberger/WesternGeco 的首席 IT 解决方案架构师,作为 IT 架构师,他自然对将 AI 技术应用于地震和油藏建模 HPC 应用程序感兴趣。
浪潮于 1993 年在中国交付了第一台面向小型企业的 X86 服务器,并从那时起稳步发展。2010 年,随着超大规模者、云构建者和其他服务提供商在其国内市场的崛起以及浪潮正在向其他地区扩张,该公司开始了联合设计制造方法。这项服务为非常大的客户提供了一种协作体验,将大批量 OEM 业务的最佳部分与 ODM 的定制设计选项相结合。
浪潮是由 Facebook 发起的开放计算项目和由 IBM 和谷歌发起的 OpenPower 基金会的成员。它还是云控制器软件项目 OpenStack、由 LinkedIn 发起的 Open19 小组的成员,该小组正在将 OCP 技术引入标准的 19 英寸服务器机架,以及开放数据中心委员会 (ODCC),一个致力于开发开放数据中心委员会(ODCC)发起的通用机架和数据中心设计是由最初的天柱项目成员阿里巴巴、百度、腾讯等和英特尔在OCP成立后不久联合建立的。
那么,如今浪潮有多少业务是由人工智能驱动的?相当一点。
“目前,我们可以说 AI 服务器约占公司 X86 服务器整体出货量份额的 20%,我们预计在未来五年内,这一比例将逐渐增加到 30% 以上,”Bojaxhi 告诉The Next平台。“我们认为人工智能将成为每个浪潮系统的核心,是每个行业数字化转型的催化剂。四年来,我们围绕四大支柱——人工智能算力的持续创新、深度学习框架、人工智能算法和应用优化——推动浪潮成为人工智能的领导者。因此,人工智能服务器产品线已成为公司历史上增长最快的业务板块之一。”
我们知道,浪潮及其在服务器行业的竞争对手拥有广泛而深入的产品组合,浪潮是OEM和ODM中唯一一家销售基于Intel和AMD的X86处理器以及IBM的Power处理器的服务器的公司,这些都是独一无二的。因为 Power9 芯片具有本地 NVLink 端口,可以将 CPU 与 Nvidia “Volta”和“Ampere”GPU 加速器紧密耦合。看到供应商提供的产品总是很有趣,但了解客户实际上在做什么以支持现实世界中的 AI 培训和 AI 推理工作负载,这很有启发性。
“虽然我们销售一些带有两个或四个 GPU 的较小配置,但客户越来越多地部署带有八个或更多 GPU 的服务器来处理 AI 训练工作负载,”Bojaxhi 解释道。“这是因为数据量呈爆炸式增长,模型的复杂性呈指数级增长,这给系统带来了巨大的性能提升压力。这就是浪潮设计像NF5488A5这样的服务器的原因,它由八个 Nvidia “Ampere” A100 GPU、两个 AMD “Rome” Epyc 7002 处理器和 NVSwitch 互连提供支持,它打破了许多 AI 基准并吸引了我们许多客户的兴趣。也就是说,浪潮并没有忽视对人工智能推理不断增长的需求。与我们合作的分析师认为,到 2020 年,推理占所有 AI 计算能力的 43%,预计到 2024 年,推理将超过训练,即超过 51%。”
我们认为从长远来看,计算驱动的 AI 推理可能比 AI 训练大 2 倍或 3 倍,甚至更多 X,但很难给出一个数字,因为我们不知道计算量会是多少在边缘完成,以及有多少边缘计算将是人工智能推理。Bojaxhi 同意它有可能使用于 AI 培训的数据中心的 AI 处理能力相形见绌。它可以通过与超大规模企业、云构建者和其他大型服务提供商的 JDM 方法率先设计机器,然后将该设计用作其销售给其他大型企业甚至小型企业的商业阵容的基础。可能开始在云中训练 AI 模型,但在本地部署生产 AI 集群的中型企业。而且,具有讽刺意味的是,
其他三个流行的 AI 训练服务器包括 NF5468A5,它有两个 AMD “Milan” Epyc 7003 处理器和八个直接连接到处理器的 Nvidia “Ampere” A30、A40、A100 GPU 加速器,以及NF5468M6,它有一对英特尔的“ Ice Lake”至强 SP 处理器和系统上的 PCI-Express 4.0 交换机,支持 CPU 和 GPU 之间的多种互连拓扑。NF5468M6的4U服务器机箱支持8个Nvidia A30或A100加速器、20个Nvidia A10加速器或20个Nvidia T4加速器。该NF5280M6具有在2U外形加四Nvidia的A10,A30,A40,A100或促进剂或8个的Nvidia T4加速器一对制冰湖至强SP服务器。
无论如何,浪潮都可以在边缘和数据中心销售设备,用于训练或推理,并根据需要基于 CPU、GPU 或 FPGA。该公司可以修改这些系统以包括支持 PCI-Express 链接回处理器的 FPGA 或定制 ASIC。
这将我们带到了最后一点:支持 AI 推理工作负载的计算分布。
众所周知,世界上的大部分推理都是在 X86 服务器上完成的,但有一种趋势是将一些推理工作负载从 CPU 转移到加速器上。Bojaxhi 表示,在 2020 年,根据自己的客户,一旦客户决定卸载 CPU 的推理以获得更好的性价比和整体性能,其中大约 70% 的客户选择了基于“图灵”的 Nvidia T4 加速器TU104 GPU,与旨在运行 AI 训练和 HPC 模拟和建模工作负载的更强大的 GPU 相比具有优势。剩余的加速推理分为 22% 的 FPGA 和 8% 的定制 ASIC。展望 2024 年,预测表明 GPU 将下降至 69% 的推理计算,FPGA 将下降至 7%,而 ASIC 将上升至 16%。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都浪潮Inspur服务器总代理
【销售经理】李经理
【联系方式】座机:028-85596747 手机:13540160369
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码