今天,我们来谈谈服务器功耗。具体来说,有几个简单的步骤可以将功率降低相当大的数量。随着我们进入 2022 年及以后的机架式服务器时代,随着芯片和系统变得越来越密集,芯片的 TDP 和功耗正在上升。此外,许多公司都有可持续发展目标,因此节能意味着节省资金并更快地实现这些可持续发展目标。在这种背景下,有一些相对简单的方法可以降低数据中心的功耗,而无需成为完全控制环境的超大规模架构师。我们今天将介绍其中的一些。
我们将很快注意到,英特尔正在赞助这项活动并提供 Xeon Platinum CPU,同时我们正在使用我们在 使用 AWS EC2 M6i 实例的停止离开性能表中运行的部分工作负载。此外,浪潮还提供了 我们评测过的浪潮 NF5280M6以及我们将在 3 月份评测的 NF5180M6服务器。我们已经在实验室中使用了 HPE 电源。这种类型的测试需要大量的用品,所以我们在这里需要帮助。与往常一样,我们在编辑上独立完成这篇文章,没有公司在这些文章上线之前对其进行评论。
1U 与 2U 服务器
我们之前研究过的一个领域是 1U 与 2U 服务器效率的传统智慧。当我们在 2018 年查看这一点时,在测试 1U v 2U 功耗的传统智慧时,我们使用了 1U Dell EMC PowerEdge R640 和 2U R740xd。测试平台并不相同,因此我们实际上看到 R640 的功耗更低。关键是配置很重要,因此获得相同的平台将是关键。这一次,我们使用浪潮NF5280M6和NF5180M6重新进行测试。我们正在配备相同的处理器,即 Intel Xeon Platinum 8362 CPU。这些是第三代 Intel Xeon 可扩展“Ice Lake”处理器,每个处理器有 32 个内核。我们向英特尔询问了这些 SKU,因为它们非常适合当前的 VMware 和 Microsoft 许可。两个浪潮系统的好处是主板几乎相同。每个都填充了几个不同的标题,但我们取消填充它们以获得更可靠的数字。
然后,我们运行我们的加速工作负载,包括 AVX-512 HPC 工作负载、Tensorflow 和我们的加密 Web 加速 WordPress 工作负载,并注意到两个平台之间的差异。我们还发现,浪潮平台有一个风扇功耗传感器,因此我们可以跟踪 PDU、电源和风扇的功耗(也有 CPU 和内存传感器,但两者之间是相似的)平台。)
这是 NF5180M6 中的同一组,我们将在 3 月份进行正式审查。正如我们预期的那样,系统之间的性能几乎相同,在我们的运行集之间没有显着差异。然而,功耗是不同的。
这里重要的一点,也许是最有趣的一点,是两台服务器之间的风扇功耗读数。1U 服务器为蓝色,2U 为黑色。
这次我们发现,与 1U 平台相比,我们最终在 2U 平台上使用的总系统功耗降低了 0.1-1.1%,这完全归功于粉丝。我们在系统之间交换了组件,以便我们使用相同的 CPU、RAM、SSD、NIC 和电源。除了一些未填充的接头外,主板是相同的型号。实际上,由于浪潮和许多其他供应商这些天构建服务器的方式,我们能够有效地将更改隔离到冷却增量。
关键的一点是,我们确实看到了显着的功耗增量,尤其是随着功耗的增加。这将根据服务器型号和配置而有所不同,但这很有意义。如果您正在寻找效率,那么使用低密度 2U 系统可能是值得的。随着芯片 TDP 的上升,这将在 2022 年晚些时候及以后变得更加重要。许多组织将能够使用密度较低的 2U 机箱,以利用这些效率,因为机架级功率预算可能无法处理顶级 1U 配置。这也是我们在 STH 更加关注液体冷却的原因之一. 在我们测试的 8x GPU 系统上,专用于冷却的功率百分比继续上升到我们看到 20% 的系统功率用于冷却的程度。
高效电源
早在 2019 年,我们就简单地添加了虚拟机,看看我们是否可以使用 80Plus Platinum 与 Titanium PSU 获得更好的电源效率。我们 测试了 HPE ProLiant 800W 80Plus Platinum 和 Titanium PSU,基本上只是将相同的虚拟机添加到服务器,以在每个虚拟机上生成少量增量负载。
在空闲时,两者之间没有明显的区别。当我们接近额定电源的一半时,就 PDU 的总功耗而言,我们看到大约 1.5-2% 的增量。
这不是很大,但很容易。另一个含义是,需要针对预期工作负载大小的电源。为使用 100-500W 的服务器获得 2kW 电源并不能将其置于许多现代电源的效率范围内。在我们用于这些测试的两台测试服务器中,我们看到使用 1.3kW 电源与 1.6kW Inspur 电源相比,功耗数据降低了约 0.3%。这些都是白金级效率 PSU,因此区别在于额定级别的电源效率。
作为此处的快速说明,您还可以从120V 移动到 208V或更高,并获得电源效率增益。我们在 2015 年对此进行了测试,通过提高到 208V 看到了大约 2% 的功率效率优势,通常还有 0.25% 左右进入更高的 220-240V。
这里的关键是,迁移到更高电压的机架和更高效率的电源可以节省高达 3-4% 的功耗。
尽管如此,让我们远离小项目,展望未来加速器如何改变游戏规则,以及为什么当前的一些比较实际上并不理想。
使用加速器获得巨大收益
在几周前关于使用加速器进行 AI、加密和 HPC 工作负载的文章之后,我们被问到的一个问题是关于功耗增量的。由于我们在 AWS 中完成了最后一项工作,因此我们无法访问该数据。因此,为了获取这些数据,我们只需使用运行相同工作负载的浪潮服务器来查看我们会得到什么。有了这个,我们看到了一些相当大的差异。关于这一点的一个关键说明是方法论。进行加速器与无加速器的最大挑战之一就是进行有用的比较。我们倾向于运行需要几分钟或几小时的较短工作负载,但现实世界的系统运行 24×7。此外,如果使用加速 Aa 和无加速 An 的工作负载 A 在不同的速率和不同的时间段内执行,则更难比较 Aa 和 An 之间的功耗。我们所做的只是在主运行中平均功耗。我们将数据与服务器传感器数据联系起来,并且还使用可靠的 Extech 380803 TrueRMS 功率计在系统和 PDU 以及 PDU 之间进行监控。这为我们提供了 PDU 数据以及系统 PSU 数据,然后我们可以将这些数据与工作负载的时间间隔联系起来。这些工作负载中的每一个都有一段时间以持续的性能水平运行,这就是我们在这里使用的。然后我们可以获得持续部分的平均功耗和平均性能,并获得一些不错的功率/性能比。
最后的话
当我们完成这个练习时,一些见解脱颖而出。
理清电源情况,使用优质电源,即使坚持交流电源和普通200-240V电源,也能降低3-6%的功耗。这是正确的一个重要问题。
随着系统达到更高的功率水平,我们将看到 15% 以上的服务器功率用于冷却。使用 2U 机箱而不是 1U 机箱意味着我们可以获得部分电源。最终,这将推动密集系统采用液体冷却,尤其是在高端系统达到 20% 的水平时。
使用 PCIe 加速器的影响不仅仅是封装功率。增加的冷却成本成为功率预算的重要组成部分,尤其是在高端系统中。在冷却占总功耗百分比较低的低功耗系统中,添加专用加速器的影响较小。
最终,在 CPU 中安装加速器不仅仅是性能提升。使用加速器的功耗优势可能是巨大的。我们在这里使用了 Intel Ice Lake 一代 CPU,因为它们基本上是第一个具有这种加速水平的通用 CPU。随着时间的推移,其他供应商将添加自己的加速器。我们还知道,下一代 Sapphire Rapids Xeons 将为 AI 和其他工作负载提供更多内置加速功能,因为性能和效率提升如此之高。
我们在此处介绍的内容可能与您在其他服务器供应商、CPU SKU、配置等方面看到的内容有所不同。不过,基本原则应该适用。据全球最大的数据中心运营商之一 Digital Realty 称,全球约3% 的电力输出用于电力数据中心。使用当今存在的技术来提高 10% 以上的电源效率不仅可以节省资金,而且还可以直接影响全球计算基础设施的环境负担。
每个人在设施、预算等方面都有限制,但我们将在这个领域敦促读者注意并思考看似微小的选择对能效的影响。
【公司名称】四川旭辉星创科技有限公司
【代理级别】成都浪潮Inspur服务器总代理
【销售经理】李经理
【联系方式】座机:028-85596747 手机:13540160369
【公司地址】成都市人民南路4段 桐梓林 商鼎国际2号楼1单元1913
请用微信扫描二维码