例如,Virtual Power Systems(VPS)公司推出的“软件定义电源”解决方案,通过智能电气硬件和内置电池,在数据中心内更有效地重新分配电源。其软件ICE利用机器学习进行电源需求预测,并将配置文件发送到数据中心IT设备硬件中运行的推理引擎,以调整电力负载的效率。
Nlyte Software公司则将数据中心基础设施管理(DCIM)软件比喻为“数据中心的实时ERP”,并利用IBM沃森机器学习服务增加了预测性热量和电源管理功能。通过传感器和设备工作负载信息,沃森帮助建立模型,预测电源异常,并提前做好准备。
此外,机器学习还能帮助工作人员了解数据中心电气基础设施的冗余情况,确保设施按预期冗余配置运行。采用机器学习,数据中心可用性策略从被动变为主动,预防性维护成为可能,有效提升了数据中心的整体性能。
如今的运营和管理变得越来越复杂,这已经不是什么秘密。数据中心具有更多类型的硬件和管理软件,更改工作负载更加频繁。随着公共云的应用日益广泛,以及边缘计算即将来临,数据中心的事务将变得更加复杂。
许多业界人士都希望采用机器学习,让数据中心管理人员可以更加轻松地应对复杂的事务。一些厂商已经推出了采用机器学习算法的数据中心管理软件。有些软件从数据中心和计算机的整体角度来解决问题,而其他软件则专注于优化冷却设施或电源。虽然冷却系统是当今数据中心设施的主要能耗大户,但将智能软件工具应用于数据中心电气设备管理还有很多工作要做。
一家名为Virtual Power Systems(VPS)的初创公司正在使用机器学习来解决数据中心电力中断问题。数据中心通常拥有冗余的后备电源系统,以确保电力中断时为负载提供不间断电源,而设计人员无法预测将在何时使用这种设施。
VPS公司推出的“软件定义电源”解决方案使用智能电气硬件(包括施耐德电气等合作伙伴的设备)和内置电池,可以在整个数据中心内更有效地重新分配电源。该公司表示,随着用户需求的变化,它可以动态地完成部署。
该软件名为ICE,它使用机器学习功能进行电源需求预测(其中包括电池管理和电源峰值概率),并将配置文件发送到数据中心IT设备硬件中运行的推理引擎,然后推理引擎调整电力负载的效率。能够根据实际需要对每个机架进行调整。
“当用户拥有冗余的基础设施时,通常为机架设备提供两条不同电力来源的线路,以防止万一发生故障,可以将负载设备切换到另一条线路。”VPS公司首席技术官Karimulla Shaikh说,“这意味着用户的每条电力线路最多只能承载50%的负载容量。通过使用智能开关,可以为100%的负载提供电力。如果发生故障,它可以立即切换,并将所有负载切换到UPS电源,然后使用我们的软件将应用程序转移到别处或使部分工作负载脱机。”
由软件构建的机器学习模型也可以用作模拟器,以了解如果添加更多服务器或机架设备对电源传输的影响。
Shaikh表示,但这只是一个开始。VPS公司正在与一些客户合作,研究如何避免传统的冗余数据中心基础设施设计,并关注数据中心能源之间的动态切换,例如公用事业、燃料电池和间歇性可再生能源。
Nlyte Software公司首席战略官Enzo Greco将其数据中心基础设施管理(DCIM)软件比喻为“数据中心的实时ERP(企业资源规划)”,最近采用IBM公司沃森机器学习服务的解决方案增加了预测性热量和电源管理功能。沃森可以帮助建立基于传感器、设备和应用程序工作负载信息的模型。Greco表示,在许多情况下,收集所有数据已经变得相当容易,那么为什么不利用它来获得更多优势呢?
许多设备都具有温度和湿度传感器,实时提供服务器数据和电源数据。Greco说:“无论是UPS还是PDU,这些数据都可以从现代设备中获得。”机器学习系统可以发现不同系统和端点之间的隐藏模式和相互作用。
“我们能够预测任何时候的服务器和机架级别的电源异常。”Greco说,“在稳定状态下,机架设备可能消耗10kW的功率,但在某些时候,它可能会达到15kW。有了足够的历史数据,用户就可以预测机架设备何时消耗15kW的电源。负载高峰可能是在批处理模式下运行负载,或者可能是交易系统正在高峰运行。”
他说,如果可以预测负载高峰,就可以通过减少或转移工作负载,关闭服务器,或对UPS电池进行一些预防性维护来做好准备。
Nlyte公司大多数的客户都在使用机器学习系统来获取警报,并了解潜在的问题区域。该软件公司还在开发预测故障和预防性维护模块。“功率和热量是预测故障的非常好的指标。”Greco说,“如果可以预测电力异常,那可能就是这些主要指标的应用问题,或者可能发生机械问题。”
除了检测异常比工作人员更快之外,机器学习还可以帮助工作人员更清楚地了解其设施中电气基础设施的冗余情况。Uptime Institute公司研究副总裁Rhonda Ascierto表示,“这将确保数据中心设施按照用户预期的冗余配置进行操作,尽管这些设施的性质在不断变化。”
采用机器学习有可能将数据中心可用性策略从被动变为主动。“UPS电源是一种反应性设备,需要一直等到电源发生故障,然后将故障转移。”他解释说,“UPS电源在电力中断之后快速反应,这是被动的。而积极主动意味着不再等待,也就是说与其将来遇到问题,不如现在解决。”
相关