企业如谷歌、Salesforce等已经将机器学习技术应用于数据中心,并取得了显著成果。如谷歌通过人工智能自动调整冷却设备,使冷却设备每年降低30%能耗。Maya HTT公司在数据中心基础设施管理(DCIM)软件中增加了机器学习功能,可分析服务器并检测异常情况,从而提高资源利用率。
机器学习在数据中心创新与管理的应用主要集中在以下五个方面:
1. 效率分析:通过监测温度和调节冷却系统,提高能源效率。
2. 容量规划:预测需求,避免资源耗尽。
3. 风险分析:识别异常情况,防止停机。
4. 客户流失分析:预测客户行为,优化客户关系管理。
5. 预算影响分析和建模:了解购买和维护IT设备的成本。
随着数据中心规模不断扩大,机器学习技术将成为提高数据中心效率、降低风险的关键手段。未来,更多企业将加入这一趋势,推动数据中心管理迈向更高水平。
如今,部署了机器学习工具的运营商正受益于效率和可靠性方面的初步提升,但只是才开始触及机器学习对数据中心管理具有全面影响的表面。
机器学习是人工智能的一个子集,有望优化未来数据中心运营的各个方面,其中包括规划和设计、管理IT工作负载、确保正常运行时间和控制成本。到2022年,调研机构IDC公司预测,由于嵌入了人工智能的功能,数据中心50%的IT资产将能够自主运行。
关于更多数据中心技术创新和数据中心运维管理的知识,欢迎关注2018年12月11日至13日在北京国家会议中心举办的,届时将邀请国内外知名专家为您一一解读。
“这是数据中心管理的未来,但我们仍处于早期阶段。”Uptime Institute公司研究副总裁Rhonda Ascierto表示。
随着越来越多的企业采用包括、托管设施和内部部署数据中心的混合环境,并且将越来越多地采用边缘站点,创建更加智能的数据中心变得越来越重要,IDC公司云计算和边缘数据中心趋势研究总监研究主管Jennifer Cooke表示。
Cooke说,“依靠人类的决定和直觉不会达到所需的准确性和效率水平。向数据驱动的决策转变和利用所有数据来改善结果,这是满足大规模IT服务需求的唯一可持续方式。”
超大规模企业已经将机器学习技术应用于他们的数据中心。Ascierto说,他们拥有大量的数据、内部计算资源和内部数据科学专业知识,这些对他们追求自己的机器学习计划所必需的。
一些不具备相同规模或技能的企业或数据中心提供商通过采用数据中心管理软件商或云计算供应商(例如施耐德电气、Maya HTT公司、Nlyte Software公司)提供的技术与产品,成为早期机器学习的采用者。
以下是机器学习应用在数据中心创新与管理的五个大用例:
1.效率分析
Ascierto表示,如今的组织正在利用机器学习来提高能源效率,主要是通过监测温度和调节冷却系统。
例如,谷歌公司正在使用人工智能分析21个变量,例如外部空气温度、数据中心的电力负荷和服务器后端热空气排放的空气压力,它正在使用人工智能自动管理和微调其数据中心的制冷设备。谷歌公司表示,采用的机器学习算法可以实时自动调整冷却设备,使冷却设备每年降低30%能耗。
Cooke说,机器学习还可以通过使用算法来分析IT基础设施,以确定如何好地利用资源,例如执行任务的最有效的方式或最佳时间,从而优化数据中心的效率。
此外Ascierto说,可以就设计或配置数据中心的最有效方式提出建议,包括IT设备或工作负载的最佳物理位置。
例如,总部位于蒙特利尔的Maya HTT公司在其数据中心基础设施管理(DCIM)软件中增加了机器学习功能,可以分析服务器并检测异常情况,例如运行不再使用的应用程序的“幽灵”服务器。Clarity LC公司人工智能应用和数据中心副总裁Remi Duquette解释说,它还可以发现具有较高工作负载的老旧服务器,并建议IT人员将这些工作负载转移到利用率较低的更新、更加节能的服务器上。
他说:“人们通常会有一种‘如果没有崩溃,为什么要修复它’的心态,所以他们可能不会考虑将负载转移到新的服务器来降低功耗。”
2.容量规划
机器学习可以帮助IT组织预测需求,因此它们不会耗尽电力、冷却、IT资源和空间。Ascierto说,例如,如果一家企业正在整合数据中心,并将应用程序和数据迁移到中央数据中心,那么算法可以帮助它确定移动如何影响该设施的容量。
DCIM软件供应商Nlyte Software公司首席战略官Enzo Greco表示,容量规划是构建新数据中心的重要服务,该公司最近推出了数据中心管理即服务(DMaaS)产品,并与IBM Watson合作,将其数据中心机器学习能力融入其产品中。
“企业需要尽可能精确地使用数据中心。需要多少台服务器?需要多少冷却容量?企业只需要与其拥有的服务器数量一样多的冷却容量。”他说,“另外,需要多少电力?这取决于冷却和服务器容量。“
3.风险分析
在所有用例中,使用机器学习进行风险分析是最关键的措施,因为它可以识别异常情况并帮助防止停机。“机器可以检测到工作人员无法检测到的异常情况。”Ascierto说。
例如,施耐德电气提供的数据中心管理即服务(DMaaS)可以分析关键数据中心设备(如电源管理和冷却系统)的性能数据,并预测它们何时可能出现故障。施耐德电气数据中心解决方案架构师副总裁Joe Reele表示,当算法检测到出现即将发生故障的异常情况时,系统会向客户发出警报,以便他们在设备停机之前排除故障。
通过机器学习进行风险分析,还可以通过其他方式改善数据中心的正常运行,它可以加强网络安全,并在将来帮助进行预测性维护,在需要时定期更换和维护。另一个潜在的应用是场景规划,或模拟不同数据中心配置以提高弹性。
Ascierto说,如果确实发生停机,机器学习算法也可以帮助事故分析更快、更准确地确定根本原因。
4.客户流失分析
Ascierto认为,托管服务提供商在未来使用机器学习来更好地了解他们的客户,并预测他们的行为——从购买或添加新服务到续签合同甚至支付账单的可能性。她说,这是客户关系管理的延伸,其中包括通过聊天室自动化客户参与。
Duquette说,Maya HTT公司已经分析了客户情绪,但目前没有数据中心客户使用它,通过自然语言处理,该公司的软件可以分析电子邮件和记录的支持电话,以预测未来的客户行为。
5.预算影响分析和建模
Ascierto说,可以将数据中心运营和性能数据与财务数据(甚至包括适用的税收等)相结合,以了解购买和维护IT设备的成本。
“它模拟了一件设备的总拥有成本和生命周期,例如一种冷却系统与另一种设备相比。”她说。
例如,Salesforce公司在2016年收购了一家名为Coolan的初创公司,该公司使用机器学习来分析IT设备归属到各个服务器组件的总成本。
问题是,越来越多的企业使用机器学习来执行预算影响分析。Ascierto说,一些私营公司可能会自己做这件事,但这很复杂,因为它要求财务数据能够以计算机模型可以摄取的格式随时提供。
出于安全原因,采用数据中心管理即服务(DMaaS)的客户不希望与第三方共享其财务数据。“对于数据中心管理即服务(DMaaS),让客户分享他们的财务数据在这些早期是一个棘手的主张。”她说。
Maya HTT公司再次成为该领域的开拓者之一。该公司目前提供的机器学习服务结合能力规划与预算影响分析。根据Duquette的说法,通过深度学习算法,它可以获取已有的数据——客户当前的数据中心容量和计划项目的容量,并将其与CRM软件的销售渠道进行比较,并预测未来销售将如何影响容量。
这允许客户端根据需要购买新服务器和存储设备。“他们现在可以节省成本,并及时购买服务器,而不是购买服务器相关的全套设备,它可以提供更好的预测。”
早期采用者首先解决效率和风险分析
Ascierto说,如今积极探索机器学习的供应商和数据中心运营商专注于将其用于重点:提高效率和降低风险。
例如,拥有全球200多个数据中心的托管数据中心提供商Digital Realty公司最近开始试用机器学习技术以提高效率。
Digital Realty公司运营、创新和技术总监Ted Hellewell说,该公司目前正在向第三方供应商提供DCIM数据以进行分析,该公司首先将其应用于优化冷却系统。但在未来,Digital Realty公司计划探索使用人工智能来预测未来的资源需求和预测性维护。
他表示,“希望这项技术能够为我们的运营团队带来巨大的利益,甚至超越DCIM目前提供的服务。”这些利益将由数据中心、云计算、物联网和边缘计算的指数增长以及人类管理复杂程度的能力所驱动。
“支持基础设施所需的基础系统、设备和数据的数量正在迅速超过人类消耗和处理的数量。”Hellewell说,“这将使Digital Realty公司在实时处理、响应、通信和决策方面表现更加出色。”
相关