本文中,我们将与您一起来看看机器学习所具备的改善数据中心的潜力。
对于谷歌公司的工程副总裁Ben Treynor Sloss来说,未来的数据中心不仅仅将受益于机器学习,同时,其运行也将是由AI推动的。 Sloss指出,通过采用谷歌自己的DeepMind机器学习系统,该公司实现了大量的成本节省。自2016年开始,其DeepMind机器学习系统对于这家技术巨头数据中心的运营就已经发挥了举足轻重的有帮助的重要作用了。DeepMind系统通过调整服务器的运行方式和数据中心内部电力和冷却设备的运行,显着提高了数据中心的能效。使得其节能减排达到了40%。而如果在谷歌全球所有的数据中心都推出类似的系统的话,那么,该公司每年可以节省数千万美元。
对于Belatrix软件公司的共同创始人兼总裁Alex Robbio来说,机器学习和人工智能的应用潜力不仅仅是电源管理。长期以来,Robbio一直致力于对神经网络和机器学习的研究工作,在Belatrix公司内部,他创建了一个研究小组来研究不同AI和机器学习框架在客户项目中的应用。Belatrix公司拥有的500多名工程师中,有95%的工程师在为该公司数据中心的客户服务,因此在这些环境中应用机器学习解决方案尤其令这些工程师们感兴趣。
Robbio设想了一个场景,就像自动无人驾驶汽车的承诺一样,未来我们将拥有自驱动的数据中心,这些数据中心将负责运行自驱动的计算机,而这些计算机则又将运行自运行的软件。他表示,尽管谷歌公司使用DeepMind来优化电源管理的确令人兴奋,但我们很快就会看到,在数据中心环境中还有很多机器学习和人工智能的其他应用。
DFINITY网络公司的运营总监兼通信主管Artia Moghbel表示,AI目前已经在数据中心中得到广泛使用了,通过识别低效率和节省成本的机会来帮助企业数据中心降低运营成本,特别是与数据中心相关的运营变量(如冷却风扇,窗户等等因素)。
机器学习如何在数据中心运营实践中发挥作用?
下一步,就是使用AI来管理数据中心运行的其他物理方面。 “我们可以看到,机器人负责管理数据中心的物理网络。如果你企业有一台在网络中正在执行某项任务的错误机器,例如,该机器可能已经被病毒感染,通常软件会被分离出来,通知操作人员需要做些什么补救措施。”Robbio补充说AI就可以在这方面发挥作用。
“软件没有能力在这些情况下采取措施。但是,通过机器学习,您数据中心可以采取主动或被动的措施,数据中心可以自动将设备从网络上解除耦合,而无需人为干预。”
他补充说,这并不一定意味着机器人就会像科幻小说中所经常出现的那样是人形的机器人。“这是关于插拔网卡的物理行为,而不是一个复杂的机器人。” Robbio说。
创建机器学习IT分析工具的SIOS技术公司总裁兼首席执行官Jerry Melnick补充说,虚拟环境已经迅速成为许多数据中心的核心——负责运行企业最为重要的业务应用程序。Melnick说,这一趋势已经超过了传统的数据中心管理和优化方法。大多数企业的IT团队仍然沿着计算]存储、应用和网络的传统物理孤岛进行组织,并结合使用手动专有技术和依赖单一的“阈值”分析的工具。
“今天,虚拟环境对于人类来说是非常复杂和动态的。如果没有一种有效的方法来查看虚拟基础设施孤岛,以及组件之间的交互,IT就会因为性能问题,容量超限和其他意想不到的后果而陷入困境。”Melnick说。这就是AI发挥其用武之地的时候了。先进的机器学习和深度学习分析工具通过即时识别虚拟环境中应用程序性能问题的根本原因,并通过推荐解决问题的具体步骤来解决此问题。
“他们将目光投向IT孤岛,了解虚拟系统中相互关联的组件之间的复杂的行为模式。这使得他们能够识别即使是复杂的,微妙的交互,比如“嘈杂的邻居”场景,其中一台虚拟机的性能下降可能是由共享资源的其他虚拟机的行为引起的。最为重要的是,先进的机器学习分析工具可以根据过去的行为预测何时会出现性能问题。”他说。
Robbio相信,更长远的来看,我们将可以拥有完全自动化的数据中心。“你企业可以仅仅提供服务器和设备,而由机器学习算法控制的机器人负责进出运营,这些机器人可以主动处理数据中心的维护工作。”由于数据中心的维护工作成本非常昂贵,这可能会为企业节省大量的成本。
Robbio认为,机器学习潜力的另一个领域是逻辑上的。随着机器学习的发展,企业决策将成为部署维护数据中心的软件功能的一部分。 Robbio说:“大部分软件都是基于规则的,没有能力根据过去的模式做出决定,但是机器学习有可能应用更多的模糊逻辑,识别可能的模式,并在此基础上作出决定。”
IBM公司分析开发副总裁Dinesh Nirmal对此表示赞同。 “未来,数据中心将转变为自我优化、自我管理——根本原因分析和预测/减少设备热点等等都将是自动化的。”Nirmal认为,未来,数据中心应该能够通过自身运营。例如,AI应该知道应该打什么样的补丁,何时应用这些补丁。其应该能够进行异常检测,监视如何看待意外的机器故障。”
Moghbel说,尽管业界在数据中心使用人工智能(AI)领域还处于初级阶段,但它在下一代数据中心(如分散式云)中的应用可能被证明是至关重要的。例如,在分散式云计算机的例子中,关于如何存储和管理信息的决定可能落在人类决策的手中,所有这些人可能并不都同意是否应该实施新的代码来改进网络的效率。
Moghbel说:“通过像Dfinity技术公司一样使用AI和自我管理的系统,这些类型的决策将受到算法的控制,从而确保平台的凝聚力,并在整个网络中及时高效地执行操作更新。”
然而,在数据中心实现人工智能和机器学习并非没有挑战,即使是在最基本的部署阶段。其并不只是单纯的技术,同时也存在相应的使用障碍。而Robbio说,这关乎到现有数据的数量,质量和性质。
“挑战在于更多地收集和理解数据,因为您需要大量数据才能使这些应用程序正常工作。他说,并不是所有的设备都装备齐全,而且并不是所有的设备都有记录功能,没有共同的标准,所以把这些设备整合在一起,进行清理,并需要将他们放在机器学习算法可以学习的格式中。”
数据中心的机器学习是否会造成人才短缺?
对于那些希望在数据中心部署机器学习的人来说,另一大绊脚石可能是人才的缺乏。“获取数据是一回事,但让人们自如的使用数据却是另一回事。”Robbio警告说,机器学习和人工智能与传统开发人员的所学完全不同。“开发人员倾向于以基于规则的思维模式进行思考,而机器学习需要一个不同的思维过程。让人们拥有这种思维和经验是非常困难的。这就是为什么你看到像谷歌这样的公司试图针对所有的开发人员进行机器学习方面的培训的原因。”
NetApp公司的云战略和布道师Michael Elliott说,机器学习和AI的部署应该像其他业务自动化程序一样对待。企业高管们应该问:你企业最终想从数据洞察分析中获得什么?
Elliott补充道:“企业CXO级别的高层管理人员们还应该考虑为他们的业务提供最佳的存储基础架构,以及他们想向客户提供什么样的产品和服务。一旦建立起来,保持数据管理和保护的首要目的就是维持控制权,而在机器学习的帮助下最大程度地减少一些日常的障碍,人工智能的进步将保持数据管理方面的风险的缓解。”
Nirmal警告说,转向人工智能不是一个容易的过渡过程。“企业组织需要做大量的测试。 针对这项任务所做的准备越是充分,该任务的进展就会越顺利,数据中心故障恢复处理的成本远远高于实施AI或机器学习的成本。但是这一切都始于对于您所想要完成的任务的充分理解。”