使用DC/OS为企业数据科学加速
2019/10/22 11:01:16

这篇逐步介绍的教程介绍了使用Tensorflow将DC/OS Data Science Engine设置成PaaS,用于支持分布式多节点多GPU模型训练。
作为一名专注于构建和交付新产品的全栈机器学习顾问,我常发现自己处于数据科学、数据工程和开发运维的交汇点。因此,我一直非常关注数据科学平台即服务(PaaS)的兴起。我最近着手评估不同的平台即服务(PaaS)及其使数据科学操作实现自动化的潜力。我在探究它们的功能,然后使用一个或多个PaaS使代码的设置和执行实现自动化。
为什么是DC/OS Data Science Engine?
在任何一个给定的云环境,比如亚马逊网络服务(AWS)、谷歌云平台(GCP)和微软Azure,设置Jupyter笔记本(notebook)变得很容易,以便数据科学家个人能够工作。对于初创公司和小型数据科学团队来说,这是一个很好的解决方案。什么都不需要维护,笔记本可以保存在Github中以实现持久性和共享。
对于大型企业来说,事情可没有这么简单。在这种规模下,由于环境和建模变得不可重现,跨多云的短暂资产上的临时环境会带来混乱而不是有序。企业跨多云和在本地运作,有特定的访问控制和验证要求,需要能够访问内部资源,用于数据、源控制、数据流及其他服务。
对于这些组织而言,DC/OS Data Science Engine提供了统一的系统,该系统提供Python机器学习堆栈、Spark、Tensorflow及其他深度学习框架,包括TensorFlowOnSpark,以实现分布式多节点多GPU模型训练。这是非常引人注目的方案,设置后直接可以使用,为大型的数据科学团队和公司大大消除了沮丧和复杂性。
AWS上的Data Science Engine
DC/OS Universal Installer是一个terraform模块,可轻松启动DC/OS集群,带有用于训练神经网络的GPU实例。这里有个地方要注意:你拥有足够多的通过亚马逊的服务限制授权的GPU实例。AWS Service Limits定义了你可以在任何给定区域使用多少AWS资源。默认分配的GPU实例为零,可能需要一两天才能授权更多实例。如果你需要加快速度,可以进入到AWS支持中心,请求与专员联系。他们通常可以大大加快进程。
想使用Terraform引导集群,我们只需要在paas_blog/dcos/terraform/desired_cluster_profile.tfvars中编辑下列变量:
cluster_owner = "rjurney"  dcos_superuser_password_hash = "${file("dcos_superuser_password_hash")}"  dcos_superuser_username = "rjurney"  dcos_license_key_contents = ""  dcos_license_key_file = "./license.txt"  dcos_version = "1.13.4"  dcos_variant = "open"  bootstrap_instance_type = "m5.xlarge"  gpu_agent_instance_type = "p3.2xlarge"  num_gpu_agents = "5"  ssh_public_key_file = "./my_key.pub" 
并运行下列命令:
bash  terraform init -upgrade  terraform plan -var-file desired_cluster_profile.tfvars -out plan.out  terraform apply "plan.out" 
apply命令的输出将包括一个或多个主节点的IP,这只对你的IP开放。打开master url会显示登录屏幕,你可以使用Google、Github、微软或预先配置的密码来验证身份。
一旦你完成这步,想拆除集群,请运行:
bash  terraform destroy --auto-approve --var-file desired_cluster_profile.tfvars 
可以从DC/OS Web控制台找到Data Science Engine以及Catalog菜单上的其他诸多服务,比如Kafka、Spark和Cassandra。我们只需要选择“data-science-engine”软件包,配置提供服务的资源:CPU、RAM和GPU。如果需要,还有许多其他选项,但它们不是必需的。
一旦我们点击了Review & Run并确认,将进入到服务页面。几秒钟内完成部署后,我们只需点击服务名称上的箭头,便进入到JupyterLab实例。
JupyterLab的Github模块很出色,已预先安装,可以轻松加载

下一页
返回列表
返回首页
©2024 人工智能世界_专注人工智能领域,汇集人工智能技术资料 电脑版
Powered by iwms