tencent cloud

文档反馈

在 EKS 上运行深度学习

最后更新时间:2021-12-03 15:54:15

    操作场景

    本系列文章将记录在 EKS 上部署深度学习的一系列实践,从直接部署 TensorFlow 到后续实现 Kubeflow 的部署,旨在提供一个较完整的容器深度学习实践方案。

    前提条件

    本文将在上一篇文档 构建深度学习容器镜像 基础上继续操作,利用自建集群,在 EKS 上运行深度学习任务。
    自建镜像已上传到镜像仓库中:ccr.ccs.tencentyun.com/carltk/tensorflow-model,无需重新构建,可以直接拉取使用。

    操作步骤

    创建 EKS 集群

    请参见 创建集群 文档创建 EKS 集群。

    说明:

    由于需要运行 GPU 训练任务,在创建集群时,请注意选择的容器网络所在区的支持资源,选择支持 GPU 的可用区,如下图所示:

    创建 CFS 文件系统(可选)

    容器将在任务结束后,自动删除容器并且释放资源。因此为了实现对模型和数据的持久化存储,建议通过挂载外部存储的方式持久存储数据。目前支持 云硬盘 CBS文件存储 CFS对象存储 COS 等方式。

    本文示例将利用 NFS 盘的方式,使用 CFS,实现于多读多写的持久化存储。

    创建文件存储

    1. 登录 文件存储 CFS 控制台,进入“文件系统”页面。
    2. 单击创建,在弹出的“新建文件系统”页面中,选择文件系统类型,并单击下一步:详细设置
    3. 在“详细设置”页面进行相关配置,CFS 类型信息与配置细节可参见 创建文件系统及挂载点 文档。如下图所示:
      注意:

      创建的 CFS 地域,需确保与集群在同一地域。

    4. 确认无误之后单击立即购买并完成付费即可创建文件存储。

    获取文件系统挂载信息

    1. 在“文件系统”页面,单击需获取子目标路径的文件系统 ID,进入该文件系统详情页。
    2. 选择挂载点信息页签,从 “Linux下挂载” 获取该文件系统挂载信息。如下图所示:
      说明:

      在挂载点详细中需要记住 IPv4 地址,IPv4 将作为 NFS 路径,后续配置挂载时需要,例如 10.0.0.161:/

    创建训练任务

    本文任务以 MNIST 手写数字识别数据集,加两层 CNN 为例,相关示范镜像为上一章 自建镜像,如需自定义镜像,请参见 深度学习容器镜像构建 文档。以下提供两种创建任务的方式。

    由于深度学习任务的性质,本文以部署 Job 节点为例。如何部署 Job 请参见 Job 管理 文档。
    以下提供控制台的部署范例:

    1. 数据卷(选填)配置项中,选择 NFS 盘,并输入上述步骤创建的 CFS 名称和 IPv4地址。如下图所示:
    2. 实例内容器中的挂载点配置项里,选择数据卷,并配置挂载点。

      >!
      >- 因为数据集可能需要联网下载,所以需要配置对集群的外网访问。详情请参见常见问题 公网访问相关
      >- 选择 GPU 型号后,在填写 request 和 limit 时需要为容器分配符合 资源规格 的 CPU 和内存,实际填写并不严格要求精确到个位。
      在控制台中配置,也可以选择删除默认配置以留空,即为“不限制”,也会有对应的计费规格;更推荐这种做法。
      >- 容器运行命令 command 继承 Docker 的 CMD 字段,而 CMD 指令首选 exec 形式,不调用 shell 命令。这意味着不会发生正常的 shell 处理。因此命令需要 shell 形式运行,就需要在前面添加 "sh","-c"
      在控制台输入多个命令和参数时,每个命令单独一行(以换行为准)。

    查看运行结果

    以下提供控制台和命令行两种方式查看运行结果:

    在创建 Job 之后,默认进入 Job 管理页面。您也可以通过以下步骤进入 Job 管理页面:

    1. 登录容器服务控制台,在左侧导航栏中单击弹性容器 > 弹性集群
    2. 在弹性集群列表中,单击需要查看的事件集群 ID,进入集群管理页面。
    3. 选择工作负载 > Job,在 Job 列表中单击上述步骤创建的 Job。
      • 选择事件页签在查看事件
      • 选择日志页签查看日志,如下图所示:

    相关操作

    在 TKE 上使用 GPU 部署深度学习任务

    在 TKE 上部署和 EKS 的部署几乎没有区别。以 kubectl 通过 YAML 部署为例,有以下两点改动:

    • 创建 TKE 节点时,选择带有 GPU 的节点。详情请参见 新建 GPU 云服务器 文档。
    • 因为节点自带 GPU 资源,因此无需 Annotations 和 Resources。在实践操作汇总,您可以保留 Annotations,TKE 不会处理这部分。Resources 则建议注释掉,因为在某些情况下可能会导致不合理的资源需求。

    常见问题

    在进行本实践过程中遇到的问题,请参见 常见问题 文档进行排查解决。

    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持