tencent cloud

请输入关键字

Recent Pages

在 TKE Serverless 上运行深度学习

最后更新时间：2023-05-22 15:48:11

操作场景

本系列文章将记录在 TKE Serverless 上部署深度学习的一系列实践，从直接部署 TensorFlow 到后续实现 Kubeflow 的部署，旨在提供一个较完整的容器深度学习实践方案。

前提条件

本文将在上一篇文档构建深度学习容器镜像基础上继续操作，利用自建集群，在 TKE Serverless 上运行深度学习任务。自建镜像已上传到镜像仓库中：ccr.ccs.tencentyun.com/carltk/tensorflow-model，无需重新构建，可以直接拉取使用。

操作步骤

创建 TKE Serverless 集群

请参见创建集群文档创建 TKE Serverless 集群。

说明：

由于需要运行 GPU 训练任务，在创建集群时，请注意选择的容器网络所在区的支持资源，选择支持 GPU 的可用区，如下图所示：

创建 CFS 文件系统（可选）

容器将在任务结束后，自动删除容器并且释放资源。因此为了实现对模型和数据的持久化存储，建议通过挂载外部存储的方式持久存储数据。目前支持云硬盘 CBS、文件存储 CFS、对象存储 COS 等方式。

本文示例将利用 NFS 盘的方式，使用 CFS，实现于多读多写的持久化存储。

创建文件存储

登录文件存储 CFS 控制台，进入“文件系统”页面。
单击创建，在弹出的“新建文件系统”页面中，选择文件系统类型，并单击下一步:详细设置。
在“详细设置”页面进行相关配置，CFS 类型信息与配置细节可参见创建文件系统及挂载点文档。如下图所示：

注意：

创建的 CFS 地域，需确保与集群在同一地域。
确认无误之后单击立即购买并完成付费即可创建文件存储。

获取文件系统挂载信息

在“文件系统”页面，单击需获取子目标路径的文件系统 ID，进入该文件系统详情页。
选择挂载点信息页签，从 “Linux下挂载” 获取该文件系统挂载信息。如下图所示：

说明：

在挂载点详细中需要记住 IPv4 地址，IPv4 将作为 NFS 路径，后续配置挂载时需要，例如 10.0.0.161:/。

创建训练任务

本文任务以 MNIST 手写数字识别数据集，加两层 CNN 为例，相关示范镜像为上一章自建镜像，如需自定义镜像，请参见深度学习容器镜像构建文档。以下提供两种创建任务的方式。

控制台操作指引
Kubectl 操作指引

由于深度学习任务的性质，本文以部署 Job 节点为例。如何部署 Job 请参见 Job 管理文档。以下提供控制台的部署范例：

在数据卷（选填）配置项中，选择 NFS 盘，并输入上述步骤创建的 CFS 名称和 IPv4地址。如下图所示：
在实例内容器中的挂载点配置项里，选择数据卷，并配置挂载点。
注意
- 因为数据集可能需要联网下载，所以需要配置对集群的外网访问。详情请参见常见问题公网访问相关。
- 选择 GPU 型号后，在填写 request 和 limit 时需要为容器分配符合资源规格的 CPU 和内存，实际填写并不严格要求精确到个位。在控制台中配置，也可以选择删除默认配置以留空，即为“不限制”，也会有对应的计费规格；更推荐这种做法。
- 容器运行命令 command 继承 Docker 的 CMD 字段，而 CMD 指令首选 exec 形式，不调用 shell 命令。这意味着不会发生正常的 shell 处理。因此命令需要 shell 形式运行，就需要在前面添加 "sh","-c"。在控制台输入多个命令和参数时，每个命令单独一行（以换行为准）。

查看运行结果

以下提供控制台和命令行两种方式查看运行结果：

控制台查看
命令行查看

在创建 Job 之后，默认进入 Job 管理页面。您也可以通过以下步骤进入 Job 管理页面：

登录容器服务控制台，选择左侧导航栏中的集群。
在弹性集群列表中，单击需要查看的事件集群 ID，进入集群管理页面。
选择工作负载 > Job，在 Job 列表中单击上述步骤创建的 Job。
- 选择事件页签在查看事件
- 选择日志页签查看日志，如下图所示：

相关操作

在 TKE 上使用 GPU 部署深度学习任务

在 TKE 上部署和 TKE Serverless 的部署几乎没有区别。以 kubectl 通过 YAML 部署为例，有以下两点改动：

创建 TKE 节点时，选择带有 GPU 的节点。详情请参见新建 GPU 云服务器文档。
因为节点自带 GPU 资源，因此无需 Annotations 和 Resources。在实践操作汇总，您可以保留 Annotations，TKE 不会处理这部分。Resources 则建议注释掉，因为在某些情况下可能会导致不合理的资源需求。

常见问题

在进行本实践过程中遇到的问题，请参见常见问题文档进行排查解决。

联系我们

联系我们，为您的业务提供专属服务。

技术支持

如果你想寻求进一步的帮助，通过工单与我们进行联络。我们提供7x24的工单服务。

7x24 电话支持