tencent cloud

文档反馈

使用 GPU 节点

最后更新时间:2022-06-10 16:48:44

    操作场景

    如果您的业务需要进行深度学习、高性能计算等场景,您可以使用腾讯云容器服务支持 GPU 功能,通过该功能可以帮助您快速使用 GPU 容器。
    创建 GPU 云服务器有以下多种方式:

    使用限制

    • 添加的节点需要选择 GPU 机型,可根据需求选择自动安装 GPU 驱动,详情可参见 GPU驱动
    • TKE 仅在集群 kubernetes 版本大于1.8.*时支持使用 GPU 调度。
    • 默认情况下,容器之间不共享 GPU,每个容器可以请求一个或多个 GPU。无法请求 GPU 的一小部分。
    • 当前独立集群的Master节点暂不支持设置为 GPU 机型。

    操作步骤

    新建 GPU 云服务器

    具体操作请参考 新增节点。创建 GPU 机器过程中,请特别关注以下 GPU 的特殊参数:

    机型

    在 “选择机型” 页面,将 “Node机型” 中的 “机型” 设置为 GPU 机型。

    GPU驱动、CUDA版本、cuDNN版本

    设置机型后, 可以根据需求选择 GPU 驱动的版本、CUDA 版本、cuDNN 版本。

    • 勾选“后台自动安装GPU驱动”,将在系统启动时进行自动安装,预计耗时15-25分钟。
    • 支持的驱动版本由 OS 以及 GPU 机型共同决定。
    • 如果您未勾选“后台自动安装GPU驱动”,为了保证 GPU 机型的正常使用,针对某些低版本 OS,将会为您默认安装 GPU 驱动,完整的默认驱动版本信息可参考下表:
      OS名称默认安装驱动版本
      CentOS 7.6、Ubuntu 18、Tencent Linux2.4450
      Centos 7.2 (不推荐)384.111
      Ubuntu 16 (不推荐)410.79

    MIG

    开启 MIG(Multi-Instance GPU)特性后,一颗 A100 GPU 将被划分为七个独立的 GPU 实例,帮助您在多个作业并行的场景下提高 GPU 利用率,详情可参见 NVIDIA 官网指南

    使用 MIG 功能,必须满足如下限制:

  • GPU 机型为 GT4。
  • 在控制台上勾选了 “后台自动安装GPU驱动” 并且配置了 GPU 版本,CUDA 版本和 cuDNN 版本。
  • 添加已有 GPU 云服务器

    具体操作请参考 添加已有节点。添加过程中,请注意以下两点:

    • 在 “选择节点” 页面,勾选已有的 GPU 节点。如下图所示:
    • 按需配置自动安装 GPU 驱动、MIG 等参数。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持