运行 PyTorch 训练任务

apiVersion: "kubeflow.org/v1"
kind: "PyTorchJob"
metadata:
name: "pytorch-dist-mnist-nccl"
spec:
pytorchReplicaSpecs:
 Master:
   replicas: 1
   restartPolicy: OnFailure
   template:
     metadata:
       annotations:
         sidecar.istio.io/inject: "false"
     spec:
       containers:
         - name: pytorch
           image: <训练镜像>
           args: ["--backend", "nccl"]
           resources: 
             limits:
               nvidia.com/gpu: 1
 Worker:
   replicas: 1
   restartPolicy: OnFailure
   template:
     metadata:
       annotations:
         sidecar.istio.io/inject: "false"
     spec:
       containers: 
         - name: pytorch
           image: <训练镜像>
           args: ["--backend", "nccl"]
           resources: 
             limits:
               nvidia.com/gpu: 1

执行以下命令，通过 kubectl 提交该 PyTorch Job：
```
kubectl create -f ./pytorch_job_mnist_nccl.yaml
```

执行以下命令，查看该 PyTorch Job：

kubectl get -o yaml pytorchjobs pytorch-dist-mnist-nccl

执行以下命令，查看 PyTorch 任务创建的相关 Pod：

kubectl get pods -l pytorch_job_name=pytorch-dist-mnist-nccl

联系我们

联系我们，为您的业务提供专属服务。

技术支持

如果你想寻求进一步的帮助，通过工单与我们进行联络。我们提供7x24的工单服务。

7x24 电话支持

tencent cloud

Recent Pages

运行 PyTorch 训练任务

前提条件

操作步骤

准备训练代码

制作训练镜像

任务提交

本页内容是否解决了您的问题？

本页内容是否解决了您的问题？

tencent cloud

注册

登录

Recent Pages

运行 PyTorch 训练任务

前提条件

操作步骤

准备训练代码

制作训练镜像

任务提交

本页内容是否解决了您的问题？

本页内容是否解决了您的问题？