tencent cloud

文档反馈

快速入门

最后更新时间:2024-01-06 11:17:58

    简介

    云原生数据湖存储服务可以帮助您快速在容器服务(Tencent Kubernetes Engine,TKE)上部署一套基于对象存储(Cloud Object Storage,COS)的数据湖存储服务。您可以通过云原生数据湖存储服务,快速在一个 TKE 或者 EKS 集群上部署各类业务所需的大数据服务应用和 AI 服务应用,同时通过数据加速器 GooseFS 对接海量分布式存储服务。

    概念和术语

    使用云原生数据湖存储服务,您可以阅读以下说明初步了解相关的概念和术语
    环境:用于维护云原生数据湖存储中计算集群和存储服务之间的映射关系,推荐您统一从这入口管理计算集群和存储服务。
    注意
    如果您需要删除计算集群,建议您先清除云原生数据湖存储环境,然后在容器服务控制台上删除计算集群。
    计算集群:用于运行各类计算业务的容器集群,您可以创建 TKE 集群或者 EKS 集群。
    存储服务:特指对象存储服务,用于存储各类用于计算业务的数据。
    应用市场:用于运行各类计算业务的应用组件,例如 Flink、Spark 等,您可以在创建环境时按需选择所需的应用。
    注意
    当您的容器集群被销毁时,您部署的应用也会被销毁。请谨慎进行删除操作。
    数据加速器 GooseFS:可用于纳管不同的底层存储桶,并将热点数据缓存在计算集群中,加速您的计算业务。
    您还可以通过如下文档预先了解一些基础信息:
    对象存储 COS 服务:您可以通过 快速入门 了解如何创建存储桶并在存储桶中上传和下载文件。
    容器服务:您可以通过 快速入门了解如何创建一个 TKE 集群或者 EKS 集群。
    应用市场:您可以通过容器服务提供的 应用市场 了解如何在集群中创建并部署应用。
    数据加速器 GooseFS:该服务可用于统一纳管不同的底层存储桶,并加速您的业务访问。

    前提条件

    当前云原生数据湖存储服务属于白名单能力,如果您需要使用,请 联系我们 开白使用。
    云原生数据湖存储服务依赖容器服务和对象存储服务,您在使用过程中需要确保拥有权限操作计算服务和存储服务。如果您使用子账号登录,请确保该子账号至少拥有如下权限:
    对象存储服务的存储桶和文件操作权限:
    存储桶操作权限:如果需要管理存储桶配置,请联系主账号获取对应存储桶配置的操作权限;一般情况下该存储桶配置权限不影响数据读写,无需额外配置,最多授权读配置操作权限即可(例如 QcloudCOSBucketConfigRead 策略集)。
    文件操作权限:一般情况下计算作业需要读写存储桶中的文件,可以联系主账号授权文件全读写权限(例如 QcloudCOSDataFullControl)或者由主账号按照 最小权限原则 授权。
    容器集群的管理权限:
    集群操作权限:一般情况需要授权集群的创建和操作权限,您可以参考 使用 TKE 预设策略授权 完成配置。
    集群管理权限:TKE 提供了对接 Kubernetes RBAC 的授权模式,便于对子账号进行细粒度的访问权限控制,子账号操作时还需要参考TKE Kubernetes 对象级权限控制。
    应用市场操作权限:应用市场依赖了镜像仓库操作,您可以参考 TKE 镜像仓库资源级权限设置 为子账号完成授权。

    操作步骤

    完整的操作步骤大致分为:创建环境、关联集群、部署计算应用、关联存储服务、管理环境等关键步骤,具体操作指引如下。
    2. 在左侧边导航栏中,单击云原生数据湖存储,进入云原生数据湖存储服务界面。
    3. 在云原生数据湖存储服务界面中,页面视图会展示能力介绍、部署指引两部分内容:
    我们会默认为您显示部署指引,您可以单击右上方的收起指引关闭指引导航。
    云原生数据湖存储环境列表展示页面支持搜索。对于已存在环境,您可以进行如下操作:
    单击环境名称,进入环境详情页面管理环境。
    单击关联集群,打开 TKE 控制台进入对应集群详情页面。
    单击关联存储桶,进入存储桶页面查看桶里的文件信息。
    4. 单击创建环境,进入环境创建流程。 创建环境需要先选择对应的容器计算集群,其需要配置如下参数:
    环境名称:用于标记环境信息,最长支持63个字符,全局唯一。
    地域:选择容器集群的地域信息。
    集群类型:可选 TKE 集群和 EKS 集群,如果当前地域下无集群,您可以单击创建容器集群,前往容器服务控制台新建集群。
    集群:在指定地域指定集群类型的条件下,用于部署计算应用服务、运行计算作业的集群名称。
    计算应用:运行计算作业所需的应用服务,当前默认支持了 Flink、big-data-suite、colocation、airflow、pytorch 和 spark-operator 等应用,您可以按需选择;如果您需要部署自定义应用,可以前往容器服务控制台上自行部署。应用支持多选。
    5. 单击下一步,进入到存储桶配置页面视图。 您可以在该页面下为计算集群配置不同的存储桶,我们默认提供了数据加速器 GooseFS 服务,用于纳管不同存储桶并将数据缓存到计算集群的本地节点,用于加速计算作业。其需要配置如下参数:
    地域信息:无法编辑,默认跟随计算集群所选地域。该地域下如果没有可选存储桶,您可以单击创建存储桶,新建一个存储桶用于计算任务使用。
    存储桶:支持选择指定地域下的多个存储桶。支持只挂载存储桶中的某个文件目录。
    注意
    如果是挂载整个存储桶,那么无需输入第二个输入框;如果需要指定目录,可以通过输入目录名称来实现,格式形如prefix/*
    启用 GooseFS:GooseFS 服务用于加速计算作业性能,默认启用,无法更改。不会产生额外的费用消耗。
    6. 单击下一步,进入到 GooseFS 应用配置页面视图。 由于在数据湖环境下,所有的计算任务均需要通过 GooseFS 服务来访问 COS,因此需要为 GooseFS 配置有权限访问指定存储桶的 secretId 和 secretKey。
    7. 单击下一步,确认信息。
    8. 如果您需要修改配置项,可单击修改对配置信息进行更改。确认无误后,单击创建环境,即可完成创建环境操作。返回环境列表并刷新,即可看到新建的云原生数据湖存储环境。 如果您需要删除环境,可以在环境列表单击删除,并在弹窗中确认本次删除操作即可。
    9. 单击列表环境名称,可以进入基本信息页面。 我们使用了三个卡片视图分别描述环境信息、计算集群信息、存储桶信息。
    数据湖环境信息:用于展示环境的名称、地域、关联的计算集群、存储服务和创建时间等信息。
    计算集群信息:用于展示计算集群的名称、节点数量、CPU、内存、GPU 用量等基础信息。如果需要了解计算集群详情,您可以单击查看详情,跳转到容器服务控制台查看。
    存储桶信息:用于展示计算集群绑定的存储桶名称、文件路径和 GooseFS 使用状态。如果您需要查看存储服务详情,可以单击查看详情查看。
    以上步骤全部完成后,您即可完成一个数据湖环境创建流程。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持