tencent cloud

文档反馈

一分钟入门 DLC 数据分析

最后更新时间:2022-09-20 15:02:34

    使用数据湖 DLC,您仅需一分钟即可完成对象存储 COS 上的数据分析查询,目前支持 CSV、ORC、PARQUET、JSON、ARVO、文本文件等多个格式。

    前置准备

    设置必要 DLC 内部权限

    说明:

    如果用户已经有权限,或者为主账户管理员,可忽略此步骤。

    若您是首次登录的子账号,除了必要的 CAM 授权,还需要请任意 DLC 管理员或主账号管理员在 DLC 控制台左侧权限管理菜单,为您授予必要的 DLC 权限(详细权限说明参见 DLC 权限概述

    1. 库表权限:可授予对应的 catalog、database、table,view 等读写操作权限。
    2. 引擎权限:可授予计算引擎的使用、监控、修改等权限。
    说明:

    系统会默认为每个用户开通基于 presto 内核的共享 public-engine,方便您可以快速试用,无需先购买独享集群。

    详细权限授予步骤参见 子账号权限管理

    分析步骤

    步骤1:创建数据库

    如果您对 SQL 语句熟悉,可直接在查询中编写 create database 语句,跳过创建向导。

    1. 登录 数据湖计算 DLC 控制台,选择服务地域
    2. 左侧导航菜单进入数据探索
    3. 选择库表,单击“+”,选择创建数据库进行数据库新建。如下图所示:
    4. 右上角选择执行引擎后,执行生成的 create database 语句,完成建库。

    步骤2:创建外表

    如果您对 SQL 语句熟悉,可直接在查询中编写 create table 语句,跳过创建向导。

    1. 登录 数据湖计算 DLC 控制台,选择服务地域。
    2. 左侧导航菜单进入数据探索
    3. 选择库表,选中当前创建的表后,右键单击,选择创建外表向导
    说明:

    外表一般指数据文件放到您自己账号下的 COS 桶,DLC 可以直接建立外表进行分析,无需额外加载数据。基于外表的特性,例如在执行 drop table 等动作时,DLC 并不会删除您的原始数据,只会删除 table 的元信息。

    1. 按照向导生成创表语句,按照基本信息 > 数据格式 > 编辑列 > 编辑分区,完成各个步骤。
      • step1:  选择数据文件存放的 COS 路径(路径必须是 COS 桶下的目录,不能直接建立到 COS 桶),此处也提供快速上传文件到 COS 的快捷方式。操作需具备 COS 相关的权限。
      • step2: 选择数据文件的格式,高级选项中可选择自动推断格式,后端将解析文件格式,自动生成表的列信息,快速完成列信息推断。
        说明:

        结构推断为建表辅助工具,不能保证100%正确,仍需您进行复查核对字段名、类型是否符合预期,根据实际情况编辑修改为正确的信息。

      • step3: 如果没有分区可以跳过此步骤,合理的分区可以帮助提升分析性能。详细分区信息可参见 查询分区表
    2. 单击完成,会生成 SQL 建表语句,选择数据引擎后执行生成的语句即可完成建表。

    步骤3:执行 sql 分析

    数据准备完备后,您就可以开始书写 SQL 分析语句,选择合适的计算引擎,开始数据分析。

    示例

    编写数据查询所有结果为 SUCCESS 记录的 SQL 语句,选择计算引擎后执行。

    select * from `DataLakeCatalog`.`demo2`.`demo_audit_table` where _c5 = 'SUCCESS'
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持