tencent cloud

文档反馈

导入 COS 数据

最后更新时间:2024-01-20 17:14:28

    概述

    日志服务(Cloud Log Service,CLS)投递功能打通产品生态上游链路,将腾讯云对象存储(Cloud Object Storage,COS)中的数据导入到日志服务,实现日志数据的查询分析、加工等操作,挖掘日志数据价值。您只需要在日志服务控制台进行简单的配置即可完成数据导入。

    前提条件

    开通日志服务,创建日志集与日志主题,并成功采集到日志数据。
    开通对象存储,并确保待导入的文件已经上传到 COS Bucket 中,更多信息请参考 上传对象
    设置当前操作账号拥有访问 COS 的权限,即已授权日志服务使用 CLS_QcsRole 角色访问您的 COS 资源。

    配置流程

    1. 选择日志主题:可以选择现有的日志主题(topic)或者创建新的日志主题(topic),用于存储从 COS 导入到 CLS 的数据。
    2. 导入数据源配置:需要配置想要导入的 COS 对象路径,以及压缩方式(gzip/lzop/snappy/无压缩)。
    3. 解析配置:需要配置导入文件的解析格式,目前支持单行全文/JSON/CSV。
    4. 索引配置:需要配置目前 topic 的索引配置,且检索必须开启索引配置。如果选择已存在的日志主题,则新索引配置只对修改后的数据生效。

    操作步骤

    步骤1:选择日志主题

    如果您想选择新的日志主题,可执行如下操作:
    2. 在左侧导航栏中,单击概览,进入概览页面。
    3. 在其他日志栏下,找到对象存储COS数据导入,单击立即接入
    
    
    4. 在创建日志主题页面,根据实际需求,输入日志主题名称,配置日志保存时间等信息,单击下一步
    如果您想选择现有的日志主题,可执行如下操作:
    2. 在左侧导航栏中,单击日志主题,选择需要投递的日志主题,进入日志主题管理页面。
    3. 选择采集配置页签,在数据导入配置栏下单击新增
    
    

    步骤2:数据源配置

    1. 在数据源配置页面,依次配置如下信息:
    配置项
    说明
    规则
    是否必填
    任务名称
    配置导入任务的名称。
    字母、数字、_和-
    存储桶地域
    配置需要导入的文件所在存储桶的地域位置。如果文件所在地域和导入日志主题所在地域不同,则会因跨地域访问而产生外网费用。
    列表选择
    bucket
    选择需要导入的文件所在存储桶。下拉框会列出当前选择地域下的所有存储桶供您选择。
    列表选择
    文件前缀
    输入待导入的 COS 文件所在文件夹的前缀,用于准确定位待导入的文件夹,支持输入文件前缀 csv/,或完整文件路径 csv/object.gz。
    输入框
    压缩模式
    选择待导入的 COS 文件的压缩格式,日志服务根据对应格式进行解压并读取数据,支持 gzip/lzop/snappy/ 无压缩。
    列表选择
    2. 单击预览,系统会选择符合配置规则的一条路径数据进行展示,并提示输入的文件前缀下共有多少文件。
    3. 确认预览无误后,单击下一步

    步骤3:解析配置

    1. 在解析配置页面,配置如下主要信息:
    提取模式:可选择单行全文,JSON,CSV 三种提取模式。
    单行全文:每条日志将被解析为键值为__CONTENT__的一行完全字符串,开启索引后可通过全文检索搜索日志内容。日志时间为采集时间为准。
    JSON:支持按照 JSON 格式提取键值对。
    CSV:可根据您指定分隔符切分每条日志。需要您指定切分后每个字段的键值名称,无效字段即无需采集的字段可填空,不支持所有字段均为空。
    过滤器:
    过滤器旨在您根据业务需要添加日志采集过滤规则,帮助您筛选出有价值的日志数据。过滤规则为 Perl 正则表达式,所创建的过滤规则为命中规则,即匹配上正则表达式的日志才会被采集上报。
    分隔符格式日志需要根据所自定义的键值对来配置过滤规则。例如,样例日志使用分隔符模式解析后,您希望 status 字段为 400 或 500 的所有日志数据被采集,那么 key 处配置 status,过滤规则处配置 400|500。
    使用采集时间:开启后可根据采集时间标记每条日志时间,或关闭此项指定某一字段作为日志时间。
    说明:
    日志时间单位为:秒,若时间格式填写错误日志时间将以采集时间为准。
    日志的时间属性有两种方式来定义:采集时间和原始时间戳。
    采集时间:日志的时间属性由日志服务 CLS 从 COS 导入时间决定。
    原始时间戳:日志的时间属性由原始日志中时间戳决定。
    日志的原始时间戳作为日志时间属性。
    关闭采集时间状态,在时间键和时间格式解析处,填写原始时间戳的时间键以及对应的时间解析格式。时间解析格式详情参见 配置时间格式
    分隔符:系统根据确定的分隔符将日志样例进行切分,并展示在抽取结果栏中,您需要为每个字段定义唯一的 key。目前,日志采集支持多种分隔符,常见的分隔符有:空格、制表符、逗号、分号、竖线。若您的日志数据所采用的分隔符是其他符号(例如 :::),也可以通过自定义分词符进行解析。
    2. 单击下一步

    步骤4:索引配置

    1. 在索引配置页面,配置如下信息:
    索引状态:确认是否开启。
    全文索引:确认是否需要设置大小写敏感。
    全文分词符:默认为“@&()='",;:<>[]{}/ \\n\\t\\r”,确认是否需要修改。
    是否包含中文:确认是否开启。
    键值索引:默认关闭,您可根据 key 名按需进行字段类型、分词符以及是否开启统计分析的配置。若您需要开启键值索引,可将
    
    设置为
    
    注意:
    检索必须开启索引配置,否则无法检索。
    索引规则编辑后仅对新写入的日志生效,已有数据不会更新。
    2. 单击提交,完成导入配置。

    相关操作

    导入进度查询

    1. 当前日志主题下存在 COS 导入任务时,单击检索,进入检索分析页面查看当前导入任务的进度。
    2. 在检索分析页面右上角的进度悬浮球显示目前完成的导入进度。单击悬浮球,右侧浮窗会展开导入任务详情。
    3. 在任务详情页面,单击查看详情,即可跳转采集配置页查询导入的详细配置。
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持