tencent cloud

腾讯云数据仓库 TCHouse-D

产品简介
产品概述
基本概念
集群架构
产品优势
应用场景
购买指南
计费概述
续费说明
到期与欠费说明
退费说明
配置变更计费说明
快速入门
通过控制台使用腾讯云数据仓库 TCHouse-D
通过客户端使用腾讯云数据仓库 TCHouse-D
操作指南
集群操作
监控和告警配置
账户权限管理
数据管理
查询管理
配置管理
节点管理
日志分析
SQL 工作区
开启资源隔离
开发指南
数据表设计
数据导入
数据导出
基础功能
查询优化
生态扩展功能
API 文档
History
Introduction
API Category
Making API Requests
Cluster Operation APIs
Database and Table APIs
Cluster Information Viewing APIs
Hot-Cold Data Layering APIs
Database and Operation Audit APIs
User and Permission APIs
Resource Group Management APIs
Data Types
Error Codes
云上生态
为子账号授予 CAM 策略
查询加速腾讯云 DLC
实践教程
基本功能使用
高级特性使用
资源规格选型及调优建议
命名规范及库表限制
表设计与数据导入
查询调优
建议规避的用法
通过 JDBC 方式公网访问 TCHouse-D
性能测试
TPC-H 性能测试
SSB 性能测试
TPC-DS 性能测试
常见问题
常见操作问题
常见报错
联系我们
词汇表
产品协议
服务等级协议
隐私政策
数据处理和安全协议

应用场景

PDF
聚焦模式
字号
最后更新时间: 2024-06-27 10:38:43
腾讯云数据仓库 TCHouse-D 作为一个分析性数据库,适合几乎所有的分析性数据的场景,其中最主要的四种场景列出如下:

这四种场景都是实际业务中用户对分析性数据库期望最多的场景,但是这些场景在大数据量下,对系统的要求也是非常高的。腾讯云数据仓库 TCHouse-D 通过以下技术来满足这些场景对系统功能和性能的苛刻要求。

OLAP 多维分析和报表——高维表上的高速随意探查能力

在关系数据库中,多维分析定义的对数据立方体(CUBE)上进行的钻取、上卷、切片、切块、旋转等操作是通过维度建模实现的。 维度建模最常见的模型是星型模型和雪花模型。 维度建模中,一个表中的列可以分为维度列和指标列,腾讯云数据仓库 TCHouse-D 支持在建表的时候定义出维度列和指标列,如下图所示。

指标列上可以定义函数,在数据导入的时候,数据可以按照维度列进行分类,再按照指标列指定的函数进行聚合。这种预聚合能力大大减少了查询所扫描的数据量,从而加速了聚合查询的速度。 另外, 腾讯云 TCHouse-D 还支持物化视图、Rollup 索引和 CUBE 的语法,其中的 Rollup 对应上卷操作,通过 Grouping Set 语法可建出 CUBE 立方体。

实时数仓和数据分析——PB 级数据量上的实时增、删、改、查能力

下图展示的是一个腾讯云 TCHouse-D 的建表语句,从这个语句中可以看出,数据可以分区(Partition),也可以分桶 (DISTRIBUTED BY),通过分区和分桶,可以将一个表 (Table) 的数据拆分成多个 Tablet。

腾讯云数据仓库 TCHouse-D 中每个 Tablet 可以设置多个副本,这些 Tablet 及其副本可以存储在不同的 BE 中,从而保证数据的高可用和高可靠。
物理上,Tablet 会按照一定大小(256M)拆分为多个 Segment 文件,Segment 是列存的 LSM-Tree,全称是Log Structured Merge Tree,是一种分层、有序、面向磁盘的数据结构。这种结构的理论基础是磁盘批量的顺序写要远比随机写性能高。
另外,数据的实时写入是非常关键的一个环节,为了实现数据的实时写入,腾讯云数据仓库 TCHouse-D 支持多种写入方式:
通过 Stream Load 实现数据的实时写入能力;
通过内置的 Canal 客户端实时获取 MySQL 的 binlog;
通过 Doris Flink Connector 对接 Flink 的 CDC 能力实现数据的精确导入;
通过内置的 Kafka 客户端订阅 Kafka 的 Topic, 从而实现数据的实时更新。


高并发场景——高并发下低延迟查询能力

腾讯云数据仓库 TCHouse-D 是现代的MPP查询引擎,这个引擎完整实现了 Exchange 节点。有了 Exchange 节点,查询就能被分解到各个节点进行并行数据处理。 同时由于 FE 和 BE 能很容易横向扩展,理论上就能应对并发增加的情况,从而满足高并发场景。
另外,腾讯云数据仓库 TCHouse-D 提供了丰富的索引结构来帮助加速数据的读取和过滤,索引的类型大体可以分为智能索引和二级索引两种。
智能索引是在数据写入时自动生成的,无需用户干预,智能索引包括前缀稀疏索引和MinMax索引两种。
二级索引是用户可以选择性的在某些列上添加的辅助索引。
另外,腾讯云数据仓库 TCHouse-D 也支持动态分区裁剪和谓词下推技术,这些技术都能有效的降低最终从磁盘 scan 的数据量,从而加快查询的执行。

大数据和数据库统一分析——Hadoop 生态兼容和外表高性能查询能力

腾讯云数据仓库 TCHouse-D 不依赖 Hadoop 组件,但本身对 Hadoop 生态进行了全面的支持。除了可以通过 Flink、Spark 写入外,还可以导入 HDFS 的数据,或通过建立 Hive 外表,直接查询 Hive 数据。 下图是腾讯云数据仓库 TCHouse-D 对 Hadoop 生态支持的一个全景图。


帮助和支持

本页内容是否解决了您的问题?

填写满意度调查问卷,共创更好文档体验。

文档反馈