腾讯云弹性 MapReduce(EMR)- Doris 提供开源 MPP 分析型数据库 Doris 的云上半托管服务,提供了便捷的 Doris 集群部署、配置修改、监控告警等功能。Doris 支持标准 SQL 语言、兼容 MySQL 协议、支持对 PB 级的海量数据进行高并发查询,可以满足多种数据分析需求,如离线数据分析、实时数据分析、交互式数据分析和探索式数据分析等。
Doris 提供兼容 MySQL 协议的连接接口,用户无需单独部署新的客户端库或者工具,可直接使用 MySQL 的相关库或者工具。提供了 MySQL 接口,可便捷的与上层应用兼容。用户学习曲线降低,方便用户上手使用。
利用 MPP 架构的优势,使得查询能够分布式的在多个节点并行执行,充分利用集群整体计算资源,提高大查询的吞吐能力。
通过使用分区裁剪、预聚合、谓词下推、向量化执行、异步 RPC 等技术,Doris 可以支持高并发点查询场景。
Doris 支持按主键删除和更新数据。能够方便的从 MySQL 等事务数据库中同步实时更新的数据。
Doris 中的数据和元数据都默认使用3副本存储(BE 节点需大于等于3)。在少数节点宕机的情况下,依然可以保证数据的可靠性。Doris 会自动检查和修复损坏的数据,并将查询请求自动路由到健康的节点,7×24 小时保证数据的可用性。
FE 节点和 BE 节点都可以进行横向扩展。用户可以根据计算和存储需要,灵活的对节点进行扩展。其中 BE 节点在扩展后,Doris 会自动根据节点间的负载情况,进行数据分片的自动均衡,无需人工干预。
Doris 支持通过物化视图或上卷表的形式对数据预聚合计算后的结果进行存储,从而加速部分聚合类场景的查询效率。同时,Doris 能够保证物化视图和基础表之间的数据一致性,从而使得物化视图会查询和导入完全透明。Doris 内部会自动根据用户的查询语句,选择合适的物化视图进行数据摄取。
Doris 采用自研的列式存储格式来提升 OLAP 领域的查询效率。存储采用字典编码、RLE 等多种编码方式,配合列式存储的特点,提供了非常高的数据压缩比,帮助用户节省存储空间。同时,存储格式上提供包括 Min/Max 智能索引、稀疏索引、布隆过滤器、bitmap 倒排索引等多种查询加速技术,进一步提升了查询效率。
支持在已导入数据的情况下修改表结构,包括增加列、删除列、修改列类型和改变列顺序等操作。变更操作不会影响当前数据库的查询和写入操作。
数据分析大体上可以分为两大类场景:一种偏向于报表类的,另一种偏向于多维分析的。
报表类数据分析,数据分析以及查询的模式相对比较固定,而且后台 SQL 的模式都是确定的。针对此类应用场景,选择使用 MySQL 存结果数据,用户可从界面选择执行批处理以及发送邮件。在 Doris 平台中,报表类查询时延一般在秒级以下。
多维分析要求数据是结构化的,适用于查询相对灵活的场景,例如数据分析条件以及聚合维度等方面不是很确定,一般将此类数据分析定义为多维分析。
Doris 主要有三个组件:
本页内容是否解决了您的问题?