元数据加速器是由腾讯云对象存储(Cloud Object Storage,COS)服务提供的高性能文件系统功能。元数据加速器底层采用了云 HDFS 卓越的元数据管理功能,支持用户通过文件系统语义访问对象存储服务,系统设计指标可以达到2.4Gb/s带宽、10万级 QPS 以及 ms 级延迟。存储桶在开启元数据加速器后,可以广泛应用于大数据、高性能计算、机器学习、AI 等场景。有关元数据加速器的详细介绍,请参见 元数据加速器。
以往基于对象存储 COS 的大数据访问主要使用 Hadoop-COS 工具来访问。Hadoop-COS 工具内部将 HCFS 接口适配为对象存储的 Restful 接口,从而对对象存储上的数据进行访问。由于对象存储和文件系统在元数据组织方式上的差异,导致元数据操作性能上存在性能差异,从而影响了大数据分析性能。开启元数据加速器的 Bucket,完全兼容 HCFS 协议,可以采用原生的 HDFS 接口直接访问,除了省去了 HDFS 协议到对象协议的转换开销外,更能提供原生 HDFS 的一些功能,例如目录原子高效 Rename、文件 Atime、Mtime 更新、高效目录 DU 统计、Posix ACL 权限支持等原生特性。
创建 COS 存储桶,并且开启元数据加速器。
当 Bucket 创建完成后,进入存储桶的文件列表页面,可在控制台进行文件上传和下载操作。
单击左侧菜单栏中的性能配置 > 元数据加速能力,可以看到元数据加速能力已开启。如果是第一次创建需开启元数据加速的存储桶,则需要按照提示进行相应的授权操作,单击授权完成后,将自动开启 HDFS 协议,并且看到默认的 Bucket 挂载点信息。
说明:如果提示未找到对应的 HDFS 文件系统,请单击 提交工单 联系我们获取帮助。
说明:HDFS 权限配置与原生 COS 权限体系存在差异。当您使用 HDFS 协议访问时,推荐通过配置 HDFS 权限授权指定 VPC 内机器访问 COS 存储桶,以便获取和原生 HDFS 一致的权限体验。
5. HDFS 协议默认采用原生 POSIX ACL 方式进行鉴权,如果需要使用 Ranger 鉴权,可以在 HDFS 鉴权模式下,选择 Ranger 鉴权模式,配置上 Ranger 相应的地址信息即可。
说明:您可以参见 HDFSranger 鉴权 文档,配置 Ranger 服务,通过Ranger 服务以 HDFS 协议访问 COS。
core-site.xml
,具体参考文档配置 HDFS协议配置,如果您使用的是腾讯云 EMR,则可以直接使用 EMR 的默认配置,无需额外配置。
注意:
fs.ofs.bucket.region
必须配置,该参数用于指定存储桶所在的 COS 地域,例如ap-shanghai
。
classpath
路径下,例如 /usr/local/service/hadoop/share/hadoop/common/lib/
(根据实际情况防止,不同组件可能放置的位置也不一样),然后重启 Yarn
,Hive
,Presto
,Impala
等一些常驻服务。大数据场景下,您可以参考如下步骤以 HDFS 协议访问开启元数据加速能力的存储桶:
core-stie.xml
中配置 HDFS 协议相关挂载点信息,如准备工作中所示。POSIX ACL
方式进行鉴权,如果需要使用 Ranger1鉴权
,可以参考 Ranger
相关原理和实践访问,可参见 在 CDH 集群上通过 HDFS 协议访问 COS。
本页内容是否解决了您的问题?