检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据保护技术 数据完整性 通过数据校验,保证数据在存储、传输过程中的数据完整性。 MRS的用户数据保存在HDFS中,HDFS默认采用CRC32C算法校验数据的正确性,同时也支持CRC32校验算法,CRC32C校验速度快于CRC32。HDFS的DataNode节点负责存储校验数据,
、低成本的数据存储能力。MRS可以直接处理OBS中的数据,客户可以基于OBS服务Web界面和OBS客户端对数据进行浏览、管理和使用,同时可以通过REST API接口方式单独或集成到业务程序进行管理和访问数据。 数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,
元数据管理 当创建MRS集群选择部署Hive和Ranger组件时,MRS提供多种元数据存储方式,您可以根据自身需要进行选择: 本地元数据:元数据存储于集群内的本地GaussDB中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:MRS
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。 操作步骤 推荐:使用“SNAPPY”压缩,适用于压缩比和读取效率要求均衡场景。
数据采集 使用kafka采集数据时报错IllegalArgumentException 采集数据时报错HoodieException 采集数据时报错HoodieKeyException 父主题: Hudi常见问题
群进行操作,集群日常运维管理由用户负责,如果在大数据集群运维过程中遇到了相关技术问题,可以联系技术支持团队获得帮助,该技术支持仅协助分析处理MRS云服务相关求助,不包含云服务以外的求助,例如用户基于大数据平台构建的应用系统等。 技术支持范围 支持的服务 MRS云服务管理控制台提供的相关功能:
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 配置Hive列加密功能 父主题: 使用Hive
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表中,这一过程称为分区数据解冻。
数据迁移 数据迁移方案介绍 数据迁移到MRS前信息收集 数据迁移到MRS前网络准备 使用CDM服务迁移Hadoop数据至MRS集群 使用CDM服务迁移HBase数据至MRS集群 使用CDM服务迁移Hive数据至MRS集群 使用BulkLoad工具向HBase中批量导入数据 使用CDM服务迁移MySQL数据至MRS
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 使用ZSTD_JNI压缩算法压缩Hive ORC表 配置Hive列加密功能 父主题: 使用Hive
MRS存算分离配置流程说明 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、低成本的海量数据分析方案。 大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统
数据迁移方案介绍 准备工作 元数据导出 数据复制 数据恢复 父主题: 数据迁移
Hive元数据导出 Hive表数据存储在HDFS上,表数据及表数据的元数据由HDFS统一按数据目录进行迁移。而Hive表的元数据根据集群的不同配置,可以存储在不同类型的关系型数据库中(如MySQL、PostgreSQL、Oracle等)。 本指导中导出的Hive表元数据即存储在关系型数据库中的Hive表的描述信息。
配置Hive元数据存储至RDS 本章节指导用户将现有集群的Hive元数据切换为RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Hive元数据的迁移。 创建并配置RDS实例 登录RDS管理控制台,购买RDS实例,具体操作请参考购买实例。
配置Ranger元数据存储至RDS 本章节旨在指导用户将现有集群的Ranger元数据切换为RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Ranger元数据的迁移。 停用集群组件Ranger鉴权 该操作仅在MRS
ClickHouse数据导入 配置ClickHouse对接RDS MySQL数据库 配置ClickHouse对接OBS源文件 同步Kafka数据至ClickHouse 导入DWS表数据至ClickHouse ClickHouse数据导入导出 父主题: 使用ClickHouse
MRS集群元数据概述 MRS的数据连接用于管理集群中组件使用的外部源连接,如Hive的元数据可以通过数据连接关联使用外部的关系型数据库。 本地元数据:元数据存储于集群内自带的本地GaussDB中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数
表示该表为HBase数据源中表的一个映射表,不支持删除HBase数据源上的原始表;如果external=false,则删除Hetu-HBase表的同时,会删除HBase数据源上的表。 HBase数据类型映射 HBase是基于字节的分布式存储系统,它将所有数据类型存储为字节数组。要在H
方案架构 Hive数据迁移分两部分内容: Hive的元数据信息,存储在MySQL等数据库中。MRS Hive集群的元数据会默认存储到MRS DBService组件,也可以选择RDS(MySQL)作为外置元数据库。 Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。 图1 Hive数据迁移示意