检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
元数据管理 当创建MRS集群选择部署Hive和Ranger组件时,MRS提供多种元数据存储方式,您可以根据自身需要进行选择: 本地元数据:元数据存储于集群内的本地GaussDB中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。
Hive ORC数据存储优化 操作场景 “ORC”是一种高效的列存储格式,在压缩比和读取效率上优于其他文件格式。 建议使用“ORC”作为Hive表默认的存储格式。 前提条件 已登录Hive客户端,具体操作请参见Hive客户端使用实践。
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻集群元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,冻结的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。
MRS存算分离配置流程说明 MRS支持在大数据存储容量大、计算资源需要弹性扩展的场景下,用户将数据存储在OBS服务中,使用MRS集群仅作数据计算处理的存算分离模式,从而实现按需灵活扩展资源、低成本的海量数据分析方案。
数据存储在OBS:数据存储和计算分离,集群存储成本低,存储量不受限制,并且集群可以随时删除,但计算性能取决于OBS访问性能,相对HDFS有所下降,建议在数据计算不频繁场景下使用。
配置Hive元数据存储至RDS 本章节指导用户将现有集群的Hive元数据切换为本地数据库或者RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Hive元数据的迁移。
HBase数据类型映射 HBase是基于字节的分布式存储系统,它将所有数据类型存储为字节数组。要在HetuEngine中表示HBase数据,需要先在HetuEngine中通过创建映射表的方式为HetuEngine列限定符选择与HBase列限定符的值相匹配的数据类型。
数据采集 使用kafka采集数据时报错IllegalArgumentException 采集数据时报错HoodieException 采集数据时报错HoodieKeyException 父主题: Hudi常见问题
配置Ranger元数据存储至RDS 本章节旨在指导用户将现有集群的Ranger元数据切换为RDS数据库中存储的元数据。该操作可以使多个MRS集群共用同一份元数据,且元数据不随集群的删除而删除,也能够避免集群迁移时Ranger元数据的迁移。
外置数据连接:可以为MRS集群选择关联与当前MRS集群同一虚拟私有云和子网的外置数据连接。元数据将存储于关联的数据库中,不会随当前集群的删除而删除,多个MRS集群可共享同一份元数据。
Hive元数据导出 Hive表数据存储在HDFS上,表数据及表数据的元数据由HDFS统一按数据目录进行迁移。而Hive表的元数据根据集群的不同配置,可以存储在不同类型的关系型数据库中(如MySQL、PostgreSQL、Oracle等)。
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,移动的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。
数据迁移 数据迁移方案介绍 数据迁移到MRS前信息收集 数据迁移到MRS前网络准备 使用CDM服务迁移Hadoop数据至MRS集群 使用CDM服务迁移HBase数据至MRS集群 使用CDM服务迁移Hive数据至MRS集群 使用BulkLoad工具向HBase中批量导入数据 使用CDM
同时用户可以任意变更数据的冷热分界点,数据可以从热存储到冷存储,也可以从冷存储到热存储。 图1 HBase冷热分离原理图 配置HBase冷热数据分离存储 通过在Manager界面修改HBase配置开启冷热分离特性,支持将冷数据存储在OBS,热数据存储在HDFS中。
MRS Hive集群的元数据会默认存储到MRS DBService组件,也可以选择RDS(MySQL)作为外置元数据库。 Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 配置Hive列加密功能 父主题: 使用Hive
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。
为什么存储小文件过程中,缓存中的数据会丢失 问题 在存储小文件过程中,系统断电,缓存中的数据丢失。
Hive数据存储及加密配置 使用HDFS Colocation存储Hive表 配置Hive分区元数据冷热存储 Hive支持ZSTD压缩格式 使用ZSTD_JNI压缩算法压缩Hive ORC表 配置Hive列加密功能 父主题: 使用Hive