检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置Hive分区元数据冷热存储 分区元数据冷热存储介绍 为了减轻元数据库压力,将长时间未使用过的指定范围的分区相关元数据移动到备份表,这一过程称为分区数据冻结,移动的分区数据称为冷分区,未冻结的分区称为热分区,存在冷分区的表称为冻结表。将被冻结的数据重新移回原元数据表,这一过程称为分区数据解冻。
获取SFTP服务器使用的用户和密码,且该用户具备SFTP服务器数据导出目录的写入权限。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。 使用Loader从HDFS/OBS导出数据时,确保HDFS/OBS数据源的输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;
使用Loader从HDFS/OBS导出数据到关系型数据库 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到关系型数据库。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。 获取关系型数据库使用的用户和密码。
典型场景:从HBase导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HBase导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取SFTP服
配置Flume加密传输数据采集任务 使用多级agent串联从本地采集静态日志保存到HDFS 父主题: 使用Flume
配置Controller与Agent间数据传输加密 操作场景 安装集群后Controller和Agent之间需要进行数据通信,在通信的过程中采用了Kerberos认证,出于对集群性能的考虑,通信过程默认不加密,对于一些安全要求较高用户可以采用以下方式进行加密。 该章节仅适用于MRS 3.x及之后版本。
选择“FILE”,表示按文件分割源文件,即每个map处理一个或多个完整的源文件,同一个源文件不可分配至不同map,完成数据导入后保持源文件的目录结构。 选择“SIZE”,表示按大小分割源文件,即每个map处理一定大小的输入文件,同一个源文件可分割至多个map,数据保存至输出目录时保存的文件数与ma
删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。 “APPEND”:在旧文件尾部合并新文件内容。合并操作只
新写入数据版本为1,新数据入库时更新相同主键的数据,插入不同主键的数据并删除版本为0的所有原有数据。下一次新写入数据版本为0,依次交替更新数据版本。 INCREMENT:增量导入,更新相同主键的数据,插入不同主键的数据,保留原有数据。 INSERT:普通导入,插入数据,主键重复会导致任务失败。
创建Loader数据导出作业 使用Loader导出MRS集群内数据 使用Loader从HDFS/OBS导出数据到SFTP服务器 使用Loader从HBase导出数据到SFTP服务器 使用Loader从Hive导出数据到SFTP服务器 使用Loader从HDFS/OBS导出数据到关系型数据库
该方式是YARN内部的认证方式,不需要用户配置。 - 当前一个Flink集群只支持一个用户,一个用户可以创建多个Flink集群。 加密传输 Flink整个系统存在三种加密传输方式: 使用Yarn内部的加密传输方式:Flink yarn client与Yarn Resource Manager、Yarn Resource
配置Flume非加密传输数据采集任务 生成Flume服务端和客户端的配置文件 使用Flume服务端从本地采集静态日志保存到Kafka 使用Flume服务端从本地采集静态日志保存到HDFS 使用Flume服务端从本地采集动态日志保存到HDFS 使用Flume服务端从Kafka采集日志保存到HDFS
配置Flume非加密传输数据采集任务 生成Flume服务端和客户端的配置文件 使用Flume服务端从本地采集静态日志保存到Kafka 使用Flume服务端从本地采集静态日志保存到HDFS 使用Flume服务端从本地采集动态日志保存到HDFS 使用Flume服务端从Kafka采集日志保存到HDFS
使用Loader从HBase导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HBase导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。 获取SF
更新MRS集群加密密钥 在安装集群时,系统将自动生成加密密钥key值以对集群的部分安全信息(例如所有数据库用户密码、密钥文件访问密码等)进行加密存储。在集群安装成功后,如果原始密钥不慎意外泄露或者需要使用新的密钥,系统管理员可以通过以下操作手动更改密钥值。 对系统的影响 更新集群
元数据管理 当创建MRS集群选择部署Hive和Ranger组件时,MRS提供多种元数据存储方式,您可以根据自身需要进行选择: 本地元数据:元数据存储于集群内的本地GaussDB中,当集群删除时元数据同时被删除,如需保存元数据,需提前前往数据库手动保存元数据。 外置数据连接:MRS
DistCP作业导入导出数据常见问题 问:DistCP类型作业导入导出数据时,是否会对比数据的一致性? 答:DistCP类型作业导入导出数据时不会对比数据的一致性,只是对数据进行复制,不会修改数据。 问:DistCP类型作业在导出时,遇到OBS里已经存在的文件是如何处理的? 答:
textfile; ZSTD压缩格式的表和其他普通压缩表的SQL操作没有区别,可支持正常的增删查及聚合类SQL操作。 父主题: Hive数据存储及加密配置
时,设置表文件分布的locator信息,当使用insert语句向该表中插入数据时会将该表的数据文件存放在相同的存储节点上(不支持其他数据导入方式),从而使后续的多表关联的数据计算更加方便和高效。表格式只支持TextFile和RCFile。 本章节适用于MRS 3.x及后续版本。 操作步骤
时,设置表文件分布的locator信息,当使用insert语句向该表中插入数据时会将该表的数据文件存放在相同的存储节点上(不支持其他数据导入方式),从而使后续的多表关联的数据计算更加方便和高效。支持HDFS的Colocation功能的Hive表格式只有TextFile和RCFile。