检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据加工 建议使用Hive/Spark进行数据批量加工,FilkSQL进行数据增量加工。 数据入库 建议使用CDL(增量实时同步)和Loader(批量同步)工具进行数据同步,也可选择HDFS外表(CK集群只支持X86平台)用户自己写调度程序进行数据导入。
转换步骤配置不正确时,传输的数据将无法转换并成为脏数据,脏数据标记规则如下: 任意输入类型步骤中,原数据包含字段的个数小于配置字段的个数,或者原数据字段值与配置字段的类型不匹配时,全部数据成为脏数据。
或者原数据字段值与配置字段的类型不匹配时,全部数据成为脏数据。
(普通模式不涉及) 如需在集群间拷贝数据,拷贝数据的集群双方都需要启用集群间拷贝数据功能。 操作步骤 登录安装客户端的节点。 执行以下命令,切换到客户端安装目录。 cd /opt/client 执行以下命令配置环境变量。
登录源端集群的FusionInsight Manager,选择“集群 > 服务 > Hive > 配置”,搜索“hdfs.site.customized.configs”,新增自定义参数“dfs.namenode.rpc-address.haclusterX”,值为“目标集群主NameNode
说明: 如果以MRS Kafka作为thirdparty-kafka源端,端口号可登录Manager界面,选择“集群 > 服务 > Kafka > 配置”,在搜索框中搜索端口,根据相应的加密协议获取对应的端口号。
使用MRS Spark SQL访问DWS表 应用场景 华为云提供MapReduce服务(MRS),可在云上快速构建和运营全栈云原生大数据平台。它包含HDFS、Hive、HBase、Spark等大数据组件,专为分析海量企业数据而量身定制。
SQLServer全数据类型导入HDFS数据跳过 问题 SQLServer全数据类型导入HDFS,数据全部跳过。 答案 数据中包含SQLServer中特有的Timestamp类型,该数据类型与时间和日期无关,需要替换为Datetime类型。 父主题: Loader常见问题
kinitKafka用户 登录FusionInsight Manager,选择“集群 > 待操作的集群名称 > 服务 > ZooKeeper > 配置 > 全部配置”,搜索参数“clientPort”,记录“clientPort”的参数值。
典型场景:从关系型数据库导入数据到Hive 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到Hive。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的Hive表。 获取关系型数据库使用的用户和密码。
数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可支持各种数据挖掘和机器学习算法。 流式处理(Streaming Processing):支持秒级延迟的流式处理,可支持多种外部数据源。
删除数据连接 功能介绍 删除数据连接。 调用方法 请参见如何调用API。
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间复制功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间复制功能。
说明: 使用临时表是为了使得导出数据到数据库时,不会在目的表中产生脏数据。只有在所有数据成功写入临时表后,才会将数据从临时表迁移到目的表。使用临时表会增加作业的执行时间。 tmp_test 单击“保存并运行”,开始保存并运行作业。
配置参数 登录FusionInsight Manager系统,选择“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,搜索以下参数。
典型场景:从关系型数据库导入数据到HBase 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HBase。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HBase表或phoenix表。
准备待导入的数据文件,并将数据文件上传到客户端节点目录,例如上传到目录“/opt/data”。
配置字段分割长度,大于原字段值的长度,则数据分割失败,当前行成为脏数据 表输入 原始数据包含NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含的字段列数,全部数据成为脏数据。 配置转换字段类型,与原始数据实际类型不同,全部数据成为脏数据。
选择“集群 > 服务 > HDFS > 配置”,选择“全部配置”,搜索以下参数名并修改参数值。 “dfs.balancer.auto.enable”表示是否启用自动执行Balance任务,默认值为“false”表示不启用,修改为“true”表示启用。
配置HDFS冷热数据迁移 配置场景 冷热数据迁移工具根据配置的策略移动HDFS文件。配置策略是条件或非条件规则的集合。如果规则匹配文件集,则该工具将对该文件执行一组行为操作。 冷热数据迁移工具支持以下规则和行为。