检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运行HiveSql作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个HiveSql作业。 HiveSql作业用于提交Hive SQL语句和SQL脚本文件查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句中涉及敏感信息,也可使用脚本文件方式提交。
小值、最大值所在记录无法导入。 分区列空值 配置对数据库列中为null值记录的处理方式。值为“true”时,分区列的值为null的数据会被处理;值为“false”时,分区列的值为null的数据不会被处理。 是否指定分区列 是否指定分区列。 oracle-connector 表名 表名。
小,以改善并行性并避免混排大量数据。 将Clustering计划以avro元数据格式保存到时间线。 执行Clustering:使用执行策略处理计划以创建新文件并替换旧文件。 读取Clustering计划,并获得ClusteringGroups,其标记了需要进行Clustering的文件组。
数据源表都是同一张表。 由于直接在原表上执行insert overwrite可能会导致数据丢失或数据不一致的风险,建议首先使用一个临时表来处理数据。 操作步骤 假设存在如下一张表: user_data(user_group int, user_name string, update_time
AR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 无 数据处理规则 对字段的值做逆序操作。 传入数据为NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
AR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是 无 数据处理规则 对字段的值做逆序操作。 传入数据为NULL值,不做转换处理。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 样例 通过“CSV文件输入”算子,生成两个字段A和B。
OpenTSDB应用开发简介 OpenTSDB简介 OpenTSDB是一个基于HBase的分布式、可伸缩的时间序列数据库。OpenTSDB的设计目标是用来采集大规模集群中的监控类信息,并可实现数据的秒级查询,解决海量监控类数据在普通数据库中查询存储的局限性。 OpenTSDB使用场景有如下几个特点:
使用ZooKeeper客户端 ZooKeeper是一个开源的,高可靠的,分布式一致性协调服务。ZooKeeper设计目标是用来解决那些复杂,易出错的分布式系统难以保证数据一致性的。不必开发专门的协同应用,十分适合高可用服务保持数据一致性。 背景信息 在使用客户端前,除主管理节点以
点上对应路径下找不到对应的kdc.conf文件,无法获取kerberos认证所需信息,导致ApplicationMaster启动失败。 解决办法 在客户端提交任务时,在命令行中配置自定义的spark.driver.extraJavaOptions参数这样任务运行时就不会自动加载客
动后要向Driver进程注册信息,注册成功后,任务才能继续。从AppMaster日志中可以看出,无法连接至Driver,所以任务失败。 解决办法 请检查Driver进程所在的IP是否可以ping通。 启动一个Spark PI任务,会有类似如下打印信息。 16/05/11 18:07:20
快速使用Hive进行数据分析 Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,适合用于数据仓库的统计分析。 背景信息 假定
使用Oozie 并发提交大量oozie任务时,任务一直没有运行 Oozie调度HiveSQL作业报错处理 在MRS集群外客户端提交不了Oozie任务或两个小时才提交成功
DBservice的浮动IP配置有误,导致metastore节点IP无法正确连接浮动IP,或者是在与该ip建立互信的时候失败导致metastore启动失败。 处理步骤1 执行以下命令: source /opt/Bigdata/MRS_XXX/install/dbservice/.dbservice_profile
快速使用Hive进行数据分析 Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 背景信息 假定
x及后续版本。 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。 不符合转换规则的数据,将成为脏数据跳过。
BIGINT 时间格式 配置时间字段格式,时间格式如:“yyyyMMdd HH:mm:ss”。 string 否 无 数据处理规则 原始数据包含null值,不做转换处理。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 样例
Loader算子说明 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。 不符合转换规则的数据,将成为脏数据跳过。
BIGINT 时间格式 配置时间字段格式,时间格式如:“yyyyMMdd HH:mm:ss”。 string 否 无 数据处理规则 原始数据包含null值,不做转换处理。 配置输入字段列数,大于原始数据实际包含字段列数,全部数据成为脏数据。 遇到类型转换错误,当前数据保存为脏数据。 样例
算子帮助 概述 输入算子 转换算子 输出算子 关联、编辑、导入、导出算子的字段配置信息 配置项中使用宏定义 算子数据处理规则 父主题: 使用Loader
数据恢复后,需要重新启动HDFS的上层应用。 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份HDFS业务数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。