检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
End Action 功能描述 流程任务执行的终点,每个流程任务有且仅有一个该节点。 参数解释 End Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name end活动的名称 样例代码 <end name="end"/> 父主题: Oozie样例代码说明
快速使用HBase进行离线数据分析 HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。本章节提供从零开始使用HBase的操作指导,通过客户端实现创建表,往表中插入数据,修改表,读取表数据,删除表中数据以及删除表的功能。 背景信息 假定用户开发一个应用程序,用于管理
配置HDFS单目录文件数量 操作场景 通常一个集群上部署了多个服务,且大部分服务的存储都依赖于HDFS文件系统。当集群运行时,不同组件(例如Spark、Yarn)或客户端可能会向同一个HDFS目录不断写入文件。但HDFS系统支持的单目录文件数目是有上限的,因此用户需要提前做好规划
Yarn模式下动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
Alluxio应用开发简介 Alluxio简介 Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易、更快地被访问。同时使得应用程序能够通过一个公共接口连接到许多存储系统。
ALM-12054 证书文件失效 告警解释 系统每天二十三点检查当前系统中的证书文件是否失效(即当前集群中的证书文件是否过期,或者尚未生效)。如果证书文件失效,产生该告警。 当重新导入一个正常证书,并且状态不为失效状态,在下一个整点触发告警检测机制后,该告警恢复。 MRS 3.2
ALM-16002 Hive SQL执行成功率低于阈值 告警解释 系统每30秒周期性检测执行的HQL成功百分比,HQL成功百分比由一个周期内Hive执行成功的HQL数/Hive执行HQL总数计算得到。该指标可通过“集群 > 待操作的集群名称 > 服务 > Hive > 实例 >
运行HiveSql作业 用户可将自己开发的程序提交到MRS中,执行程序并获取结果,本章节指导您如何在MRS集群中提交一个HiveSql作业。 HiveSql作业用于提交Hive SQL语句和SQL脚本文件查询和分析数据,包括SQL语句和Script脚本两种形式,如果SQL语句中涉及敏感信息,也可使用脚本文件方式提交。
快速创建和使用Kafka流式数据处理集群 操作场景 本入门提供从零开始创建流式分析集群并在Kafka主题中产生和消费消息的操作指导。 Kafka集群提供一个高吞吐量、可扩展性的消息系统,广泛用于日志收集、监控数据聚合等场景。Kafka可实现高效的流式数据采集、实时数据处理存储等。
如何设置Spark作业执行时自动获取更多资源? 问 如何设置Spark作业执行时自动获取更多资源? 答 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),如果分配给它多个Executor,可是却没有任何任务分
配置Yarn模式下Spark动态资源调度 操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务(比如JDBCServer),如果分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。
设置HBase和HDFS的句柄数限制 操作场景 当打开一个HDFS文件时,句柄数限制导出,出现如下错误: IOException (Too many open files) 此时可以参考该章节设置HBase和HDFS的句柄数。 设置HBase和HDFS的句柄数限制 联系集群管理员
配置HDFS单目录文件数量 操作场景 通常一个集群上部署了多个服务,且大部分服务的存储都依赖于HDFS文件系统。当集群运行时,不同组件(例如Spark、Yarn)或客户端可能会向同一个HDFS目录不断写入文件。但HDFS系统支持的单目录文件数目是有上限的,因此用户需要提前做好规划
配置Yarn权限控制开关 配置场景 在安全模式的多租户场景下,一个集群可以支持多个用户使用以及支持多个用户任务提交、运行,用户之间是不可见,需要有一个权限控制机制,使用户的任务信息不被其他用户获取。 例如,用户A提交的应用正在运行,此时用户B登录系统并查看应用列表,用户B不应该访问到A用户的应用信息。
Start Action 功能描述 流程任务的执行入口,每个流程任务有且仅有一个该节点。 参数解释 Start Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 to 后继action节点的名称 样例代码 <start to="mr-dataLoad"/>
新安装的集群HBase启动失败 问题背景 新安装的集群HBase启动失败,查看RegionServer日志报如下错误: 2018-02-24 16:53:03,863 | ERROR | regionserver/host3/187.6.71.69:21302 | Master passed
快速使用Hive进行数据分析 Hive是基于Hadoop的一个数据仓库工具,可将结构化的数据文件映射成一张数据库表,并提供类SQL的功能对数据进行分析处理,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 背景信息
概述 “算子帮助”章节适用于MRS 3.x及后续版本。 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。
Loader算子说明 转换流程 Loader读取源端数据,通过输入算子将数据按规则逐一转换成字段,再通过转换算子,对这些字段做清洗或转换,最后通过输出算子将处理后的字段,输出到目标端。 每个作业,如果进行数据转换操作,有且只能有一个输入算子,有且只能有一个输出算子。 不符合转换规则的数据,将成为脏数据跳过。
随机值转换 概述 “随机值转换”算子,用于配置新增值为随机数的字段。 输入与输出 输入:无 输出:随机值字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 输出字段名 配置生成随机值的字段名。 string 是 无 长度 配置字段长度。 map 是 无 类型