检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
Spark应用开发流程介绍 Spark应用程序开发流程 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程都是相同的。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
OpenTSDB HTTP API接口介绍 OpenTSDB提供了基于HTTP或HTTPS的应用程序接口。请求方式是通过向资源对应的路径发送标准的HTTP请求,请求包含GET、POST方法。它的接口与开源OpenTSDB保持一致,请参见https://opentsdb.net/d
Flume数据写入组件失败 问题现象 Flume进程启动后,Flume数据无法写入到对应组件(本示例以服务端写入到HDFS为例)。 原因分析 HDFS未启动或故障。 查看Flume运行日志: 2019-02-26 11:16:33,564 | ERROR | [SinkRunne
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
Flink流式写Hudi表规则 Flink流式写Hudi表参数规范 Flink流式写Hudi表参数规范如下表所示。 表1 Flink流式写Hudi表参数规范 参数名称 是否必填 参数描述 建议值 Connector 必填 读取表类型。 hudi Path 必填 表存储的路径。 根据实际填写
配置HDFS Mover命令迁移数据 配置场景 Mover是一个新的数据迁移工具,工作方式与HDFS的Balancer接口工作方式类似。Mover能够基于设置的数据存储策略,将集群中的数据重新分布。 通过运行Mover,周期性地检测HDFS文件系统中用户指定的HDFS文件或目录,
配置ClickHouse冷热分离 本章节仅适用于MRS 3.3.1及之后版本。 操作场景 ClickHouse基于开源ClickHouse的multi-volume storage特性,允许将ClickHouse表存储在包含多个设备的卷当中。通过在volume中定义不同类型的磁盘
YARN应用开发简介 简介 Yarn是一个分布式的资源管理系统,用于提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer还可以周期性的在已有的代码上进行修改,可是
Spark应用开发流程介绍 Spark应用程序开发流程 Spark包含Spark Core、Spark SQL和Spark Streaming三个组件,其应用开发流程都是相同的。 开发流程中各阶段的说明如图1和表1所示。 图1 Spark应用程序开发流程 表1 Spark应用开发的流程说明
CSV文件输入 概述 “CSV文件输入”算子,用于导入所有能用文本编辑器打开的文件。 输入与输出 输入:文本文件 输出:多个字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 分隔符 CSV文件的列分隔符,用于分隔每行的数据。 string 是 , 换行符 用
HBase输入 概述 “HBase输入”算子,将HBase表的指定列转换成同等数量的输入字段。 输入与输出 输入:HBase表列 输出:字段 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通表)和phoenix表。
Guardian日志介绍 日志描述 日志路径:Guardian相关日志的存储路径为:“/var/log/Bigdata/guardian/token-server”。 日志归档规则:Guardian的运行日志启动了自动压缩归档功能,当日志大小超过50MB的时候(此日志文件大小可进
ClickHouse数据批量导入 本章节适用于MRS 3.3.0及之后版本。 操作场景 当同时存在较多待导入的数据文件,用户可以使用多线程导入工具批量导入ClickHouse。 前提条件 已安装ClickHouse客户端,例如客户端安装目录为“/opt/client”。 如果集群
配置AM作业自动保留 本章节适用于MRS 3.x及后续版本集群。 配置场景 在YARN中,ApplicationMaster(AM)与Container类似,都运行在NodeManager(NM)上(本文中忽略未管理的AM)。AM可能由于多种原因崩溃、退出或关闭。如果AM停止运行
MRS应用开发认证失败常见问题 现象描述 MRS样例工程调试运行过程发现认证失败。 处理流程 出现认证失败的原因很多,在不同场景中建议参考以下步骤来排查: 确认本应用所运行设备和集群网络上是否通畅,Kerberos认证所需的各类端口(TCP/UDP)是否可正常访问。 确认各个配置
ClickHouse本地表设计 规则 单表(分布式表)的记录数不要超过万亿,对于万亿以上表的查询,性能较差,且集群维护难度变大。单表(本地表)不超过百亿。 表的设计都要考虑到数据的生命周期管理,需要进行TTL表属性设置或定期老化清理表分区数据。 单表的字段建议不要超过5000列。
创建Bucket索引表调优 Bucket索引常用设置参数: Spark: hoodie.index.type=BUCKET hoodie.bucket.index.num.buckets=5 Flink index.type=BUCKET hoodie.bucket.index.num
Flume业务模型配置说明 业务模型配置指导 本章节适用于MRS 3.x及之后版本。 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。