检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速创建和使用Hadoop离线数据分析集群 操作场景 本入门提供从零开始创建Hadoop离线数据分析集群并通过集群客户端提交一个wordcount作业的操作指导。wordcount是最经典的Hadoop作业,用于统计海量文本的单词数量。 Hadoop集群完全使用开源Hadoop生
MRS集群用户账号一览表 本章节介绍MRS集群内的相关默认用户信息。 账号一览表(MRS 3.x及之后版本) 用户分类 MRS集群提供以下3类用户,请系统管理员定期修改密码,不建议使用默认密码。 用户类型 使用说明 系统用户 通过FusionInsight Manager创建,是
MRS集群Task节点弹性伸缩概述 在大数据应用,尤其是实时分析处理数据的场景中,常常需要根据数据量的变化动态调整集群节点数量以增减资源。MRS的弹性伸缩规则功能支持根据集群负载对集群的Task节点进行弹性伸缩。如果数据量是按照周期进行有规律的变化,用户可以按照固定时间段来自动调
快速创建和使用启用安全认证的MRS集群 操作场景 本入门提供从零开始创建开启Kerberos认证的Hadoop分析集群并通过集群客户端提交一个wordcount作业的操作指导。wordcount是最经典的Hadoop作业,用于统计海量文本的单词数量。 Hadoop集群完全使用开源
Flume业务模型配置说明 业务模型配置指导 本章节适用于MRS 3.x及之后版本。 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。
Spark2x基本原理 Spark2x组件适用于MRS 3.x及后续版本。 简介 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能
流式写入Hudi表 HoodieDeltaStreamer流式写入 Hudi自带HoodieDeltaStreamer工具支持流式写入,也可以使用SparkStreaming以微批的方式写入。HoodieDeltaStreamer提供以下功能: 支持Kafka,DFS多种数据源接入
HBase开源增强特性 HBase开源增强特性:HIndex HBase是一个Key-Value类型的分布式存储数据库。每张表的数据按照RowKey的字典顺序排序,因此,如果按照某个指定的RowKey去查询数据,或者指定某一个RowKey范围去扫描数据时,HBase可以快速定位到
Flume业务模型配置说明 业务模型配置指导 本任务旨在提供Flume常用模块的性能差异,用于指导用户进行合理的Flume业务配置,避免出现前端Source和后端Sink性能不匹配进而导致整体业务性能不达标的场景。 本任务只针对于单通道的场景进行比较说明。 Flume业务配置及模
自定义购买MRS集群 本章节为您介绍如何在MRS管理控制台自定义创建一个新的MRS集群。 MRS包含了多种大数据组件,用户可基于企业大数据场景的业务场景、数据类型、可靠性要求以及资源预算等要求合理选择集群类型。 用户可以基于系统预置的集群模板快速购买一个集群,也可自行选择组件列表及高级配置特性,自定义购买集群。
常用参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置参数。 配置Stage失败重试次数 Sp
Flume业务配置指南 本章节适用于MRS 3.x及之后版本。 该操作指导用户完成Flume常用业务的配置。其他一些不太常用的Source、Channel、Sink的配置请参考Flume社区提供的用户手册(http://flume.apache.org/releases/1.9.0
Spark常用配置参数 概述 本节介绍Spark使用过程中的常用配置项。以特性为基础划分子章节,以便用户快速搜索到相应的配置项。如果用户使用MRS集群,本节介绍的参数大部分已经适配好,用户无需再进行配置。少数需要用户根据实际场景配置的参数,请参见快速配置Spark参数。 配置Stage失败重试次数
创建集群并执行作业 功能介绍 创建一个MRS集群,并在集群中提交一个作业。该接口不兼容Sahara。 (建议优先使用创建集群V2接口和创建集群并提交作业V2接口来完成创建集群或创建集群并提交作业的功能) 支持同一时间并发创建10个集群。 使用接口前,您需要先获取下的资源信息。 通过VPC创建或查询VPC、子网