检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群在线扩缩容 大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,MRS会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行
配置NameNode黑名单功能 配置场景 本章节适用于MRS 3.x及后续版本。 在现有的缺省DFSclient failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。
使用Hive CBO功能优化查询效率 操作场景 在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。
自动弹性伸缩 特性简介 随着企业的数据越来越多,越来越多的企业选择使用Spark/Hive等技术来进行分析,由于数据量大,任务处理繁重,资源消耗较高,因此使用成本也越来越高。当前并不是每个企业在每时每刻在进行分析,而一般是在一天的一个时间段内进行分析汇总,因此MRS提供了弹性伸缩
节点自定义引导操作 特性简介 MRS提供标准的云上弹性大数据集群,目前可安装部署包括Hadoop、Spark等大数据组件。当前标准的云上大数据集群不能满足所有用户需求,例如如下几种场景: 通用的操作系统配置不能满足实际数据处理需求,例如需调大系统最大连接数。 需要安装自身业务所需
配置NameNode黑名单功能 配置场景 本章节适用于MRS 3.x及后续版本。 在现有的缺省DFSclient failover proxy provider中,一旦某进程中的一个NameNode发生故障,在同一进程中的所有HDFS client实例都会尝试再次连接NameNode,导致应用长时间等待超时。
HBase如何关闭HDFS多路读功能 现象描述 MRS 3.3.1及之后版本,HBase默认适配开启HDFS多路读功能(HDFS多路读相关介绍请参见配置HDFS多路读)以降低读取延迟及适应网络变化,相关参数如表1所示。 表1 HBase适配HDFS多路读相关参数 参数名称 参数描述
Flink作业引擎概述 Flink WebUI提供基于Web的可视化开发平台,用户只需要编写SQL即可开发作业,极大降低作业开发门槛。同时通过作业平台能力开放,支持业务人员自行编写SQL开发作业来快速应对需求,大大减少Flink作业开发工作量。 Flink WebUI功能仅支持MRS
数据文件。 容量规格 ConfigNode容量规格 当创建新的存储组时,IoTDB默认为该存储组分配10000个槽位,数据写入时根据写入的设备名和时间值,分配或创建一个data region并挂载在某个槽位上。所以ConfigNode的内存容量占用跟存储组个数和该存储组持续写入的时间相关。
附加信息 主机名 产生告警的主机名。 磁盘名 产生告警的磁盘名。 详细信息 慢盘隔离描述信息。 对系统的影响 处于隔离状态的磁盘或者节点不能及时恢复,可能会对大数据组件运行产生影响,进而影响用户业务使用。 可能原因 磁盘或者节点隔离状态超过慢盘处理超时配置时间。 处理步骤 检查慢盘处理超时原因。
素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键缩小键/值对列表。MapReduce起到了将大事务分散到不同设备处理的能力,这样原来必须用单台较强服务器才能运行的任务,在分布式环境下也能完成。 更多信息,请参阅MapReduce教程。 MapReduce结构
查找Manager用户 功能简介 通过访问Manager接口完成查找用户。 代码样例 以下代码片段是查找用户的示例,在“rest”包的“UserManager”类的main方法中。 //访问Manager接口完成查找用户列表 operationName =
集群生命周期管理 MRS支持集群的生命周期管理包括创建集群和删除集群。 创建集群:支持用户定制集群的类型、组件范围、各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,MRS将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创
使用External Shuffle Service提升性能 操作场景 Spark系统在运行含shuffle过程的应用时,Executor进程除了运行task,还要负责写shuffle数据,给其他Executor提供shuffle数据。当Executor进程任务过重,导致GC而不
升级Master节点规格 MRS大数据集群采用Manager实现集群的管理,而管理集群的相关服务,如HDFS存储系统的NameNode,Yarn资源管理的ResourceManager,以及MRS的Manager管理服务都部署在集群的Master节点上。 随着新业务的上线,集群规
启用集群间拷贝功能备份集群数据 操作场景 当用户需要将保存在HDFS中的数据从当前集群备份到另外一个集群时,需要使用DistCp工具。DistCp工具依赖于集群间拷贝功能,该功能默认未启用。两个集群都需要配置。 该任务指导MRS集群管理员在MRS修改参数以启用集群间拷贝功能。 对系统的影响
HDFS基本原理 HDFS是Hadoop的分布式文件系统(Hadoop Distributed File System),实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写,多次读”的特征,而数据“写”操作是顺序写,也就是在文件创建时的写入或者在现有文件
m。 代码样例 下面代码片段在com.huawei.storm.example.common.RandomSentenceSpout类中,作用在于将收到的字符串拆分成单词。 /** * {@inheritDoc} */ @Override public
MRS集群中的弹性伸缩功能如何收费? 问: MRS集群中的弹性伸缩功能如何收费? 答: 在创建集群时,Task节点只配置了弹性伸缩的取值范围,而没有配置实例数量时,产品报价不会产生收费。如果客户配置了实例数量,产品报价会在浏览器下方即时显示出来。 如果在集群使用时,配置的弹性伸缩
下面代码片段在com.huawei.storm.example.common包的RandomSentenceSpout类的nextTuple方法中,作用在于将收到的字符串拆分成单词。 /** * {@inheritDoc} */ @Override public