检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Hive堆内存使用率过高,会影响Hive任务运行的性能,甚至造成内存溢出导致Hive服务不可用。
详情以实际版本对应的操作指导为准。 CDM服务支持迁移的数据源可参考支持的数据源,数据源为Apache Hive时,不支持2.x版本,建议使用的版本为1.2.X、3.1.X,请执行搬迁前务必确认是否支持搬迁。 方案架构 Hive数据迁移分两部分内容: Hive的元数据信息,存储在MySQL等数据库中。MRS
登录FusionInsight Manager页面,选择“集群 > 待操作集群的名称 > 服务 > HDFS > 配置 > 全部配置”。 搜索并查看“dfs.storage.policy.enabled”的参数值是否为“true”,如果不是,修改为“true”,并单击“保存”,重启HDFS。
户,用于后续的安全登录,开启Kerberos服务的renewable和forwardable开关并且设置票据刷新周期,开启成功后重启kerberos及相关组件。 默认情况下,用户的密码有效期是90天,所以获取的keytab文件的有效期是90天。 Kerberos服务的renewa
产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 业务延迟:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致并发任务处理变慢、业务延迟。 业务失败:主机D状态和Z状态进程数过高时,无法创建新的业务进程,可能会导致作业运行失败。
问题背景与现象 3.1.2及之前的3.x版本集群,NameNode节点存在ALM-12027主机PID使用率超过阈值告警,节点Java进程可能出现“unable to create new native thread”报错。 原因分析 使用以下命令统计节点进程的线程数并排序。 ps -efT
X_POLICY_REF_ACCESS_TYPE_SEQ”等关于数据库信息,如何解决并正常安装Ranger? 回答 该现象可能出现在安装两个RangerAmdin实例的场景下,安装失败后,请先手动重启一个RangerAdmin,然后再逐步重启其他实例。 父主题: Ranger故障排除
sequence X_POLICY_REF_ACCESS_TYPE_SEQ”等关于数据库信息。 回答 该现象可能出现在安装两个RangerAmdin实例的场景下。 启动失败后,请先手动重启一个RangerAdmin,然后再逐步重启其他实例。 父主题: Ranger常见问题
执行大数据量的shuffle过程时Executor注册shuffle service失败 问题 执行超过50T数据的shuffle过程时,出现部分Executor注册shuffle service超时然后丢失从而导致任务失败的问题。错误日志如下所示: 2016-10-19 01:33:34
使用GLOBAL JOIN/IN替换普通的JOIN。 ClickHouse基于分布式表的查询会转换成所有分片的本地表的操作,再汇总结果。实际使用中,join和global join的执行逻辑差别很大,建议使用global join做分布式表查询。 【场景说明】 查询的集群有N个分片(shard)
应用场景 Flume是一个分布式、可靠和高可用的海量日志聚合的系统。它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。支持在系统中定制各类数据发送方,用于收集数据。同时,提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 Flume
er上的Region关闭所需的时间超过HBase的HMaster等待Region处于RIT状态的超时时间,HMaster会默认该Region下线,实际上该Region可能还处在flush memstore阶段。 发送RPC请求关闭Region之后,HMaster会判断该表的所有R
er上的Region关闭所需的时间超过HBase的HMaster等待Region处于RIT状态的超时时间,HMaster会默认该Region下线,实际上该Region可能还处在flush MemStore阶段。 发送RPC请求关闭Region之后,HMaster会判断该表的所有R
OperationHandler,查看另一个HiveServer发现在出错的时间段此实例有如下类似START_UP的打印,说明那段时间进程被停止过,后来又启动成功,提交的任务本来连接的是重启过的HiveServer实例,当这个实例被停止后,任务进程连接到另一个健康的HiveServer上导致报错。 2017-02-15
source_ip:源集群的HDFS的NameNode的业务地址。 source_port:源集群的HDFS的NameNode的端口号。 target_ip:目标集群的HDFS的NameNode的业务地址。 target_port:目标集群的HDFS的NameNode的端口号。 在弹出的“Dist
长时间运行的集群会因为曾经删除过大量的文件,或者集群中的节点做磁盘扩容等操作导致节点上出现磁盘间数据不均衡的现象。磁盘间数据不均衡会引起HDFS整体并发读写性能的下降或者因为不恰当的HDFS写策略导致业务故障。此时需要平衡节点磁盘间的数据密度,防止异构的小磁盘成为该节点的性能瓶颈。 本章节适用于MRS 3
source_ip:源集群的HDFS的NameNode的业务地址。 source_port:源集群的HDFS的NameNode的端口号。 target_ip:目标集群的HDFS的NameNode的业务地址。 target_port:目标集群的HDFS的NameNode的端口号。 在弹出的“Dist
ID使用率小于或等于阈值的90%时,告警恢复。 告警属性 告警ID 告警级别 是否自动清除 12027 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger
x版本集群,需执行以下操作: 若待退订的节点中部署了HDFS的DataNode、Yarn的NodeManager或HBase的RegionServer,需登录Manager退服相关实例,具体请参考退服和入服MRS角色实例。 在MRS管理控制台的“节点管理”页面,勾选需退订的节点,选择“节点操作 >
ClickHouse是一款开源的面向联机分析处理的列式数据库,其独立于Hadoop大数据体系,最核心的特点是压缩率和极速查询性能。同时,ClickHouse支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 ClickHouse核心的功能特性介绍如下: