检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flume启动失败 问题现象 安装Flume服务或重启Flume服务失败。 原因分析 Flume堆内存设置的值大于机器剩余内存,查看Flume启动日志: [CST 2019-02-26 13:31:43][INFO] [[checkMemoryValidity:124]] [GC_OPTS
Storm日志介绍 本章节内容适用于MRS 3.x及后续版本。 日志描述 日志路径:Storm相关日志的默认存储路径为“/var/log/Bigdata/storm/角色名”(运行日志),“/var/log/Bigdata/audit/storm/角色名”(审计日志)。 Nimb
SparkSQL权限介绍 SparkSQL权限 类似于Hive,SparkSQL也是建立在Hadoop上的数据仓库框架,提供类似SQL的结构化数据。 MRS提供用户、用户组和角色,集群中的各类权限需要先授予角色,然后将用户或者用户组与角色绑定。用户只有绑定角色或者加入绑定角色的用户组,才能获得权限。
ALM-24001 Flume Agent异常(2.x及以前版本) 告警解释 Flume Agent监控模块对Flume Agent状态进行监控,当Flume Agent进程故障时,系统产生此告警。 当检测到Flume Agent进程故障恢复,且告警处理完成时,告警恢复。 告警属性
ALM-16053 Hive的HQL最近5分钟平均提交时间超过阈值 告警解释 系统周期性检测HQL平均提交时间,该时间为调用MapReduce/Spark/Tez接口提交Yarn作业的时间,包含上传依赖的临时Jar包、切分文件等时间。当最近5分钟HQL的平均提交时间超过阈值时上报该告警。
修改MRS集群节点机架信息 大型集群的所有主机通常分布在多个机架上,不同机架间的主机通过交换机进行数据通信,且同一机架上的不同机器间的网络带宽要远大于不同机架机器间的网络带宽。在这种情况下网络拓扑规划应满足以下要求: 为了提高通信速率,希望不同主机之间的通信能够尽量发生在同一个机架之内,而不是跨机架。
ALM-14001 HDFS磁盘空间使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS集群磁盘空间使用率,并把实际的HDFS集群磁盘空间使用率和阈值相比较。HDFS集群磁盘使用率指标默认提供一个阈值范围。当HDFS集群磁盘空间使用率超出阈值范围时,产生该告警。
HBase基本原理 数据存储使用HBase来承接,HBase是一个开源的、面向列(Column-Oriented)、适合存储海量非结构化数据或半结构化数据的、具备高可靠性、高性能、可灵活扩展伸缩的、支持实时数据读写的分布式存储系统。更多关于HBase的信息,请参见:https://hbase
ALM-50214 FE中处理任务的线程池中正在排队的任务数超过阈值 告警解释 系统每30秒周期性检查FE中处理任务的线程池中正在排队的任务数,当检查到该值超出阈值(默认值为10)时产生该告警。该线程池为NIO MySQL Server用于处理任务的线程池。 当FE中处理任务的线
ALM-12047 网络读包错误率超过阈值 告警解释 系统每30秒周期性检测网络读包错误率,并把实际错误率和阈值(系统默认阈值0.5%)进行比较,当检测到网络读包错误率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
ALM-12046 网络写包丢包率超过阈值 告警解释 系统每30秒周期性检测网络写包丢包率,并把实际丢包率和阈值(系统默认阈值0.5%)进行比较,当检测到网络写包丢包率连续多次(默认值为5)超过阈值时产生该告警。 用户可通过“运维 > 告警 > 阈值设置 > 待操作集群的名称 >
ALM-16003 Background线程使用率超过阈值 告警解释 系统每30秒周期性检测Background线程使用率情况,默认阈值为90%。如果Hive使用的background线程池使用率超过阈值,则发出告警。 告警属性 告警ID 告警级别 是否自动清除 16003 重要
ALM-45433 ClickHouse AZ拓扑检查异常 告警解释 在已经部署了ClickHouse的集群开启跨AZ高可用功能,开启前后ClickHouse的拓扑不会变化,此时如果同一shard的副本节点都在同一个AZ内,不能满足跨AZ高可用要求,产生该告警。 当系统检测到所有
mapred-default.xml文件解析异常导致WebHCat启动失败 用户问题 MRS的Hive服务故障,重新启动后,Master2节点上的HiveServer和WebHCat进程启动失败,Master1节点进程正常。 原因分析 登录Master2节点,查看“/var/lo
ALM-45744 Guardian TokenServer RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测TokenServer服务RPC处理平均时间,当连续5次检测到TokenServer实例RPC处理平均时间超出阈值时产生该告警。 当系统检测到TokenSer
Apache Log4j2 远程代码执行漏洞(CVE-2021-44228)公告 漏洞描述 近日,华为云关注到Apache Log4j2存在一处远程代码执行漏洞(CVE-2021-44228),在引入Apache Log4j2处理日志时,会对用户输入的内容进行一些特殊的处理,攻击
ALM-50219 当前查询执行线程池等待队列的长度超过阈值 告警解释 系统每30秒周期性检查当前查询执行线程池等待队列的长度超过阈值,当检查到该值超出阈值(默认值为20)时产生该告警。 当前查询执行线程池等待队列的长度低于阈值时,告警清除。 告警属性 告警ID 告警级别 是否可自动清除
规划HDFS容量 HDFS DataNode以Block的形式,保存用户的文件和目录,同时在NameNode中生成一个文件对象,对应DataNode中每个文件、目录和Block。 NameNode文件对象需要占用一定的内存,消耗内存大小随文件对象的生成而线性递增。DataNode
ALM-38010 存在单副本的Topic 告警解释 系统在Kafka的Controller所在节点上,每60秒周期性检测各个Topic的副本数,当检测到某个Topic的副本数为1时,产生该告警。 告警属性 告警ID 告警级别 是否自动清除 38010 重要 否 告警参数 参数名称
ALM-14007 HDFS NameNode内存使用率超过阈值(2.x及以前版本) 告警解释 系统每30秒周期性检测HDFS NameNode内存使用率,并把实际的HDFS NameNode内存使用率和阈值相比较。HDFS NameNode内存使用率指标默认提供一个阈值范围。当HDFS