检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产生告警的集群名称。 服务名 产生告警的集群内服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Broker实例扩容后长时间未完成分区均衡操作,导致Kafka服务长时间处
集群监测21401端口,普通模式集群监测21400端口。 是,执行4。 否,重启RangerAdmin故障实例或Ranger服务,执行3。 重启服务期间服务不可用,业务中断。重启实例期间实例不可用,当前实例节点任务会执行失败。 在告警列表中查看“RangerAdmin状态异常”告警是否清除。
产生告警的集群或者系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名 对系统的影响 监控指标上报CES失败,在CES中无法看到MRS云服务的监控指标。 可能原因 权限问题请求CES接口失败。 网络问题上报CES数据失败。 服务内部问题导致上报CES数据失败。
exampleUser为提交任务的用户名。 在提交任务的用户和非job.properties文件均无变更的前提下,客户端安装目录/Oozie/oozie-client-*/examples目录一经上传HDFS,后续可重复使用,无需多次提交。 解决Spark和Yarn关于jetty的jar冲突。 hdfs
告警属性 告警ID 告警级别 是否自动清除 12190 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称 服务名 产生告警的服务名称 角色名 产生告警的角色名称 主机名 产生告警的主机名称 拓扑名 产生告警的Knox拓扑名称 对系统的影响 Knox高出阈值的
集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。
集群不能存在被隔离的主机,如果存在,需要先恢复被隔离主机。 集群有以下要求: 请保持网络畅通,请勿随意拔插网线,避免因网络问题导致升级失败。 集群中各组件服务正常、各实例正常、无故障、无退服的实例。 安装补丁过程中对现行系统的影响 安装补丁过程中会重启OMS,会导致MRS Manager页面无法访问,预计持续10-20分钟。
Memory)。因此,提供数据汇聚功能特性,在基本不牺牲性能的情况下尽力避免OOM。 配置描述 提供两种不同的数据汇聚功能配置选项,两者在Spark JDBCServer服务端的tunning选项中进行设置,设置完后需要重启JDBCServer。 表1 参数说明 参数 说明 默认值 spark.sql.bigdata
告警属性 告警ID 告警级别 是否自动清除 12083 次要 是 告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 ommdba密码过期,OMS数据库无法管理,数据不能访问。
FS Action节点中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name FS活动的名称 delete 删除指定的文件和目录的标签 move 将文件从源目录移动到目标目录的标签 chmod 修改文件或目录权限的标签 path 当前文件路径 source 源文件路径
Hue配置过期。 MRS 2.0.1及之后版本的单Master节点集群中,Hue服务需要手动修改配置。 解决办法 Hue配置过期,重启Hue服务即可。 在MRS 2.0.1及之后版本,单Master节点的集群Hue服务需要手动修改配置。 登录Master节点。 执行hostname -i获取本机IP。
Windows系统,推荐Windows 7及以上版本。 安装JDK 开发环境的基本配置。版本要求:1.8及以上。 安装和配置Eclipse 用于开发OpenTSDB应用程序的工具。 网络 确保客户端与OpenTSDB服务主机在网络上互通。 父主题: 准备OpenTSDB应用开发环境
启动停止MRS集群组件对系统影响 服务之间存在依赖关系,对某服务执行启动、停止和重启操作时,与该服务存在依赖关系的服务将受到影响。 启动某服务,该服务依赖的下层服务需先启动,服务功能才可生效。 停止某服务,依赖该服务的上层服务将无法提供功能。 重启某服务,依赖该服务且启动的上层服务需重启后才可生效。
参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Impalad不能执行sql或执行sql超时,会影响到数据的读写。 可能原因 该Impalad服务维护的查询数量过多。 处理步骤 登录FusionInsight
keytab或jaas.conf(二选一),krb5.conf(必须)放入conf目录中。 此工具暂时只支持Carbon表。 此工具会初始化Carbon环境和预读取表的元数据到JDBCServer,所以更适合在多主实例、静态分配模式下使用。 父主题: Spark运维管理
play)的参数名称。 parameter_value 将要设置的“parameter_name”的新值。 注意事项 以下为分别使用SET和RESET命令进行动态设置或清除操作的属性: 表2 属性描述 属性 描述 hoodie.insert.shuffle.parallelism
告警参数 参数名称 参数含义 来源 产生告警的集群或系统名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 omm密码过期,Manager各节点互信不可用,无法对服务提供管理功能,crontab计划任务无法执行,影响ClickHouse业务。
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 Flume证书文件已经非法或损坏,功能受限,Flume客户端将无法访问Flume服务端。 可能原因 Flume证书文件非法或损坏。 处理步骤
告警属性 告警ID 告警级别 是否自动清除 16003 重要 是 告警参数 参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger condition 系统当前指标取值满足自定义的告警设置条件。
告警的服务实例和主机名。 检查RegionServer堆内存配置。 在FusionInsight Manager的告警列表中,查看1中的告警实例是否有“HBase服务进程堆内存使用率超过阈值”告警产生。 是,执行3。 否,执行5。 参考“ALM-19008 HBase服务进程堆内