检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Server2 HTTP端口(28000)是否响应curl请求,当返回结果不正确(连续2次检测超过20秒)时产生该告警,当curl请求在20秒内正确响应时,告警恢复。 除MRS 3.1.5的其他版本:系统每60秒周期性检测Impalad是否能执行select 1,当返回结果不正确(
系统每天凌晨1点开始检测当前系统中用户密码是否即将过期,如果用户密码即将过期(默认小于5天)则发送告警。 当系统中用户密码距离过期的时间大于等于5天(默认),告警恢复。 该告警仅适用于MRS 3.3.1及之后版本。 告警属性 告警ID 告警级别 是否可自动清除 12200 重要 是 告警参数
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登
expired”,查看“定位信息”获取告警所在节点主机名,以omm用户登录该主机,依次执行2~4,检查对应证书是否过期。如果都未过期,则请排查是否导入过其他类型证书,并重新导入证书文件。 检查系统中合法证书文件的有效期。 查看当前系统时间是否在CA证书的有效期内。 执行命令bash ${CONTROLLER_HOM
一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,严重影响性能。 在小文件场景下,您可以通过如下配置手动指定每个Task的数据量(Split Size),确保不会产生过多的Task,提高性能。
t5 ON o.order_id = t5.id; 多流Join场景流表个数不超过三个 当Join表过多时,状态后端压力太大会导致端到端时延增加。 【示例】实时Join维表数3个: CREATE TABLE table1(id int, param1 string) with(.
否,跳过此步骤。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登
议如下:Region总数小于10万个,“-Xmx”设置为4G;超过10万个,“-Xmx”设置为不小于6G;超过10万时,每增加35000个Region,增加2G的“-Xmx”,整体的“-Xmx”的大小不超过32G。 RegionServer的GC参数配置建议: 建议“-Xms”和
否,节点间网络互通,检查结束。 检查弹性伸缩是否关闭 登录华为云管理控制台界面,选择对应集群,单击“弹性伸缩”。 查看当前集群的弹性伸缩策略是否是关闭状态。 否,请跟业务方确认是否可以关闭,如果可以请关闭弹性伸缩,否则请另择时间进行补丁升级。 是,弹性伸缩关闭,检查结束。 检查Manager是否有正在运行的任务
控项,和阈值对比,查看阈值超过情况,找到内存使用百分比超阈值的节点。 通过增加节点、重新规划任务等方式,处理Tserver节点内存使用百分比过高的问题,或修改阈值。 在“运维 > 告警”页签,查看该告警是否恢复。 是,处理完毕。 否,执行4。 收集故障信息 在FusionInsight
--name=product" 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登录客户集群的主备节点,进入“/home/omm”目录。 查看是否存在紧急补丁的
Manager界面,查看右上角任务。 查看当前集群是否存在正在运行的任务。 是,等待任务运行结束。 否,检查结束。 检查集群是否有非标修改组件配置的操作 询问客户是否有做过相关操作。 查看该客户档案,是否有记录相关非标操作。 是,需要详细评估补丁跟非标配置的兼容性。 否,检查结束。 检查集群是否有安装紧急补丁 登
restart命令重启该服务(无影响,耗时不到1秒)。 Shutting down auditd done Starting auditd done 审计日志临时增加kill命令审计规则。 增加规则: auditctl -a exit,always -F arch=b64 -S kill -S tkill -S tgkill
WebUI 问题现象 集群扩容到300节点后,无法访问Yarn WebUI界面。 原因分析 可能是由于集群节点较多时,NodeManager数据增加,但是未修改实例的内存,导致ResourceManager进程的垃圾回收时间过长,影响ResourceManager进程正常提供服务,在访问YARN的原生界面时异常。
议如下:Region总数小于10万个,“-Xmx”设置为4G;超过10万个,“-Xmx”设置为不小于6G;超过10万时,每增加35000个Region,增加2G的“-Xmx”,整体的“-Xmx”的大小不超过32G。 RegionServer的GC参数配置建议 建议“-Xms”和“
连接MySQL数据源的MySQL用户密码。 - (可选)自定义配置。 单击“增加”可以增加自定义配置参数。配置MySQL数据源自定义参数,参考表2。 表2 MySQL数据源自定义配置参数 参数 描述 取值样例 mysql.auto-reconnect 是否自动重连。 true(默认值):开启自动重连。 false:关闭自动重连。
200 compaction.async.enabled 必填 是否开启在线压缩。将compaction操作转移到sparksql运行,提升写性能。 FALSE hive_sync.enable 选填 是否向Hive同步表信息。 True hive_sync.metastore