检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何通过集群外的节点访问MRS集群? 创建集群外Linux操作系统ECS节点访问MRS集群 创建一个集群外ECS节点,具体请参考购买弹性云服务器。 ECS节点的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 在VPC管理控制台,申请一个弹性IP地址,并与ECS绑定。
SHOW显示数据库和表信息 本章节主要介绍ClickHouse显示数据库和表信息的SQL基本语法和使用说明。 基本语法 show databases show tables 使用示例 --查询数据库 show databases; ┌─name────┐ │ default
QL语句,单独调优。如果SQL也无调优余地,集群资源达到瓶颈,需要通过扩容来提升查询性能,达到调优目标。 父主题: ClickHouse数据库调优
角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 用户无法使用Kudu服务。 可能原因 Kudu有实例存在异常。 处理步骤 处理Kudu实例异常 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”页面,找到“ALM-29100 Kudu服务异常”告警。
行权限。如果这些文件产生在该告警的监控范围内,那么系统会上报该告警,告警原因可以看到是由于产生的临时文件权限异常导致,可以参照上述告警处理流程处理该告警,或者确认权限异常文件为临时文件后,可以直接删除。sed命令产生的临时文件类似于下图。 收集故障信息。 在FusionInsight
产生告警的主机名。 对系统的影响 omm用户过期,Manager各节点互信不可用,无法对服务提供管理功能。 可能原因 该主机omm用户即将过期。 处理步骤 检查系统中omm用户是否即将过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l
omm密码过期,Manager各节点互信不可用,无法对服务提供管理功能,crontab计划任务无法执行,影响ClickHouse业务。 可能原因 该主机omm密码即将过期。 处理步骤 检查系统中omm密码是否即将过期。 以root用户登录集群故障节点,用户密码为安装前用户自定义,请咨询系统管理员。 执行chage -l
将无法找回,影响分析排查组件的业务行为。 可能原因 服务审计日志过大。 OMS备份路径存储空间不足。 服务所在某一个主机的存储空间不足。 处理步骤 检查是否服务审计日志过大。 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行的,查看该告警的主机地址,附加信息内容。
系统当前指标取值满足自定义的告警设置条件。 对系统的影响 HDFS文件数过多可能造成HDFS系统响应慢或磁盘被占满。 可能原因 HDFS文件数超过阈值。 处理步骤 检查系统中的文件数量。 在FusionInsight Manager首页,查看当前的HDFS文件数。HDFS文件数可以通单击“集群 >
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
状态和Z状态。或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
除。 是,处理完毕。 否,执行4。 手动清除此告警,后续删除主机前务必进行退服操作。 在FusionInsight Manager界面,选择“集群 > 主机”,查看1中获取的节点是否健康。 是,执行7。 否,执行6。 参考ALM-12006 节点故障的操作步骤进行处理,节点恢复正常后,查看本告警是否恢复。
正常执行,没有任何影响。 可能原因 指定的超时时间少于所需执行时间。 任务运行的队列资源不足。 任务数据倾斜,导致一些任务处理的数据量大,执行时间长。 处理步骤 检查超时时间是否正确设置。 在FusionInsight Manager首页,选择“运维 > 告警 > 告警”,弹出告警页面。
下线,多个节点同时出现数据目录状态异常,可能会导致部分Partition不可用。 可能原因 数据目录权限被篡改。 数据目录所在磁盘故障。 处理步骤 检查故障的数据目录权限。 根据告警提示的主机信息,登录到该节点上。 查看告警详细信息中所提示的数据目录及其子目录,属组是否为omm:wheel。
操作,导致Kafka服务长时间处于分区不均衡状态,可能会影响业务读写流量性能降低。 可能原因 迁移的分区数据量过大,限流参数设置的太小。 处理步骤 登录KafkaUI页面。 使用具有KafkaUI页面访问权限的用户,登录FusionInsight Manager。 选择“集群 >
RangerAdmin状态异常”的告警。 是,执行6。 否,执行8。 参考“ALM-45276 RangerAdmin状态异常”告警的处理步骤进行处理。 等待5-10分钟后,观察界面告警是否清除。 是,处理完毕。 否,执行8。 Ldap服务异常。 在FusionInsight Manager首页,选择“运维 >
状态和Z状态,或进程可能被挂起进入T状态。 处理步骤 查看进程是否处于D、Z、T状态 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,等待约10分钟后,在告警列表中查看该告警是否自动清除。 是,处理完毕。 否,查看该告警详细信息,记录上报告警的主机IP地址。执行2。
Status:FAILURE”,则说明磁盘处于亚健康状态,联系运维人员处理。 确认处理完成后,可在FusionInsight Manager页面,手动清除该告警,查看系统在定时检查时是否会再次产生此告警。 是,执行6。 否,处理完毕。 收集故障信息 在FusionInsight Manager界面,选择“运维
时本地盘上的热数据变冷后,无法移动到OBS上。 可能原因 ClickHouse访问OBS的endpoint等参数错误。 OBS服务异常。 处理步骤 检查冷热分离相关配置信息是否正确。如果不正确,修改错误配置,重启ClickHouse实例,等待3分钟后观察告警是否恢复。 是,操作结束。
ace部分异常报错信息,如图2所示。 图1 CDL任务异常 图2 trace部分异常报错信息 按照任务报错信息处理完成后,重新运行任务,查看是否可以运行成功。 是,处理完毕。 否,则执行7。 收集故障信息。 在FusionInsight Manager界面,选择“运维 > 日志 >