检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Guardian”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
> 阈值设置 > 待操作的集群名称 > Guardian > RPC”,单击“TokenServer RPC处理平均时间”,单击“default”规则所在行的“操作”列的“修改”,将“紧急”或“重要”告警级别对应的“阈值”修改为告警出现后1天内监控值的峰值的150%,并单击“确定”保存。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选操作集群的“Presto ”,单击“确定”。 单击右上角的,设置日志收集的“开始时间”和“结束时间”,分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
选中“告警ID”为“44006”的告警,查看“定位信息”中的角色名并确定实例的IP地址。 单击“组件管理 > Presto > 实例 > Worker(对应上报告警实例IP地址) > 定制 > Presto进程GC时间”。单击“确定”,查看GC时间。 查看Worker进程的GC时间是否大于5秒。 是,执行1
JobHistory的GC时间 > JobHistory的总GC时间”修改阈值。 当JobHistory进程 GC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 43009 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName
参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 ResourceManager进程的垃圾回收时间过长,可能影响该R
登录ClickHouse客户端节点,连接报错的服务端,具体请参考ClickHouse客户端使用实践。 执行如下命令查看正在执行的SQL任务,查看当前的并发数: select count(*) from system.processes; 确认获得值大于等于100。 执行如下命令结束正在执行的查询类大SQL:
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Presto”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
> 阈值设置 > 待操作的集群名称 > Guardian > RPC”,单击“TokenServer RPC队列平均时间”,单击“default”规则所在行的“操作”列的“修改”,修改“紧急”或“重要”告警级别对应的“阈值”为告警出现后1天内监控值的峰值的150%,单击“确定”保存。
ode节点的HDFS客户端可能会长时间无响应,无法进行下一步操作。 回答 目前出现上述问题时使用的是默认配置,如表1所示,HDFS客户端到NameNode的RPC连接存在keep alive机制,保持连接不会超时,尽力等待服务器的响应,因此导致已经连接的HDFS客户端的操作会长时间无响应。
ode节点的HDFS客户端可能会长时间无响应,无法进行下一步操作。 回答 目前出现上述问题时使用的是默认配置,如表1所示,HDFS客户端到NameNode的RPC连接存在keep alive机制,保持连接不会超时,尽力等待服务器的响应,因此导致已经连接的HDFS客户端的操作会长时间无响应。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Presto”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Presto”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Presto”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“Spark2x”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 通过管理控制台提交作业 登录MRS管理控制台。 选择“现有集群”,选中一个运行中的集群并单击集群名称,进入集群信息页面。
JDBCServer的GC时间 > JDBCServer的总GC时间”修改阈值。 当JDBCServer进程 GC时间小于或等于阈值时,告警恢复。 告警属性 告警ID 告警级别 可自动清除 43013 严重 是 告警参数 参数名称 参数含义 ServiceName 产生告警的服务名称。 RoleName
从该流程可以看出,如果未对这两个配置参数根据具体使用场景进行配置,会造成挂起迹象。建议根据使用场景,配置合适的超时时间,如果是长时间操作,则把超时时间设置长一点;如果是短时间操作,则把超时时间设置短一点。而重试次数可以设置为:“(hbase.client.retries.number)*6
CDL任务运行一段时间后发生“104”或“143”报错 现象描述 CDL任务运行一段时间后,Yarn任务失败,并返回状态码“104”或“143”。下图为返回状态码“143”: 可能原因 抓取到Hudi中的一批数据量过大,导致任务内存不足。 处理步骤 登录FusionInsight
Flink对接Elasticsearch作业运行一段时间后Checkpoint失败 问题现象 Flink对接Elasticsearch作业,运行一段时间(TGT的有效期一般为24小时)后,写Elasticsearch失败,Checkpoint超时报错。 TGT(Ticket Granting