检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件级别、开始时间和结束时间。 单击指定事件名称左侧的,展开完整信息参数,各项说明如表1所示。 表1 事件参数 事件参数 说明 事件ID 事件信息的ID。 事件名称 事件信息的名称。 事件级别 事件级别。分为紧急、重要、次要、提示四个级别。 产生时间 事件产生的时间。 对象 事件可能的原因提示。
配置DBService备份任务超时时间 操作场景 针对DBService备份任务执行的默认超时时间为2小时,在DBService中数据量过大时,任务执行时间会超过2小时导致备份任务执行失败。 该操作指导用户调整DBService备份任务的超时时间。 前提条件 DBService服务运行正常。
在主备集群的FusionInsight Manager界面,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的“HBase”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。
建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败 问题 建表语句分区列为timestamp时,使用非标准格式的时间指定分区查询表统计失败以及show partitions table结果编码不对。 执行desc formatted test_hiv
修改Manager页面超时时间 登录FusionInsight Manager页面。 选择“系统 > OMS”。 在列表中单击“tomcat”所在行的“修改配置”。 在打开的页面中根据需要设置Tomcat的“会话超时时间”,单击“确定”。 请根据实际业务需要设置最短会话时长,过长的会话超时时间,可能导致安全风险。
Catalog”下方的下拉框中选中“schema”,同时在其对应的输入框中输入要授权table所在的schema,如“default”。 在“schema”下方的下拉框中选中“table”,同时在其对应的输入框中输入要授权的目标table。如使用“*”,表示对所有当前schema下的所有table进行授权。
定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 附加信息 Trigger condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 GC时间超出阈值,会影响到OMS主要进程的读写,可能导致任务执行变慢,甚至服务异常重启。
MRS集群节点时间信息不正确如何处理? 如果集群内节点时间不正确,请分别登录集群内时间不正确的节点,并从2开始执行。 如果集群内节点与集群外节点时间不同步,请登录集群外节点,并从1开始执行。 执行vi /etc/ntp.conf命令编辑NTP客户端配置文件,并增加MRS集群中Ma
包年/包月集群,没有欠费的概念。 按需购买的集群是按每小时扣费,当余额不足,无法对上一个小时的费用进行扣费,就会导致集群欠费,集群欠费后有保留期。您续费后即可解冻集群,可继续正常使用,请注意在保留期进行的续费,是以原到期时间作为生效时间,您应当支付从进入保留期开始到续费时的服务费用。 您购
格式化描述符 描述 %a 对应的星期几(Sun .. Sat) %b 对应的月份(Jan .. Dec) %c 对应的月份(1 .. 12) %D 对应该月的第几天(0th, 1st, 2nd, 3rd, ...) %d 对应该月的第几天,数字(01 .. 31)(两位,前面会补0) %e
JDBCServer长时间运行导致磁盘空间不足 用户问题 连接Spark的JDBCServer服务提交spark-sql任务到yarn集群上,在运行一段时间以后会出现Core节点的数据盘被占满的情况。 问题现象 客户连接Spark的JDBCServer服务提交spark-sql任
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Kafka”。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
ALM-14021 NameNode RPC处理平均时间超过阈值 告警解释 系统每30秒周期性检测NameNode的RPC处理平均时间,并把实际的NameNode的RPC处理平均时间和阈值(默认为100ms)相比较。当检测到NameNode的RPC处理平均时间连续多次(默认为10次)超出阈值范围时,产生该告警。
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。
参数名称 参数含义 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 应用名(适用于MRS 3.2.1及以后版本) 产生告警的应用名称。 任务名 产生告警的任务名称。 用户名 产生告警的用户名称。 对系统的影响 Flink作业CheckPoint完成时间超过阈值,此时有Check
待操作集群的名称 > 服务 > Loader > 实例”,单击上报告警实例主机名对应的角色名,单击图表区域右上角的下拉菜单,选择“定制”,勾选“GC”中的“Loader的总GC时间”,单击“确定”。 图1 Loader的总GC时间 查看Loader每分钟的垃圾回收时间统计值是否大于告警阈值(默认12秒)。
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优化。
MapReduce任务长时间无进展 问题 MapReduce任务长时间无进展。 回答 一般是因为内存太少导致的。当内存较小时,任务中拷贝map输出的时间将显著增加。 为了减少等待时间,您可以适当增加堆内存空间。 任务的配置可根据mapper的数量和各mapper的数据大小来进行优化。
s failure-rate策略 在作业失败后会直接重启,但超过设置的失败率后,作业会被认定为失败。在两个连续的重启尝试之间,重启策略会等待一个固定的时间。 以配置10分钟内若重启失败了3次则认为该作业失败,重试时间间隔为10s为例,参数配置为: restart-strategy:
Manager界面,选择“运维 > 日志 > 下载”。 在“服务”框中勾选待操作集群的“Ranger”。 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除 此告警修复后,系统会自动清除此告警,无需手工清除。