检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Service,CTS)实现。CTS是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录MRS的管理事件和数据事件用于审计。 图1 CTS记录MRS事件
0,iops = 0或带宽 = 0,且ioutil > 99%。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到500ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足对应条件时,告警自动清除。 MRS 3.3
该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力。 MRS 3.1.5.0.1及之后的补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable
出JDBCServer进程目前的承受范围。 告警属性 告警ID 告警级别 是否可自动清除 43028 重要(默认连续3次检测超过9次) 紧急(默认连续3次检测超过12次) 否 告警参数 类别 参数名称 参数含义 定位信息 来源 产生告警的集群名称。 服务名 产生告警的服务名称。 角色名
applicationID命令后Spark只会停掉任务对应的SparkContext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill
applicationID命令后Spark只会停掉任务对应的SparkContext,而不是退出当前进程。如果当前进程中存在其他常驻的线程(类似spark-shell需要不断检测命令输入,Spark Streaming不断在从数据源读取数据),SparkContext被停止并不会终止整个进程。 如果需要退出Driver进程,建议使用kill
thriftserver.proxy.create.session.timeout.threshold,表示JDBC作业提交耗时的阈值。当系统检测到超过该阈值后,仍未开始执行时,触发该告警。单位为秒(s),集群默认配置为180s。 告警属性 告警ID 告警级别 是否可自动清除 43029
点,此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.2.3补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,对于
此时该节点会变成隔离状态,客户无需特殊操作,MRS运维相关人员会及时介入处理并恢复。 支持HDFS单副本检测能力 MRS 1.9.3.9及其后续补丁中,会增加HDFS单副本检测和告警能力,新增是否允许写入单副本数据配置项dfs.single.replication.enable,
keygenerator.type 选填 上游表主键生成类型。 COMPLEX read.streaming.check-interval 选填 流读检测上游新提交的周期,默认值为1分钟。 5(流量大建议使用默认值) read.end-commit 选填 Stream增量消费,通过参数read
interval”的值。检查点程序每次运行时都会创建一个新的检查点并会移除fs.trash.interval分钟前创建的检查点。例如,系统每10分钟检测是否存在老化文件,如果发现有老化文件,则删除。对于未老化文件,则会存储在checkpoint列表中,等待下一次检查。 如果此参数的值设置为
系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 相关参数获取方法请参考参考信息。
wal的文件已经达到将近2.1G,且其仅有一个block块,导致hdfs seek异常,引起splitwal失败,regionserver检测到当前这个wal日志还需要split,又会触发splitwal日志的机制进行回滚,就这样在split与split失败之间不停循环,导致无法
表示实例当前运行正常。 故障 表示实例当前无法正常工作。 已退服 表示实例处于退服状态。 未启动 表示实例已停止。 未知 表示实例的初始状态信息无法检测。 正在启动 表示实例正在执行启动过程。 正在停止 表示实例正在执行停止过程。 正在恢复 表示实例可能存在异常正在自动修复。 正在退服 表示实例正在执行退服过程。
interval”的值。检查点程序每次运行时都会创建一个新的检查点并会移除fs.trash.interval分钟前创建的检查点。例如,系统每10分钟检测是否存在老化文件,如果发现有老化文件,则删除。对于未老化文件,则会存储在checkpoint列表中,等待下一次检查。 如果此参数的值设置为
系统默认每3秒采集一次数据,在30秒内至少7个周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次检测到的svctm时延达到20ms。 系统采集周期为3秒,检测周期为30秒或300秒,当系统连续3个30秒、300秒的周期均不满足以上条件时,告警自动清除。 MRS 3.3
Hadoop客户端操作日志。 hdfs-period-check.log 周期运行的脚本的日志记录。包括:自动均衡、数据迁移、JournalNode数据同步检测等。 <process_name>-<SSH_USER>-<DATE>-<PID>-gc.log 垃圾回收日志。 postinstallDetail
Hadoop客户端操作日志。 hdfs-period-check.log 周期运行的脚本的日志记录。包括:自动均衡、数据迁移、JournalNode数据同步检测等。 <process_name>-<SSH_USER>-<DATE>-<PID>-gc.log 垃圾回收日志。 postinstallDetail
粗。 表3 主机运行状态说明 状态 说明 良好 表示主机当前状态正常。 故障 表示主机当前无法正常工作。 未知 表示主机的初始状态信息无法检测。 已隔离 表示主机处于隔离的状态。 已停机 表示主机处于停机的状态。 在主机列表单击指定的主机名称,查看主机概览信息。 在主机详情页面,
选主,从而短暂影响ClickHouse使用ZooKeeper。告警每两个小时检查一次,当zxid低32位超过设定阈值,则上报告警。 当系统检测到zxid低32位低于设定阈值时,告警恢复。 告警属性 告警ID 告警级别 是否可自动清除 45449 重要 是 告警参数 类别 参数名称