检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
oaded JobManager自JVM启动以来加载的类的总数。 无 flink_jobmanager_Status_JVM_ClassLoader_ClassesUnloaded JobManager自JVM启动以来卸载的类的总数。 无 flink_taskmanager_St
主机监控 主机监控是针对主机的监控,通过主机监控您可以及时了解主机的资源使用情况、趋势和告警,使用这些信息,您可以快速响应,保证主机流畅运行。 主机监控的设计类似应用监控,主机的层级关系为:主机列表->主机详情。详情页面包含了当前主机上所发现的所有实例,显卡,网卡,磁盘,文件系统等信息。
脚本参数 配置自定义插件脚本的默认参数的属性。您可以根据实际需求,配置脚本参数的属性信息如下: 必填:开启该按钮,插件调试中的参数值为必填项;关闭该按钮,插件调试中的参数值可不填写。 参数名:脚本参数的名称。当配置了“默认脚本参数”后,会根据“默认脚本参数”中自定义的参数自动识别脚本参数名称,此处灰化,不可配置。
术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。
驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0
”字段的值。 如果2为空,则取环境变量“PAAS_MONITORING_GROUP”的值。 如果3为空,则取进程的启动命令中“DAOM.APPN”字段的值。 组件名称取值优先级: 取进程的启动命令中“DAOM.PROCN”字段的值,如果为空则取“Dapm_tier”字段的值。 如
填写规则的描述信息。 图1 设置告警基本信息 设置告警规则的详细信息。 设置“规则类型”为“事件类告警”。 设置告警来源、触发对象和触发策略。 表1 告警规则填写说明 参数名称 填写说明 告警来源 事件类告警来源的服务名称,从现有的服务列表中选择。 触发对象 服务事件的筛选条件。
dimensions 是 String - 指标维度,此参数在后台将以添加阈值规则时传入的值保存,此处传入的值不能将其修改。 unit 是 String - 指标单位,此参数在后台将以添加阈值规则时传入的值保存,此处传入的值不能将其修改。 actionEnabled 否 Boolean - 告警是否启用
不能废弃以aom_prom_fixed作为前缀的指标 问题描述 在Prometheus实例详情页面的“指标管理”中不能废弃以aom_prom_fixed_作为前缀的指标,且该指标上报到AOM时会收费。 原因分析 当用户使用普罗函数(例如:"count"、"max"、"min"、"
告警管理使用说明 告警是指AOM自身或外部服务在异常情况或在可能导致异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于AOM自身或外部服务的功能异常而引起业务的异常。 告警管理使用前提条件:已在主机安装ICagent,详情请参考安装ICAgent,安装之后使用流程请参见图1。
描述 分组规则的描述。最多不能超过1024个字符。本示例可不填写。 - 分组条件 根据设置的条件对告警过滤,筛选出符合分组条件的告警,并为符合分组条件的告警设置告警行动规则。 告警级别:指标或事件告警的级别,可以设置为:紧急、重要、次要、提示。 告警源:触发告警或事件的服务名称。可以设置为AOM
服务指标及其维度 服务指标是由实例指标汇聚而来的,其指标维度与实例指标维度相同。 实例指标详见:实例指标及其维度。 父主题: 指标总览
自定义字段支持以JSONPath的方式取值,示例:$event.metadata.case1、$event.metadata.case[0] 在“正文”区域右上角,单击“添加变量”可添加需要的变量信息。 选择“邮件”方式发送通知时,可单击“预览”查看设置的邮件消息模板效果。在预览界面,可根据需要修改消息主题。
通过事件类告警规则,简化告警通知,快速识别服务的某一类资源使用问题并及时解决。 系统支持创建的阈值规则和事件类告警规则总计不能超过1000条,即创建的告警规则数量不能超过1000条。如果系统中的告警规则数量已达到上限,请删除不需要的告警规则后重新创建。 父主题: 告警规则(新版)
服务命名部分,数组中有多个对象时表示将每个对象抽取到的字符串拼接作为服务的名称。nameType取值cmdLine时args格式为["start","end"],表示抽取命令行中start、end之间的字符。nameType取值cmdLine时args格式为["aa"],表示抽取环境变量名为aa对应的环境变量值。nameType取值str时
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
<= >= dimensions 是 Array of Dimension objects 时间序列维度列表。可通过调用查询时间序列接口中,查询当前监控的时间序列名称的时间序列维度列表。 evaluation_periods 是 Integer 间隔周期。 最小值:1 最大值:5 is_turn_on
环境类型 环境的类型。目前支持环境类型有四种:开发、测试、预发布和生产。 主机类型 主机的类型。目前支持的主机类型有:LINUX和WINDOWS。 环境名称 环境的名称。 支持输入2~64个字符,只能由大小写字母、数字、下划线、中划线、点和中文字符组成。 区域 环境的区域,请从下拉列表中选择。
<= >= dimensions 是 Array of Dimension objects 时间序列维度列表。可通过调用查询时间序列接口,查询当前监控的时间序列名称的时间序列维度列表。 evaluation_periods 是 Integer 间隔周期。 is_turn_on 否 Boolean