检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果需要在AOM控制台中使用CES的功能,需要提前获取CES的相关权限,详情请参见CES权限管理。 “一键告警”功能当前仅华南-广州区域受限开放,如有需求可以通过提交工单,为您开放此功能。 AOM 2.0融合CES相关功能后,会向AOM FullAccess策略中添加“CES:*:*”,“ecs:inst
每个接口所需要的权限,与各个接口所对应的授权项相对应,只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。 例如,用户要调用接口来查询指标,那么在基于角色与策略授权的场景中,这个IAM用户被授予的策略中必须包含允许“aom:metric:get”的授权项,该接口
文件包创建完成后,您可以在文件管理列表单击对应的文件名称进入该文件的详情页面,查看文件包的基本信息、状态、定时运维引用的任务数、标准化运维引用的任务数和版本列表,还可执行表3中的操作。 表3 相关操作 操作 说明 新建版本 单击右上角的“新建版本”,进行创建。 编辑文件包基本信息 单击右上角的“编辑”,进入编辑页面进行修改。
通过AOM监控集群 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控集群的多项基础监控指标(例如集群状态、CPU使用率、内存使用率、节点运行状态等)和相关的告警、事件数据,通过这些指标和相关的告警信息,用户可实时了解集群的运行状况,及时处理潜在风险,保障集群稳定运行。
时区 定时任务的时区,可以在下拉列表中选择正确的时区。 执行策略 定时任务的执行策略,包含以下三种: 单次执行:在设置的时间执行一次操作。 简单周期执行:根据设置的时间周期循环执行。 周期执行(Cron表达式):根据设置的Cron表达式执行操作。 执行时间 定时任务执行的具体时间。 执行周期
资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。 架构图 图1 AOM架构 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。 API接入数据
如何启用NGINX stub_status模块? Nginx Prometheus Exporter是通过Nginx的stub_status模块对其进行监控,需要确保Nginx服务启用了 stub_status模块。具体步骤如下: 登录到业务Nginx服务所在节点,以root权限
执行脚本任务失败,提示 :agent not found 问题现象 在ECS执行脚本任务时失败,系统提示“agent not found”。 可能原因 没有正确安装UniAgent。 UniAgent为非“运行中”状态。 解决方法 检查UniAgent的状态,UniAgent状态有运行中、异常、安装中
查询时间序列 场景描述 本章以查询一个节点的CPU使用率时间序列为例。 涉及的基本信息 查询时间序列前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 CPU使用
Agent包下载配置 表1 Agent包下载配置 区域 Agent包下载地址 SHA-256 华北-北京一 https://icagent-cn-north-1.obs.cn-north-1.myhuaweicloud.com/ICAgent_linux/ICProbeAgent
静态IP:可选中指定CMDB应用下的ECS实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的ECS实例。该方式对节点下未来新增的实例也生效。 选择完成后单击“确定”。 单击“立即执行”进入任务执行界面,查看任务执行情况。 也可单击“保存”,将创建好的任务展现在任务管理页面,方便后续对任务进行执行或其他操作。
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 父主题: 迁移AOM
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。
查询时序数据 场景描述 本章以查询一个节点的CPU使用率时序数据为例。 涉及的基本信息 查询时序数据前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 因指标格式
”界面。 在左侧导航栏中选择“参数库”,单击右上角的“创建参数”。 填写参数信息,具体的参数说明请参见表1。 图1 填写参数信息 表1 填写参数信息 参数名称 说明 参数类型 参数的类型,目前仅支持字符串类型。 参数名称 参数的名称。 最多可输入64个字符,只能由大小写字母组成。
d当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行
单击“总次数”列的蓝色数值,可以查看所选时间段内该线程异常总数的趋势图。 单击“消息”列的蓝色文字,可以查看消息的详细内容,包括:时间和消息内容。 单击“异常堆栈”列的“查看详情”可以查看异常的详细信息。 单击“异常堆栈”列的“历史信息”可以查看该类名的历史异常堆栈列表。 单
页面,单击已发布成服务的方案所在行操作列的“取消发布”。 图11 取消发布 在弹出的“取消发布”对话框中,确定是否要取消发布执行方案,单击“是”即可取消发布。 更多操作 作业创建完成后,您可以在作业管理列表单击对应的作业名称进入该作业的详情页面,查看作业的基本信息、全局参数和作业步骤,还可执行表7中的操作。
search_time_start 否 Long 时间范围查询的开始时间。 最小值:0 最大值:9999999999999 search_time_end 否 Long 时间范围查询的结束时间。 最小值:0 最大值:9999999999999 status 否 String 任务的状态 ["success","fail"
去重为内置策略,服务后台会自动检验告警内容是否一致实现去重的效果,用户无需手动创建规则。 图1 告警降噪流程图 分组、抑制、静默需手动创建规则,创建方式见下方文档说明。 此模块只作用于消息通知部分,所有触发的告警和事件都可在告警、事件页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段