检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模拟测试告警 监控服务支持手动创建或关闭告警,对告警的其他规则进行模拟测试。 创建告警:快速创建告警,创建的告警与生成上报的告警流程相同,可以用来测试创建的告警升级规则、告警修复规则、值班组等是否正确生效。 关闭告警:关闭已创建的告警,手动恢复该告警。 前提条件 已获取服务运维岗
一次性作业:选择执行日期及时间。 作业类型 选择使用虚拟机还是容器执行作业。 运维账号 作业类型选择虚拟机时,还需要选择运维账号或者手动输入账号,用于连接目标机器(选择的资源)。 资源 选择需要清理日志的目标主机或容器。 分批执行 作业类型选择虚拟机时,可以选择是否分批执行,如勾选,还需要设
限申请操作请参见申请权限。 已创建流程。 步骤一:创建标签 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“EAP&JOB > 流程 > 标签 > 标签管理”。 单击“创建”。 配置标签
资源的立体化监控平台与链路式的处理定位平台。在用户云上业务出现异常时,能够快速接收到异常并作出反应,为后续的定位、定界提供依据,保证业务顺畅运行。 前提条件 已配置主机监控指标采集,使用监控插件将数据接入运维中心,当数据异常时进行告警上报,具体操作请参见按主机绑定监控模板或按分组绑定监控模板。
存大小 prometheus.cpu_reuquest=1 #prometheus工作负载申请CPU核心数 prometheus.mem_request=2Gi #prometheus工作负载申请内存大小 prometheus.replicas=1 #prometheus工作负载POD实例个数
通报运维事件 创建运维事件通知组 创建运维事件并发送通知 创建WarRoom事件通知 父主题: 监控资源和应用
配置异常检测任务 快速配置异常检测任务 新增异常检测任务 通过调整模型参数对异常告警调优 父主题: 监控资源和应用
创建告警屏蔽规则 创建告警收敛规则 创建告警标记规则 创建告警升级规则 创建告警修复规则 模拟测试告警 配置告警通知 查看并处理告警 父主题: 监控资源和应用
导流数据至数据表 监控服务已接入的数据,会保存在已创建或者系统自动创建的Kafka的Topic中,需要创建导流任务,将数据导流至ClickHouse或Influxdb数据表中。 将数据导流至ClickHouse/Influxdb表 进入AppStage运维中心。 在顶部导航栏选择服务。
fail to load model json 问题现象 judge日志中显示trainModel is null或trainModel is {},并且提示fail to load model json,表示训练完成后judge未成功加载训练模型。 解决方法 依次单击“初始化D
judge_data_size(in):0 问题现象 judge历史的原始详情中出现judge_data_size(in):0提示。 可能原因 judge没有获取到数据。 解决方法 检查告警原始表汇聚任务配置的汇聚提前时间和judge任务的汇聚提前时间,保证对应时间点能够获取到数据即可。
处理方式:包括立即通知、语音通知、转监控中心和不通知四种方式。 立即通知:会根据语音值班配置开启的通知方式,立刻触发通知流程,进行通知。 语音通知:语音值班配置开启了语音呼叫时,选择该方式语音呼叫会有三分钟左右的延迟,取决于告警上报的时间。短信和welink正常通知,不会延迟。 转监控中心:给AppStage运维中心的监控中心人员打电话。
开发并管理数据 创建数据表 导流数据至数据表 汇聚数据至MPPDB表 查看运维数据的数据血缘 父主题: 监控资源和应用
进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“EAP&JOB > 脚本执行 > 作业清单”。 默认进入“虚拟机作业清单”页签查看虚拟机作业清单,也可以单击“容器作业清单”,进入“容器作业清单”页签查看容器作业清单。
回收弹性云服务器及边缘云服务器主机 弹性云服务器及边缘云服务器支持在VMS页面进行回收。服务运维岗位权限人员申请回收将其放入回收站中,基础运维岗位人员可以在回收站中查看或立即回收主机,运维管理员可以申请回收主机同时可以在回收站立即回收主机。 前提条件 已获取服务运维岗位权限、基础
样式,如需修改,可单击“大盘”进行设置。 步骤一:新增任务 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“AI辅助诊断 > 异常检测”,进入“异常检测”页面。 单击“新增任务”,进入任务基础信息配置页面。
创建业务工具并执行脚本 创建定时作业执行脚本 创建定时日志清理作业 创建自动分发文件作业 查看已创建作业清单 导出作业输出或作业日志 父主题: 监控资源和应用
查看已创建作业清单 作业清单页面可以查看虚拟机作业清单、容器作业清单。 目前此功能仅支持白名单用户通过提交工单申请使用。详细操作请参考提交工单。 查看作业清单 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。
too much null size 问题现象 动态阈值告警任务,judge历史的原始详情中出现too much null size报错。 可能原因 告警原始表中存在大量空值或者表无数据。 解决方法 在MPPDB汇聚中新建任务,查询告警原始表中数据是否正常。 检查汇聚任务及上游数
的计算公式。经过监控系统计算后,如果数据持续异常,则上报到告警系统中,产生告警。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建AIOps规则 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。