华为云用户手册

  • 其他相关操作 您还可以在云服务类型Prometheus实例的详情页的“云服务接入”页面进行取消接入云服务等相关操作,具体请参见表4。 表4 相关操作 操作 说明 搜索云服务 在“云服务接入”页面搜索框中输入关键字,即可搜索云服务。 取消接入云服务 在“云服务接入”页面右侧已接入云服务下单击需要取消接入的云服务卡片,在弹出的对话框中单击“取消接入云服务”。 查看/修改已接入的云服务标签配置 在“云服务接入”页面单击已接入云服务下的云服务卡片,即可修改“接入云服务标签(可选)”的相关设置,具体设置请参见表3。
  • 云审计 支持的 AOM 操作列表 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 功能类别 操作名称 资源类型 事件名称 全局配置 添加AccessCode icmgr icmgrAddAccessCode 删除AccessCode icmgr icmgrDelAccessCode 应用资源管理 创建应用 application createApp 更新应用 application updateApp 删除应用 application deleteApp 创建应用(供其他服务调用) application createAomApp 修改应用的EPSID(供EPS服务调用) application updateAppEpsId 新增子应用 sub_application createSubApp 删除子应用 sub_application deleteSubApp 更新子应用 sub_application updateSubApp 创建子应用(供其他服务调用) sub_application createAomSubApp 转移子应用 sub_application transferSubApp 新增组件 component createComponent 转移组件 component transferComponent 更新组件 component updateComponent 删除组件 component deleteComponent 创建组件(供其他服务调用) component createAomComponent 创建环境 environment createEnvironment 修改环境 environment updateEnvironment 删除环境 environment deleteEnvironment 创建环境(供其他服务调用) environment createAomEnv 创建环境标签 tag createTag 更新标签 tag updateTag 删除环境标签 tag deleteTag 更新环境标签 tag updateEnvTag 新增多云账户 cloud_account addCloudAccount 修改多云账户 cloud_account updateCloudAccount 删除多云账户 cloud_account deleteCloudAccount 创建工作负载 workload createWorkload 删除工作负载 workload deleteWorkload 更新工作负载 workload updateWorkload 上报E CS 主机信息 ecs aomImportECS 资源监控 创建仪表盘 dashboard updateDashboard 删除仪表盘 dashboard deleteDashboard 更新仪表盘 dashboard updateDashboard 创建仪表盘分组 dashboard_folder addDashboardFolder 更新仪表盘分组 dashboard_folder updateDashboardFolder 删除仪表盘分组 dashboard_folder deleteDashboardFolder 创建/更新告警规则 audit_v4_alarm_rule addOrUpdateAlarm 删除告警规则 audit_v4_alarm_rule delAlarmRule 创建进程发现规则 appDiscoveryRule addAppDiscoveryRule 更新进程发现规则 appDiscoveryRule updateAppDiscoveryRule 删除进程发现规则 appDiscoveryRule delAppDiscoveryRule 创建数据订阅规则 apminventory createSubscribeRule 验证dms连通性 apminventory verifyConnect 删除数据订阅规则 apminventory deleteSubscribeRule 新增告警模板 audit_v4_alarm_rule addAlarmRuleTemplate 修改告警模板 audit_v4_alarm_rule modAlarmRuleTemplate 删除告警模板 audit_v4_alarm_rule delAlarmRuleTemplate 新增分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 新增抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 新增静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 新增告警行动规则 actionRule addActionRule 修改告警行动规则 actionRule updateActionRule 删除告警行动规则 actionRule delActionRule 新增消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 自动化运维 开通自动化运维服务 function functionRegister 更新用户信息 function functionRegister 更新任务定时触发器 workflow operateCronTriggerFlow 创建任务 workflow createWorkflow 更新任务 workflow updateWorkflow 执行任务 execution execute 终止任务 execution terminateWorkflow 删除任务 workflow deleteWorkflow 创建作业执行方案 template createTemplate 发布作业执行方案 template publishTemplate 删除作业执行方案 template deleteTemplate 创建账号 account createAccount 更新账号 account updateAccount 删除账号 account deleteAccount 创建全局参数 param createParams 删除全局参数 param deleteParams 创建文件 package createPack 更新文件 package updateBasicPack 删除文件 package deletePack 创建作业 job createJob 更新作业 job updateJob 删除作业 job deleteJobByJobId 创建审批 approve createApprove 保存审批 approve saveApprove 创建脚本版本 script createScriptAndVersion 更新脚本版本 script updateVersionByVersionId 删除脚本版本 script deleteVersionByVersionId 上线服务场景 serviceScenario onboardToolMarketTenantInfo 收藏服务场景 serviceScenario serviceScenarioFavorites 更新脚本 script updateScript 执行脚本 ecs runScript
  • 其他相关操作 AccessCode创建完成后,您还可以对AccessCode列表执行表1中的操作。 表1 相关操作 操作 说明 查看AccessCode 在列表中,可查看ID、AccessCode、状态、创建时间等信息。 搜索AccessCode 在搜索框中输入AccessCode的ID,单击后显示匹配对象。 删除AccessCode 单击“操作”列的“删除”,删除创建的AccessCode。 删除AccessCode,可能会影响API的调用,请谨慎操作。 刷新AccessCode 单击,可实时获取到AccessCode的最新信息。
  • 授权AOM访问其他云服务 登录AOM 2.0控制台。 在左侧导航栏中选择“设置”,进入全局配置界面。 在“云服务授权”页面右上角单击“统一授权”,即可为当前用户一键授予列表中云服务数据的访问权限。 统一授权后,AOM将在 统一身份认证 服务 IAM 为您创建名为“aom_admin_trust”的委托。 如果页面右上角显示为“取消授权”,表示当前用户已具有以上云服务数据的访问权限,无需进行授权操作。 如果想要取消授权,您可以单击页面右上角“取消授权”,取消AOM访问其他云服务数据的权限。
  • 日志数据类图表 日志数据类图表支持的图表类型:表格、柱状图、折线图、饼图、数字图、数字折线图、地图、漏斗图。 表格:能够系统、简洁、集中和对比性较强地表述内容,直观地表达分类的关系或对比量的准确程度,进而更加准确的展示该分类数据。 图7 表格 表7 表格图标配置说明 类别 参数名 说明 标准配置 格式化 将表格数据按照指定格式进行显示。 单位 自定义配置表格数据的单位。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 查询分析设置 隐藏字段 选择目标字段,将该字段在表格中隐藏。 表格配置 每页显示 每页显示的数据条数。 显示总数 显示表格数据的总条目数。 列配置 对齐方式 表格数据的对齐方式,支持左对齐,右对齐以及居中。 开启搜索 开启后,即可对表格列数据进行搜索功能。 开启排序 开启后,即可对表格列数据进行排序功能。 字体大小 表格字体的大小,取值范围为12px~24px。 柱状图:使用垂直或水平的柱形平面显示类别之间的数值比较,用于描述分类数据,并统计每一个分类中的数量。您也可以绘制多个矩形对应同一个分类属性,分为分组和层叠两种模式,进而分析该分类数据在不同维度上的区别。 如下图所示,在同一个图表中展示了CPU内核占用率平均值数据。 图8 柱状图 表8 柱状图图表配置说明 参数类别 参数名称 说明 标准配置 格式化 将Y轴按照指定格式进行显示。 单位 自定义配置Y轴的单位。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 柱配置 方向 选择基础柱状图或横向柱状图。 柱宽度 设置柱宽度。 是否显示值 开启后,显示各个条形体对应的数值。 值字体大小 设置各个条形体对应的数值字体大小。 是否堆叠 开启后,将堆叠显示Y轴数据。 查询分析设置 X轴数据 支持数字或字符串数据。 Y轴数据 支持数字或字符串数据,可以选择多个数据。 图例配置 隐藏图例 开启后,可以隐藏图例和对比值的显示。 图例位置 图例在图表中的位置,选择图表顶部或图表右边。 对比数值 选择显示最大值、最小值、平均值、求和值等,可勾选多个。 图形配置 上边距 坐标轴距离图表上边界距离。 下边距 坐标轴距离图表下边界距离。 左边距 坐标轴距离图表左边界距离。 右边距 坐标轴距离图表右边界距离。 Tooltip配置 排序方式 提示框配置,当Y轴数据选择多个时,可对其按照不排序、升序、降序进行排序显示。 X轴 显示X轴 开启后,显示X轴数据。 X轴名称 设置X轴名称。 Y轴 显示Y轴 开启后,显示Y轴数据。 Y轴名称 设置Y轴名称。 Y轴位置 设置Y轴位置,左边或者右边。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,用于直观分析数据变化趋势。当需要监控一段时间内一个或多个资源的日志数据趋势时,请使用此类型图表。 如下图所示,在同一个图表中展示了CPU的使用率数据。 图9 折线图 表9 折线图图表配置说明 参数类别 参数名称 说明 标准配置 格式化 在下拉框选择“K,Mil,Bil”、“1000000”或“Byte,KB,MB”等格式,将Y轴按照指定格式进行显示。 单位 自定义配置Y轴的单位。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 查询分析设置 X轴数据 支持数字或字符串数据。 Y轴数据 支持数字或字符串数据,可以选择多个数据。 维度列 请从下拉列表中选择,一般为有序数据类别。 趋势对比 当X轴为时间数据时,且不设置维度列时,可开启该按钮。 开启后,设置比较对象时间,时间小于等于24小时。设置完成后,将当前时间的数据与对象时间数据进行比较。 图例配置 隐藏图例 开启后,可以隐藏图例和对比值的显示。 图例位置 选择图表顶部或图表右边。 对比数值 选择显示最大值、最小值、平均值、求和值等,可勾选多个。 图形配置 连接方式 设置线图显示格式,可选择直线或曲线。 线宽 折线的线宽。 是否显示点 开启该功能后,显示折线的连接点。 上边距 坐标轴距离图表上边界距离。 下边距 坐标轴距离图表下边界距离。 左边距 坐标轴距离图表左边界距离。 右边距 坐标轴距离图表右边界距离。 Tooltip配置 排序方式 提示框配置,当Y轴数据选择多个时,可对其进行排序显示。 X轴 显示X轴 开启后,显示X轴数据。 X轴名称 设置X轴名称。 Y轴 显示Y轴 开启后,显示Y轴数据。 Y轴名称 设置Y轴名称。 Y轴位置 设置Y轴位置,左边或者右边。 饼状图:用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块表示该分类占总体的比例大小,所有区块的加和等于100%。 如下图所示,在同一个图表中展示了不同国家所在省份的日志用户数据。 图10 饼状图 表10 饼图图表配置说明 参数类别 参数名称 说明 标准配置 格式化 在下拉框选择K,Mil,Bil、1000000或Byte,KB,MB等格式,将Y轴按照指定格式进行显示。 单位 自定义配置单位。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 饼图配置 饼图类型 包括饼图、环图和南丁格尔玫瑰图。 饼图 饼图是一种用于展示各部分组成在整体中所占百分比的图形。它通过将一个圆形划分为不同的扇区,每个扇区的面积(或弧长和圆心角)大小对应所表示的数据的比例,从而直观地展示出各部分与整体之间的关系。 环图 环图本质上是将饼图中心挖空,相比于饼图来说有如下优点: 在原有构成的基础上增加了总数显示,展示了更多的信息。 两个饼图直接进行比较是非常不直观的,两个环图间可以通过环状条长度进行简单的对比。 南丁格尔玫瑰图 南丁格尔玫瑰图本质上并不是环图,而是在极坐标系下画出来的柱状图,每一个分类数据被圆弧平分,使用圆弧的半径长短表示数据的大小,相比于饼图来说有如下优点: 饼图适用于不超过10条的分类数据,南丁格尔玫瑰图则适用于分类较多的场景(10-30条数据)。 由于半径和面积是成平方的关系,南丁格尔玫瑰图放大了各个分类数据之间值的差异,尤其适合对比大小相近的数值。 由于圆形有周期的特性,南丁格尔玫瑰图也适用于表示一个周期的时间概念,比如星期、月份。 是否显示刻度 开启后,显示饼图上的文本标签,可用于说明图形的一些数据信息,比如值,名称等。 刻度文本格式 可配置为分类、百分比、分类:百分比或分类:数值(百分比)。 标签位置 开启是否显示刻度后,可配置此参数,调整标签在图表中的位置。 查询分析设置 数据 分类数据对应的数值。 第一层数据 类目 分类数据。 展示数量 显示分类数据的个数。 排序方式 升序或降序。 其余归为其他 开启后,除了展示的数据,其余归为其他方式展示。 添加分层 单击添加分层,设置第二层数据,每层数据包括类目、展示数量、排序方式、其余归为其他。 图例配置 隐藏图例 开启后,可以隐藏图例和图例内容的显示。 图例内容 选择显示值和百分比,可勾选多个。 图例位置 图例在图表中的位置,选择图表顶部或图表右边。 图形配置 外半径 指定饼图外半径值。取值范围为40~100 。 内半径 指定饼图内半径值。取值范围为0~100。 上边距 坐标轴距离图表上边界距离。 下边距 坐标轴距离图表下边界距离。 左边距 坐标轴距离图表左边界距离。 右边距 坐标轴距离图表右边界距离。 数字图:用于突出显示单个数值。当需要实时监控某个指标的最新数值时,可使用此类型的图表。 如下图所示,实时展示当前CFW流量日志数据。 图11 数字图 表11 数字图图表配置说明 参数类别 参数名称 说明 查询分析设置 数值列 支持数字或字符串数据。 同比数据 选择待对比的字段,在图表中显示该字段对应的值。 主体配置 格式化 将数据按照指定格式进行显示。 数值字号 显示值的字号,取值范围为12px~80px。 数值单位 显示值的单位。 单位字号 显示值单位的字号,取值范围为12px~50px。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 添加对比值 开启后,显示待对比字段对应的值。 对比值格式化 将待对比数据按照指定格式进行显示。 对比值字号 待对比值的字号,取值范围为12px~50px。 对比值单位 待对比值的单位。 对比值单位字号 显示待对比值单位的字号,取值范围为12px~50px。 描述 对显示的数值及对比值趋势的描述,显示在数值下方。 背景配置 背景色 图表的背景颜色,支持深色或浅色。 数字折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,并直观的展示相关数据分析。当需要监控一段时间内一个或多个资源的日志数据趋势时,请使用此类型图表。 如下图所示,在同一个图表中展示了不同时段CPU使用率。 图12 数字折线图 表12 数字折线图图表配置说明 参数类别 参数名称 说明 查询分析设置 X轴数据 支持数字或字符串数据。 Y轴数据 支持数字或字符串数据,可以选择多个数据。 图表样式 连接方式 设置线图显示格式,可选择直线或曲线。 主体配置 数据格式 将数据按照指定格式进行显示。 数值字号 显示值的字号,取值范围为12px~80px。 数值单位 显示值的单位。 单位字号 显示值单位的字号,取值范围为12px~50px。 小数位数 开启后显示数字小数点后的位数。 小数点位数 设置显示数值小数点位数。 背景配置 背景色 图表的背景颜色,支持深色或浅色。 地图:将日志数据以国、省、市级地图形式地理化呈现。使用地图可对不同国家、省、市的同一日志进行对比,如下图所示,在同一个图表中展示了不同省份的日志用户。 图13 地图 表13 地图图表配置说明 参数名称 说明 地图类型 请从下拉列表中选择,包括中国省级地图、世界地图。 省份 “地图类型”设置为“中国省级地图”,则需要设置省份信息。 国家 “地图类型”设置为“世界地图”,则需要设置国家信息。 数值列 位置信息对应的数据量。 漏斗图:漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策。漏斗图用梯形面积表示某个环节业务量与上一个环节之间的差异。 图14 漏斗图 表14 漏斗图图表配置说明 参数名称 说明 系列名称 漏斗图的名称。 数值列 选择数值字段,某个字段对应的数值越大,越在上面。 隐藏图例 开启后,可以隐藏漏斗图上方的字段名显示。
  • 指标数据类图表 指标数据类图表支持的图表类型:折线图、数字图、TopN、表格、柱状图、数字折线图。 折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,用于直观分析数据变化趋势。当需要监控一段时间内一个或多个资源的指标数据趋势时,请使用此类型图表。 使用折线图可对不同资源的同一指标进行对比,如下图所示,在同一个图表中展示了不同主机的CPU使用率。 图1 折线图 表1 折线图图表配置说明 参数类别 参数名称 说明 - X轴名称 设置X轴的名称。 Y轴名称 设置Y轴的名称。 是否拟合为曲线 开启该功能后,将折线的连接点拟合为平滑曲线。 隐藏X轴 开启该功能后,隐藏X轴。 隐藏Y轴 开启该功能后,隐藏Y轴。 是否显示区域 开启该功能后,使用折线图监控指标时,指标数据在图表中显示背景色。 Y轴范围 自定义设置Y轴的最小值和最大值,确定Y轴数值区间。 高级设置 左边距 坐标轴距离图表左边界距离。 右边距 坐标轴距离图表右边界距离。 上边距 坐标轴距离图表上边界距离。 下边距 坐标轴距离图表下边界距离。 数字图:用于突出显示单个数值。当需要实时监控某个指标的最新数值时,可使用此类型的图表。 如下图所示,可实时查看主机的CPU使用率。 图2 数字图 表2 数字图图表配置说明 参数名称 说明 显示微缩图标 开启该功能后,将按照一定的比例将图标缩小,并增加折线图。 TopN:统计单位为集群,统计对象为集群下的资源(这里的资源指主机、组件和实例)。资源TopN图表可视化地展示了集群中资源占用最高的N个资源,默认展示占用最高的前五个资源。 当资源数量很多时,您想快速了解资源占用最高的资源,可在仪表盘中添加TopN图表,您只需要选择资源类型和指标,例如主机的CPU使用率,那么AOM将自动将TopN的主机挑选出来以N个条形图的形式展示,如果不超过N个资源,则按照实际资源展示。 如下图所示,在同一个图表中展示了主机的CPU使用率Top5。 图3 TopN图 表3 TopN图表配置说明 参数类别 参数名称 说明 - 排序方式 设置数据的排序方式,默认为降序。 限制数量 设置TopN图表中显示的条形图数量,默认为5个。 展示维度 设置TopN图表中展示的指标维度。 柱宽 设置柱宽度,可选择auto、16、22、32、48、60,默认展示auto。 单位 设置展示数据的单位,默认单位为“%”。 显示X轴刻度 开启该功能后,显示X轴的刻度。 显示数值 开启该功能后,显示Y轴的数值。 显示Y轴线条 开启该功能后,显示Y轴的线条。 高级设置 左边距 坐标轴距离图标左边界距离。 右边距 坐标轴距离图标右边界距离。 上边距 坐标轴距离图标上边界距离。 下边距 坐标轴距离图标下边界距离。 表格:能够系统、简洁、集中和对比性较强地表述内容,直观地表达分类的关系或对比量的准确程度,进而更加准确的展示该分类数据。 如下表所示,在一个图表中展示了不同主机的CPU使用率。 图4 表格 表4 表格图表配置说明 参数名称 说明 字段名 展示字段参数名。 字段重命名 可重命名表头参数名称。 柱状图:使用垂直或水平的柱形平面显示类别之间的数值比较,用于描述分类数据,并统计每一个分类中的数量。您也可以绘制多个矩形对应同一个分类属性,分为分组和层叠两种模式,进而分析该分类数据在不同维度上的区别。 在同一个图表中展示了不同主机的CPU使用率。 图5 柱状图 表5 柱状图图表配置说明 参数类别 参数名称 说明 - X轴名称 设置X轴名称。 Y轴名称 设置Y轴名称。 隐藏X轴 开启该功能后,隐藏X轴。 隐藏Y轴 开启该功能后,隐藏Y轴。 Y轴范围 自定义设置Y轴的最小值和最大值,确定Y轴数值区间。 高级设置 左边距 坐标轴距离图表左边界距离。 右边距 坐标轴距离图表右边界距离。 上边距 坐标轴距离图表上边界距离。 下边距 坐标轴距离图表下边界距离。 数字折线图:属于趋势类分析图表,一般用于表示一组数据在一个有序数据类别(多为连续时间间隔)上的变化情况,并直观的展示相关数据分析。当需要监控一段时间内一个或多个资源的指标数据趋势时,请使用此类型图表。 如下图所示,在同一个图表中展示了不同时段CPU使用率。 图6 数字折线图 表6 数字折线图图表配置说明 参数名称 说明 是否拟合为曲线 开启该功能后,将折线的连接点拟合为平滑曲线。 是否显示图例 开启该功能后,显示折线的图例。 隐藏X轴 开启该功能后,隐藏X轴。 隐藏Y轴背景线 开启该功能后,隐藏Y轴背景线。 是否显示点 开启该功能后,显示折线的连接点。
  • 日志搜索的常用操作 日志搜索的常用操作有添加告警、选择时间段展示日志、刷新等操作,具体请参见表1。 表1 常用操作 操作 说明 创建快速查询 单击,创建快速查询。 刷新日志 单击对日志进行刷新,有两种方式刷新方式:手动刷新和自动刷新。 手动刷新:单击“手动刷新”可直接对日志进行刷新 自动刷新:选择自动刷新的间隔时间,将对日志进行自动刷新。间隔时间范围为15秒、30秒、1分钟和5分钟。 复制 单击,复制日志内容。 查看上下文 单击,查看日志上下文。 简化字段详情 单击,查看简化字段详情。 换行 单击换行,开启换行功能后,搜索的日志内容将换行显示。默认换行开启,默认展示行数为2行。 下载日志 单击“”,在弹出的下载日志页面中进行本地下载。 本地下载:将日志文件直接下载到本地,单次下载支持最大5000条日志。 在下拉框中选择“.csv”或“.txt”,单击“开始下载日志”,可将日志导出至本地。 选择以CSV格式导出日志后,本地以表格形式保存日志的具体标签信息。 选择导出TXT格式日志后,本地会以.txt格式保存日志的日志内容。 JSON设置 鼠标悬浮在按钮上,单击“JSON设置”,在弹出的JSON设置页面中,设置格式化显示。默认开启格式化,JSON默认展开层级为2层。 开启格式化按钮:设置JSON默认展开层级,最大设置为10层。 关闭格式化按钮:对于JSON格式的日志,将不会格式化层级显示。 日志折叠设置 鼠标悬浮在按钮上,单击“日志折叠设置”,在弹出的日志折叠设置页面中,设置长日志字符个数。 日志超过设置的长日志字符个数时,超出字符将被隐藏,单击“展开”按钮可查看全部内容。默认开启自动折叠长日志,字符个数默认为400个。 日志时间展示 鼠标悬浮在按钮上,单击“日志时间展示”,在弹出的日志折叠设置页面中,设置是否展示毫秒、是否展示时区。默认开启展示毫秒。
  • 告警标签说明 告警标签可应用于告警降噪模块的分组规则、抑制规则和静默规则,告警管理系统根据标签属性进行告警管理和通知。 告警标签为key:value键值对格式,支持用户自定义。key和value只能包含中文、字母、数字和下划线。 如果在创建告警规则时设置了告警标签,触发的告警会自动添加该标签为告警属性。 消息模板中通过$event.metadata.key1变量获取告警标签信息,具体请参见消息模板变量说明。 如您的组织已经设定AOM服务的相关标签策略,则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则,则可能会导致添加标签失败,请联系组织管理员了解标签策略详情。
  • 常用的普罗命令 常用的查询指标的普罗命令如表1所示,用户可根据实际修改其中的IP地址、ID等参数信息。 表1 常用的普罗命令 指标 标签定义 PromQL 主机CPU使用率 {nodeIP="",hostID=""} aom_node_cpu_usage{nodeIP="192.168.57.93",hostID="ca76b63f-dbf8-4b60-9c71-7b9f13f5ad61"} 主机应用请求吞吐量 {aomApplicationID="",aomApplicationName=""} http_requests_throughput{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机应用请求成功率 {appName="",serviceID="",clusterId=""} http_requests_success_rate{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root" 主机组件CPU使用率 {appName="",serviceID="",clusterId=""} aom_process_cpu_usage{appName="icagent",serviceID="2d29673a69cd82fabe345be5f0f7dc5f",clusterId="00000000-0000-0000-0000-00000000"} 主机进程线程数 {processCmd=""}{processID=""}{processName=""} aom_process_thread_count{processCmd="cdbc06c2c05b58d598e9430fa133aff7_b14ee84c-2b78-4f71-9ecc-2d06e053172c_ca4d29a846e9ad46a187ade88048825e",processName="icwatchdog"} 集群磁盘使用率 {clusterId="",clusterName=""} aom_cluster_disk_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="servicestage-test"} 集群虚拟内存使用率 {clusterId="",clusterName=""} aom_node_virtual_memory_usage{nodeIP="192.168.10.4",clusterId="af3cc895-bc5b-11ec-a642-0255ac101a0b",nameSpace="default"} 集群可用虚拟内存 {clusterId="",clusterName=""} aom_cluster_virtual_memory_free_megabytes{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="servicestage-test"} 工作负载文件系统使用率 {appName="",serviceID="",clusterId="",nameSpace=""} aom_container_filesystem_usage{appName="icagent",serviceID="cfebc2222b1ce1e29ad827628325400e",clusterId="af3cc895-bc5b-11ec-a642-0255ac101a0b",nameSpace="kube-system"} POD内核占用 {podID="",podName=""} aom_container_cpu_used_core{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""} aom_container_network_transmit_bytes{containerID="16bf66e9b62c08493ef58ff2b7056aae5d41496d5a2e4bac908c268518eb2cbc",containerName="coredns"}
  • 普罗语句查询举例说明 示例一:集群下指定pod占所在节点(不含控制节点)的内存使用率 定义变量: pod中容器内存实际占用量(同一个Pod下可能会有多个容器/实例):aom_container_memory_used_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_used_megabytes,使用聚合函数sum,按照nodeIP和podID进行指定node下指定pod当前的内存实际占用量计算。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的内存实际使用率的普罗语句如下所示: sum(aom_container_memory_used_megabytes{podID="****1461-41d8-****-bfeb-fc1213****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="***.***.***.***"}) by (nodeIP) 示例二:集群下指定pod占所在节点(不含控制节点)的cpu使用率 定义变量: pod中容器的cpu实际使用量:aom_container_cpu_used_core node的cpu实际总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_used_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的cpu实际使用率的promQL如下所示: sum(aom_container_cpu_used_core{nodeIP="***.***.***.***",podID="****1461-41d8-****-bfeb-***13******"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="***.***.***.***"}) by (nodeIP) 示例三:集群下运行的Pod内存配额申请值 / 集群下该Pod所在节点的内存可分配量 定义变量: pod中给容器分配的内存总量:aom_container_memory_request_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_request_megabytes,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前被分配的内存总量。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际分配率。 pod的内存实际分配率的promQL如下所示: sum(aom_container_memory_request_megabytes{podID="****1461-41d8-4403-****-f***35*****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="***.***.***.***"}) by (nodeIP) 示例四:集群下运行的Pod的cpu配额申请值 / 集群下该Pod所在节点的cpu可分配量 定义变量: pod中容器的cpu实际分配总量:aom_container_cpu_limit_core node的cpu实际分配总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_limit_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu分配量。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的cpu实际分配率。 pod的cpu实际分配率的promQL如下所示: sum(aom_container_cpu_limit_core{podID="*****461-41d8-****-bfeb-****135*****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="***.***.***.***"}) by (nodeIP)
  • 约束与限制 为提高安全性,请在不需要使用全屏模式进行监控时,及时退出全屏模式。 全屏模式在线时长与是否操作无关,只要超过已设时长,则退出到登录界面。 全屏模式在线时长优先级高于系统在线超时退出机制。 例如,登录控制台后,打开了AOM全屏界面并设置在线时长为2小时,同时打开了AOM全屏界面外的其他任意界面,则对于其他任意界面该设置也同时生效,即2小时后自动退出到登录界面。 当所有全屏界面都退出后,则恢复系统在线超时退出机制。 例如,登录控制台后,打开了多个AOM全屏界面并设置在线时长为2小时,同时打开了AOM全屏界面外的其他任意界面,当退出所有AOM全屏界面后,对于任意界面,在1小时内无任何操作,会自动退出到登录界面。
  • 设置仪表盘全屏模式在线时长 登录AOM 2.0控制台。 在左侧导航栏中选择“仪表盘”。如果您需要使用新版仪表盘功能,在左侧导航栏中选择“仪表盘”后,还需要单击页面右上角“体验新版”,切换至新版仪表盘界面。 选择待操作的仪表盘,在对应“仪表盘”页面右上角单击。 在弹出的对话框中设置全屏模式在线时长。具体的参数说明请参见表1。 图1 设置在线时长 表1 在线时长参数说明 参数名称 说明 设置方式 在线时长的设置方式,包括以下两种: 自定义在线时长:自定义设置固定时长后,自动退出到登录界面。 持续在线:表示不限制,即全屏界面永远不会自动退出到登录界面,可持续在全屏模式下进行监控。 时长 全屏模式的在线时长。“设置方式”不同,时长的设置不同: 自定义在线时长:默认时长为1小时,取值范围:1~24小时。 例如,在文本框中输入2,则2小时后自动退出到登录界面。 持续在线:默认显示为“持续在线”,不允许手动设置。 仪表盘轮播 选择是否开启仪表盘轮播,若开启需设置对应的“轮播周期”和“仪表盘”信息。 轮播周期 仪表盘轮播的周期。取值范围:10~120秒,默认轮播周期为10秒。 仪表盘 需要轮播的仪表盘。请从下拉列表中选择一个或多个仪表盘。 单击“确定”,进入仪表盘全屏模式。
  • 创建数据订阅规则 登录AOM 2.0控制台。 在左侧导航栏中选择“设置”,进入全局配置界面。 在左侧导航栏中选择“数据订阅”,单击“创建订阅规则”,根据实际需求,选择订阅内容为“分布式消息DMS订阅”或“Webhook”。 订阅内容选择“分布式消息 DMS 订阅”。 请参考表1配置参数,设置相关参数后,单击“确定”。 表1 数据订阅规则参数说明 参数 说明 规则名称 订阅规则名称。 只能由大小写字母、数字、中划线和下划线组成,且必须以英文字母开头,最多不能超过64个字符。 订阅内容 选择“分布式消息DMS订阅”。 数据类型 支持“指标”和“告警”。 Prometheus实例 从下拉列表中选择需要转发指标的Prometheus实例。下拉列表中显示当前账号下的所有通用实例类型Prometheus实例。 该功能当前受限开放,如有需求可以通过提交工单,为您开放此功能。 实例 从下拉列表中选择合适的DMS实例。如现有DMS实例均不满足需要,请单击“创建DMS实例”创建。 验证DMS实例连通性。 数据订阅至DMS需要在IAM委托界面增加名为“apm_admin_trust”委托,请确认是否已经创建。创建“apm_admin_trust”委托的详细操作请参见如何创建委托apm_admin_trust。 输入DMS用户名和密码。如果DMS实例的接入方式配置的是“密文接入”,需要输入DMS实例的用户名和密码;否则不展示输入DMS用户名和密码配置项。 单击“验证并保存DMS配置信息”。 选择数据发送topic后,单击“确定”。 订阅内容选择“Webhook”。 请参考表2配置参数,设置相关参数后,单击“确定”。 表2 数据订阅规则参数说明 参数 说明 规则名称 订阅规则名称。 只能由大小写字母、数字、中划线和下划线组成,且必须以英文字母开头,最多不能超过64个字符。 订阅内容 选择“webhook”。 自建普罗 Remote Write地址 请输入用户侧Prometheus实例的Remote Write地址,作为指标发送的目标地址。 传输请求的协议,请根据实际情况从下拉列表中选择,推荐使用HTTPS协议。 数据类型 默认为“指标”。 Prometheus实例 从下拉列表中选择需要转发指标的Prometheus实例。下拉列表中显示当前账号下的所有通用实例类型Prometheus实例。 鉴权方式 访问用户侧Prometheus实例的认证方式。 基础认证:输入用户侧Prometheus实例的用户名和密码。 Token:输入访问用户侧Prometheus实例的Token。 无认证:无需认证,即可访问用户侧Prometheus实例。 规则创建成功后,即可在规则列表中查看当前创建的数据订阅规则。
  • 创建委托apm_admin_trust 登录IAM控制台。 在左侧导航栏,单击“委托”,进入委托页面。 单击右上角“创建委托”,进入创建委托页面。 参考表5设置创建委托的参数。 表5 创建委托 名称 说明 样例 委托名称 标识该委托代理的名称。委托名称必须为apm_admin_trust。 - 委托类型 选择“云服务”。 云服务 云服务 请选择“ 应用运维管理 AOM”。 - 持续时间 选择“永久”。 永久 描述 可选参数,用于补充说明该委托代理的详细信息。 - 单击“下一步”,进入“授权”页面。 在“选择策略”页签选择“DMS UserAccess”策略,并单击“下一步”。 DMS UserAccess策略:分布式消息服务普通用户权限(无实例创建、修改、删除、扩容、转储)。 在“设置最小授权范围”页签设置授权范围方案为“指定区域项目资源”,并在下方“项目[所属区域]”选定生效区域。 单击“确定”,委托关系创建成功。
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片段 package metric type MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"` } type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"` } type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"` } type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"` } type Dimension struct { Name string `json:"name"` Value string `json:"value"` } Kafka消息示例 key:, value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-aom-4-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-aom-4-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131" } 参数说明: 表3 告警参数 参数 参数类型 描述 events Array of objects,详见 表4。 事件或者告警详情。 project_id String 租户从IAM申请到的projectid,一般为32位字符串。 表4 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间,CST毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String; event_severity:事件级别枚举值。类型为String,四种类型 "Critical", "Major", "Minor", "Info"; event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件; resource_provider:事件对应云服务名称。类型为String; resource_type:事件对应资源类型。类型为String; resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 其他相关操作 您可以在“接入LTS”界面对已添加的接入规则进行搜索、查看、编辑和删除。 表1 相关操作 操作 说明 搜索 单击搜索框,选择搜索维度,如选择“工作负载”,然后继续选择该维度下的可选项。如未选择搜索维度,直接输入搜索关键字,则默认按照接入规则名称搜索。 查看 在规则列表中可查看已创建的接入规则的集群名称、命名空间等信息。 单击“接入日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情页,查看日志组。 自定义列表项 单击搜索框右上方的,自定义列表项的展示。 编辑 单击“操作”列的“编辑”,可以编辑该接入规则。修改接入规则的影响请参见修改映射。 删除 单击“操作”列的“删除”,可以删除该接入规则。勾选多个规则名称前的复选框,单击“批量删除”,可批量删除接入规则。 删除接入规则或删除映射日志流不可恢复,请您谨慎操作,删除接入规则的影响请参见删除映射。
  • 什么是映射 AOM中的日志实际上是以一个日志流的形式在LTS中存在(如图1中的AOM日志流所示),AOM可以查询已配置采集路径的原始日志,但当前AOM的日志流无法在LTS控制台查看。您可以通过在AOM控制台添加接入规则来创建映射,映射创建后,即可通过LTS查看和分析AOM日志。 图1 未创建映射 创建日志流A并创建接入规则后,即已创建AOM至LTS的映射,最新的AOM日志将上报至日志流A,AOM可以查看映射前后所有的日志数据,日志流A不会复制或移动原AOM日志流中的历史数据,如图2所示。 图2 已创建映射
  • 查看和管理接入配置 您可以在日志接入界面对已添加的接入配置进行搜索、查看、编辑和删除。 搜索 在“日志接入”界面左侧选择需要查看接入配置的应用与组件,在右侧搜索框中输入关键词进行搜索。 查看 您可以在“日志接入”界面查看已创建的接入配置。单击“所属日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情。 编辑 在“日志接入”界面,单击“操作”列的“编辑”,可以编辑该接入配置。 删除 在“日志接入”界面,单击“操作”列的“删除”,可以删除该接入配置。或勾选接入配置名称,进行批量删除。 删除接入配置或删除映射日志流不可恢复,请您谨慎操作。
  • 约束与限制 需要先购买 云日志 服务的相关功能,才可以使用AOM 2.0控制台中日志管理、日志接入、日志转储、日志加工功能。 日志分析 (新版)功能当前仅在华北-北京一,华南-深圳,西南-贵阳一,华北-北京四,亚太-新加坡,非洲-约翰内斯堡,华东-上海一,华北-乌兰察布一,华北-乌兰察布二零二、拉美-圣地亚哥,拉美-圣保罗一,拉美-墨西哥城一,拉美-墨西哥城二,亚太-雅加达,土耳其-伊斯坦布尔,华北-乌兰察布-汽车一,中东-利雅得,华东-青岛,华东-上海二,华南-广州,华北-北京二,中国-香港,亚太-曼谷、华东二区域开放。 如果需要在AOM控制台中使用LTS的功能,需要提前获取LTS的相关权限,详情请参见LTS权限管理。
  • 监控指标相关操作 您还可以执行表2中的操作。 表2 相关操作 操作 说明 为指标添加创建告警规则 选择指标后,在指标列表右上方单击,可为当前添加的所有指标创建告警规则。 说明: 快捷跳转到“创建告警规则”界面后,“告警规则设置”和“告警规则详情”相关信息会自动选择为跳转前“指标浏览”界面的配置。 删除指标 在需要删除的指标项后单击。 添加指标图表到仪表盘 选择指标后,在指标列表右上方单击。 是否显示区域 开启该功能后,使用折线图监控指标时,指标数据在图表中显示背景色。
  • 监控日志 AOM可以对日志数据进行监控分析,首先您需要对日志进行结构化配置,具体请参考结构化配置。 在左侧导航栏中选择“指标浏览”。 默认显示“指标源”页签,单击“日志源”,切换至日志源页签。 依次在下拉框选择“日志组名称”和“日志流名称”。 在SQL查询条件框中输入SQL语句,单击“查询”即可查看该日志流下日志数据分析。目前支持的SQL语句详见SQL查询语法。 依照业务需求选择不同图表类型,呈现查询结果。图表类型与配置的详细说明请参见日志数据类图表。 单击:以表格形式展示当前日志数据。 单击:以折线图形式展示当前日志数据。 单击:以柱状图形式展示当前日志数据。 单击:以饼图形式展示当前日志数据。 单击:以数字图形式展示当前日志数据。 单击:以数字折线图形式展示当前日志数据。 单击:以国级、省级等地图形式展示当前日志数据。 对查询结果可执行以下操作: 单击“新建”,在弹出的“创建可视化图表”中,根据业务需求填写“图表名称”、“可视化对象”,选择需要展示的“图表类型”,单击“确定”,可视化图表保存成功。 单击“保存”,在弹出的“保存可视化图表”对话框中,根据业务需求填写“图表名称”,单击“确定”,可视化图表保存成功;当选中某个可视化图表时,单击“保存”,可对该图表进行修改。 单击“另存为”,在弹出的“保存可视化图表”中,根据业务需求填写“图表名称”,单击“确定”,对已有可视化图表进行复制。须先保存一个图表后,才可另存为可视化图表。 单击“下载”,可下载当前SQL查询结果的可视化数据,该文件为.csv。 单击“展开图表”,可展开当前日志流下的可视化图表。 单击“收起图表”,可收起当前日志流下展开的可视化图表。
  • 监控指标 登录AOM 2.0控制台。 在左侧导航栏中选择“指标浏览”。 从下拉列表选择需要监控的Prometheus实例。 通过“全量指标”或“按普罗语句添加”方式选择一个或多个关注的指标。监控条件设置的详细说明请参见添加指标图表详情填写说明。 通过“全量指标”方式选择指标 图1 通过“全量指标”方式选择指标 选择某个关注的指标后,可根据条件属性过滤显示指标。例如,不同的RDS实例均有CPU使用率指标,用户需要查看特定RDS实例类型的CPU使用率指标。具体操作如下: 在“指标”输入框搜索并选择对应的RDS实例的CPU使用率指标,然后在“条件”设置处设置维度名称为RDS for MySQ L实例 、RDS for PostgreSQL实例等RDS实例类型,并选择对应维度值,即可过滤显示出特定RDS实例类型的CPU使用率指标。 单击“新增指标”可多次添加监控指标,并为指标设置统计周期等信息。将光标移动到指标数据和对应监控条件后,还可以根据需要执行以下操作: 单击监控条件后的,可将对应行的指标数据在当前图表中隐藏。 单击监控条件后的,可将对应行的指标数据和监控条件转换为Prometheus命令。 单击监控条件后的,可快速复制对应行的指标数据及监控条件等信息,并根据需要修改。 单击监控条件后的,可删除对应行指标数据的监控。 通过“按普罗语句添加”方式选择指标,普罗语句输入的详细说明请参见普罗语句说明。 图2 通过“按普罗语句添加”方式选择指标 参考表1设置指标参数信息,查看页面上方的指标图表,多角度对指标数据进行分析。 表1 指标参数说明 参数名称 说明 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 说明: 样本个数为指标数据点的计数。 统计时段 指标数据按照所设置的时间范围进行聚合。设置时间范围的方式包括:近30分钟、近1小时、近6小时、近1天、近1周、自定义时间段。 刷新频率 指标数据按照所设置的频率进行刷新。包括:手动刷新、30秒、1分钟、5分钟。 (可选)设置指标数据的展示形式。 在页面右侧单击图表类型后的向下箭头,从下拉列表中选择合适的图表类型,并设置图表的配置参数,例如X轴名称、Y轴名称及显示数值等,配置参数的说明具体请参见指标数据类图表。1个折线图最多支持展示200条指标数据。 图3 选择图表类型
  • 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。 应用层监控 在应用层,主要监控业务层 、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。 组件监控 在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分布等核心指标。同时监控主机、进程、容器、云服务、性能监控、日志分析等信息。 图2 环境监控
  • 约束与限制 此模块只作用于 消息通知 部分,所有触发的告警和事件都可在“告警列表”页面查看。 告警降噪中所有的规则条件均取自告警结构体中的"metadata"字段,可采用系统默认字段,也可根据需要自定义字段。 { "starts_at" : 1579420868000, "ends_at" : 1579420868000, "timeout" : 60000, "resource_group_id" : "5680587ab6*******755c543c1f", "metadata" : { "event_name" : "test", "event_severity" : "Major", "event_type" : "alarm", "resource_provider" : "ecs", "resource_type" : "vm", "resource_id" : "ecs123" , "key1" : "value1" // 创建告警规则时配置的告警标签 }, "annotations" : { "alarm_probableCause_zh_cn" : "可能原因" "alarm_fix_suggestion_zh_cn" : "修复建议" } }
  • 约束与限制 您最多可创建100个“指标或事件”类型的消息模板,100个日志类型的消息模板,如果某种类型的消息模板数量已达上限100时,请删除不需要的消息模板。 系统默认预置6个消息模板,预置消息模板不可删除与编辑。当用户未自定义消息模板时,默认采用预置消息模板发送通知。 如果您未创建任何消息模板,则采用默认消息模板。 welink消息模板当前受限开放,如有需求可以通过提交工单,联系工程师为您开放此功能。
  • 更多操作 消息模板创建完成后,您还可以对消息模板列表执行表4中的相关操作。 表4 相关操作 操作 说明 编辑消息模板 单击“操作”列的“编辑”。 复制消息模板 单击“操作”列的“复制”。 删除消息模板 删除单条消息模板:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条消息模板:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 删除消息模板前需要先删除消息模板绑定的告警行动规则。 搜索消息模板 在右上角的搜索框中输入模板名称关键字,单击后显示匹配对象。
  • 更多操作 告警行动规则创建完成后,您还可以执行表2中的相关操作。 表2 相关操作 操作 说明 编辑告警行动规则 单击“操作”列的“编辑”。 删除告警行动规则 删除单条规则:单击对应规则“操作”列的“删除”,随后在提示页面单击“确定”即可删除。 删除单条或多条规则:勾选对应规则前的复选框,单击“批量删除”,随后在提示页面单击“确定”即可删除。 删除告警行动规则时需要注意以下事项: 删除告警行动规则前需要先删除该行动规则绑定的告警规则或分组规则。 删除告警行动规则会导致用户配置的告警通知无法及时收到,影响用户及时接收告警,请谨慎操作。 搜索告警行动规则 在右上角的搜索框中输入规则名称关键字,单击后显示匹配对象。
  • 功能介绍 在告警列表中,有以下关键功能: 告警列表:支持按告警级别图形化查看告警信息。 高级过滤:支持在搜索框中按告警级别 、告警源、告警关键字等条件进行过滤,默认按照告警级别过滤。 告警清除:支持单个、批量清除告警。 告警详情:在告警详情中查看告警对象的信息和修复建议,所有的告警都提供修复建议。 在事件列表中,有以下关键功能: 事件列表:支持按事件级别图形化查看告警信息。 高级过滤:支持在搜索框中按事件级别 、事件源、事件关键字等条件进行过滤,默认按照事件级别过滤。 事件清除:支持单个、批量清除事件。
  • 约束与限制 当指标告警规则的状态(正常、超限阈值、生效中、停用中)发生变化时,如需使用企业微信、钉钉、飞书、语音、welink、邮件或短信等方式发送通知,请参考创建告警行动规则设置告警行动规则。 按全量指标和按Prometheus命令创建指标告警规则时支持秒级监控,指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。 系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。
  • 功能说明 指标告警规则 通过指标告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 事件告警规则 通过事件告警规则可对服务设置事件条件,当服务发生了某种变化,资源数据满足事件条件时产生事件类告警。 应用性能监控告警规则 通过创建应用性能监控类型告警规则可对资源的指标设置阈值条件,当指标数据满足阈值条件时产生阈值告警。 创建AOM日志告警规则 AOM支持通过关键词统计、搜索分析以及SQL统计创建告警规则,实时监控日志数据并上报告警信息。 告警模板 告警模板是一组以云服务为单位的告警规则组合,通过告警模板用户可对同一个云服务下的多个指标批量创建阈值告警规则、事件告警规则和PromQL告警规则。
共100000条