华为云用户手册

  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用App监控功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见配置 AOM 菜单开关。 App监控功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用Web监控功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见配置AOM菜单开关。 Web监控功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
  • 约束与限制 接入管理功能区分新旧版,如果您进入的是旧版接入管理页面,需使用新版接入管理功能,可在“接入中心”页面右上角单击“体验新版”,切换为新版接入中心页面,然后再进入“接入管理”页面。 接入管理(新版)功能受限开放,如有需求可以通过提交工单申请开放此功能。 如果需要在AOM控制台中使用LTS的功能,需要提前获取LTS的相关权限,详情请参见LTS权限管理。 需要先购买 云日志 服务的相关功能,才可以使用AOM 2.0控制台中“接入管理”的“日志接入规则”功能。
  • 查看故障传播链图谱 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围。 在过滤器上方的下拉列表中选择需要查看的应用。 单击事件卡片或列表进入该事件详情页面,查看事件的故障传播链。 故障传播链将展示调用链中的故障传播图谱,您可通过故障转播图谱定位根因。支持查看故障传播链的异常事件类型包括: 应用服务整体平均响应时间突增 TopN接口平均响应时间突增 应用服务整体错误率突增 TopN接口错误率突增 图1 故障传播图谱
  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用应用监控功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关。 应用监控功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。 APM 探针(Agent)目前产品规格包括免费版和企业版。当您从免费版切换到企业版后,计费方式默认为按需计费。APM探针支持在线购买企业版特惠包,通过特惠包可以获得一定程度的价格优惠。
  • 功能介绍 表1 功能介绍 功能名称 说明 查看应用性能指标 应用概览页面展示应用维度的指标数据,包含url调用次数、url平均响应时间、url错误率等;同时支持“购买特惠包”以及“接入应用”。 监控组件性能指标 组件列表展示组件不同的指标监控项,AOM支持查看组件的指标监控项。 通过全局拓扑图查看应用间调用关系 通过拓扑图可以自动梳理服务之间的调用关系,同时也可以从全局视角查看服务之间调用是否正常,帮助用户快速定位问题。 通过调用链查看微服务间调用关系 在企业微服务之间调用复杂的场景下,Agent会抽样一些请求,拦截对应请求及后续一系列的调用信息。您可以通过调用链查看微服务间调用关系。 管理APM探针启停状态 AOM支持管理APM探针启停的状态。 APM配置管理 AOM支持管理APM的访问密钥,设置Agent相关通用配置,以及查看探针的统计数量。
  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用APM配置功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关。 APM配置功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
  • 约束与限制 按搜索分析创建告警规则功能目前在邀测中,暂不支持申请开通。 按SQL统计创建告警规则功能仅支持全部用户使用的局点有:华南-广州、华北-北京四、华北-乌兰察布二零一、华北-乌兰察布一、华东-上海一、华东-上海二、中国-香港、亚太-曼谷、亚太-新加坡,支持部分白名单用户使用的局点有:华北-北京一、西南-贵阳一、亚太-曼谷、华南-深圳、华北-乌兰察布一、华北-乌兰察布二零二,其他局点暂不支持该功能。
  • 约束与限制 添加日志转储任务时,除需拥有AOM和LTS使用权限外,还需要拥有OBS Administrator权限。 如果需要周期性转储日志,推荐使用LTS的日志转储功能将当前日志实时转储到OBS桶中长期保存。 周期性转储属于近实时转储,存在分钟级转储时延,时延与日志条数和日志大小有关,具体规格如下: 5分钟内累计日志条数大于1000条或日志大小超过2MB时,实时转储。 5分钟内累计日志条数小于1000条或日志大小不足2MB时,每5分钟转储。
  • 其他相关操作 表5 日志转储相关操作 操作 说明 修改日志转储 在日志转储列表中,单击待修改转储任务操作列的“编辑日志转储”,在弹出框“编辑日志转储”中修改日志转储信息。 修改完成后,单击“确定”。当前仅支持修改周期性转储任务信息。 删除转储任务 在日志转储列表中,单击待删除转储任务操作列的“删除”,弹出“删除”对话框。 单击“确定”,删除转储任务。转储任务一旦删除,将不再对日志进行转储,影响用户查询历史日志,请谨慎操作。 开启/暂停日志转储 在日志转储列表中,单击待操作的转储任务的“开启”或“暂停”开关,去启动或暂停转储任务。当前仅支持开启或暂停周期性转储任务。
  • 约束与限制 ICAgent只采集*.log、*.trace和*.out类型的日志文件,请确保日志文件后缀为.log、.trace或.out。例如,/opt/yilu/work/xig/debug_cpu.log。 请确保配置的路径是日志目录或文件的绝对路径,且该路径是实际存在的。例如,/opt/yilu/work/xig或/opt/yilu/work/xig/debug_cpu.log。 ICAgent不支持采集下级目录的日志文件。例如,/opt/yilu/work/xig的下级目录为/opt/yilu/work/xig/debug,则ICAgent不采集/opt/yilu/work/xig/debug中的日志文件。 一个虚机最多可配置20条日志采集路径。 同一资源空间下的所有E CS 主机,无法同时使用AOM和LTS的日志采集功能,只能匹配系统中最新的日志采集配置。例如,当前在AOM中配置了ECS主机的日志采集路径,则之前在该资源空间下,LTS中所有ECS主机的采集配置都失效。
  • 事件根因分析方法说明 “智能洞察”根因分析方法是一种基于调用链下钻的根因分析方法,分为离线训练和在线推理两个阶段: 离线训练阶段:在用户开通“智能洞察”功能后,后台会自动开启基于调用链的根因分析模型的离线训练任务,并自动获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调用链模型。默认每14天后台自动更新模型,并将模型保存在后台数据库中。 在线推理阶段:当用户单击事件卡片,进入到根因分析页面时,会触发根因分析模型的在线推理任务,在线推理任务会基于上一步离线训练完的调用链模型与事件发生期间的异常调用进行模式对比,分析事件根因,进行快速定位。
  • 查看事件根因分析结果 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围。 在过滤器上方的下拉列表中选择需要查看的应用。 单击事件卡片或列表进入该事件详情页面,查看各类型事件的根因分析。 应用服务整体平均响应时间突增:基于应用的调用链数据,针对应用粒度提供下钻分析,分析应用下每个组件的平均时延以快速定位根因,找到导致应用整体RT突增的具体组件。 图1 应用服务整体平均响应时间突增 应用服务整体错误率突增:基于应用的调用链数据,针对应用粒度提供下钻分析,分析应用下每个组件的错误率以快速定位根因,下钻到应用下具体组件的错误率异常。单击“查看调用链”,可详细追踪错误率突增的原因。 图2 应用服务整体错误率突增 TopN接口平均响应时间突增:基于应用的调用链数据,针对接口粒度提供调用链响应时间分析,快速定位根因。 图3 TopN接口平均响应时间突增 TopN接口错误率突增:基于应用的调用链数据,针对接口粒度提供调用链错误率分析,快速定位根因。单击“查看调用链”,可详细追踪错误率突增的原因。 图4 TopN接口错误率突增 应用服务整体流量不均:基于应用下所有实例的流量数据,展示应用下最大流量和最小流量实例的流量和时延数据,并展示应用下流量Top5的接口在最大流量和最小流量实例上的分布,快速定位受影响接口。单击所展示的接口,可详细追踪接口近期的调用情况。 图5 应用服务整体流量不均-流量统计&流量分布
  • 功能说明 事件巡检基于应用的历史数据,形成动态上界,以比对服务近期时间的数据是否有异常。 获取基础数据时间范围如下: 基于应用3小时内的历史数据,形成动态上界,以比对近10分钟的数据是否有异常。支持如下事件类型: 应用服务整体平均响应时间突增 TopN接口平均响应时间突增 应用服务整体错误率突增 TopN接口错误率突增 基于应用1小时内的历史数据,形成动态上界,以比对近15分钟的数据是否有异常。支持如下事件类型:应用服务整体流量不均。
  • 查看事件巡检数据 登录AOM 2.0控制台。 左侧导航栏单击“智能洞察(BETA)”。 在页面右上角设置应用的时间范围,您可以使用AOM预定义的时间标签,例如近1小时、近6小时等,也可以自定义时间范围。 在过滤器上方的下拉列表中选择需要查看的应用。 设置过滤器对事件巡检数据进行过滤。“过滤器”区域显示了当前时间段被巡检捕获的事件类型和状态,可以通过选择不同的分组查看事件。 过滤器支持按如下类型进行过滤。 事件类型:按照事件巡检发现的事件异常类型划分。支持的异常事件类型包括: 应用服务整体平均响应时间突增:基于应用历史3小时数据,判断最近10分钟应用服务整体平均响应时间是否有异常突增点。 TopN接口平均响应时间突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟Top 5接口平均响应时间是否有异常突增点。 应用服务整体错误率突增:基于应用历史3小时数据,判断最近10分钟应用服务整体错误率是否有异常突增点。 TopN接口错误率突增:默认对流量Top 5的接口进行检测,基于接口历史3小时数据,判断最近10分钟Top 5接口错误率是否有异常突增点。 应用服务整体流量不均:基于应用历史1小时数据,判断最近15分钟应用服务所有实例是否出现流量不均的情况。 事件状态:按照事件巡检发现事件的状态进行划分。 进行中:如果异常事件正在发生则为“进行中”。 已结束:如果异常事件已经结束则为“已结束”。 查看事件总览、事件卡片(列表)和事件详情信息。 查看事件总览 在“智能洞察(BETA)”主页面,默认以柱状图形式展示近30分钟的所有事件。您可以根据需要调整时间范围,查看近1小时、近6小时、近1天、近1周或自定义时间段的事件。 图1 事件统计视图 在事件统计图区域,您还可以执行以下操作: 在图表左上角,查看设置的时间段内事件巡检检测到的异常事件总数。 将鼠标悬浮于柱状图上,查看对应时间点各类型的事件数量。 单击柱状图上方的图例,可以隐藏或显示对应事件类型的数据。 在搜索栏根据关键字过滤显示需要查看的事件。 查看事件卡片(列表) 事件卡片(列表)中展示设置的时间段内事件巡检检测到的异常事件。您可以单击页面右上角切换事件展示形式,以卡片视角或列表视角展示事件。每个事件包含以下基本信息: 事件类型:展示事件的异常类型。 事件描述:描述事件发生的组件、接口。 事件触发时间:展示首个异常点出现的时间。 持续时长:展示异常持续恶化的时长。 图2 按卡片形式展示事件 图3 按列表形式展示事件 查看事件详情 您可以单击不同类型的事件卡片或列表,进入事件详情页面。在事件详情页面,事件巡检将提供RT、错误率等关键指标的检测图示,在图中展示异常时间段,并标注首个异常点及其上界。 应用服务整体平均响应时间突增事件详情: 图4 应用服务整体平均响应时间突增 应用服务整体错误率突增事件详情: 图5 应用服务整体错误率突增 TopN接口平均响应时间突增事件详情: 图6 TopN接口平均响应时间突增 TopN接口错误率突增事件详情: 图7 TopN接口错误率突增 应用服务整体流量不均事件详情: 图8 应用服务整体流量不均
  • 功能介绍 事件巡检:提供基于 应用性能管理 APM平台的应用监控服务,通过应用服务和流量Top N接口的平均RT、错误率等关键指标看护服务质量,自动检测指标异常。 事件根因分析:提供基于应用性能管理APM平台的调用链追踪根因定位技术。可以从应用服务和流量Top N接口的指标、调用链维度,全局分析问题,快速诊断并定位故障根因。 故障传播链分析:提供基于应用性能管理APM平台的调用链和平均RT、错误率等分析关键指标数据,找出异常调用在调用链追踪链路trace中的传播关系,并展示服务及其关联服务的关键指标数据,可以更有效地定位根因。
  • 一键迁移AOM 1.0数据至AOM 2.0 登录AOM 1.0控制台 。 在“AOM 2.0新特性”弹框中单击“我要迁移”。 图1 新特性弹框 在“迁移注意事项”弹框中单击“开始迁移”。 图2 迁移注意事项弹框 开始迁移,弹框显示“迁移中”。 图3 迁移中 迁移完成,单击“迁移完成”弹框中的“开始使用 AOM 2.0”,进入AOM 2.0控制台。 迁移完成后,单击过“迁移完成”弹框中的“开始使用AOM 2.0”,再次进入AOM 1.0控制台会自动跳转到AOM 2.0控制台。如果需要回到AOM 1.0控制台,可以在AOM 2.0控制台左侧导航栏中单击“返回旧版”。 图4 迁移完成
  • 更多操作 变量新增完成后,您还可以在“变量设置”页面执行表2中的操作。 表2 更多操作 参数名称 说明 搜索变量 支持按变量名称搜索,可在变量列表上方的搜索框中输入关键字,单击后显示匹配对象。 编辑变量 单击变量列表操作列的,详细操作请参见表1。 删除变量 单击变量列表操作列的,在弹框中单击“确定”。 通过变量填充仪表盘图表标题 仪表盘支持通过变量拼接填充图表标题。新增变量后,在仪表盘配置图表标题处使用“${变量名称}”进行拼接填充,即可基于该变量的过滤器下拉列表值,动态展示图表标题信息。 例如:仪表盘配置的原图表标题为“Dashboard”,新增的变量名称为“ClusterName”,即可以在仪表盘图表标题处配置“${ClusterName} Dashboard”。然后在过滤器ClusterName中基于不同下拉选择值,将过滤器选项值填充到仪表盘图表标题中进行动态拼接,并展示过滤条件对应的图表信息。
  • 新增变量 登录AOM 2.0控制台。 在左侧导航栏中选择“仪表盘”。如果您需要使用新版仪表盘功能,在左侧导航栏中选择“仪表盘”后,还需要单击页面右上角“体验新版”,切换至新版仪表盘界面。 选择待操作的仪表盘,在对应“仪表盘”页面右上角单击,进入“变量设置”页面。 单击“新增变量”,参考表1设置相关参数。 表1 新增变量填写说明 参数名称 说明 变量名称 变量的名称。最多可输入255个字符,只能包含数字、字母、下划线,且不能以下划线开头和结尾。 变量类型 变量的类型。目前只支持选择“Query”。 变量别名 变量的别名。最多可输入255个字符,只能包含数字、字母、中文、下划线、中划线,且不能以下划线、中划线开头和结尾。设置变量别名后优先显示变量别名。 变量描述 变量的描述。最多可输入1024个字符。 数据源 数据的来源。在仪表盘页面选择,此处灰化不可选。可以选择default类型的Prometheus实例和自定义创建的Prometheus实例,默认选择default类型的Prometheus实例。 支持选择的数据源类型:Prometheus for 云服务、Prometheus for ECS、Prometheus for CCE、Prometheus 通用实例、Prometheus for 多账号聚合实例、default。 刷新方式 过滤器刷新的方式。目前只支持选择“On dashboard load”,在仪表盘刷新时刷新过滤器。 指标名称 指标的名称。可以选择所选Prometheus实例下的指标。 展示字段 展示字段显示在仪表盘过滤框里。 值字段 展示字段对应的值。 条件 维度名称与维度值。通过AND可为同一指标设置多个条件。 多数值 是否允许多数值。默认关闭,开启后自定义的过滤器中可以选择多个数值。 包括“全选” 是否包括“全选”。默认关闭,开启后自定义的过滤器中增加“全选”选项。 设置完成后单击“保存”即可新增变量。 新增的变量会在仪表盘页面和新增图表页面以过滤器的形式展示,单击过滤器,可以在下拉列表中进行选择。 图1 查看过滤器
  • 更多应用发现规则操作 应用发现规则添加完成后,您还可以执行表2中的操作。 表2 相关操作 操作 说明 查看规则详情 在“名称”列单击规则的名称。 启、停规则 单击“操作”列的“启用”。 单击“操作”列的“停用”。停用后,AOM将不采集进程的指标数据。 删除规则 删除一个发现规则:在“操作”列选择“删除”。 删除一个或多个发现规则:选中一个或多个发现规则前的复选框,单击页面左上角的“删除”。 内置发现规则不支持删除操作。 修改规则 在“操作”列选择“修改”。 内置发现规则不支持修改操作。
  • 内置发现规则说明 AOM提供了Sys_Rule和Default_Rule两个内置的发现规则,内置的发现规则会在所有主机上执行,包括后续新增的主机。其中Sys_Rule优先级大于Default_Rule,即优先在主机上执行Sys_Rule,如果满足Sys_Rule,则不执行Default_Rule,如果不满足Sys_Rule,则执行Default_Rule。规则内容如下: Sys_Rule(不能停用) 使用Sys_Rule规则的场景下,组件名和应用名配对使用,必须同时设置组件名和应用名信息,取值优先级如下: 应用名称取值优先级: 取进程的启动命令中“Dapm_application”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_application”字段的值。 如果2为空,则取环境变量“PAAS_MONITORING_GROUP”的值。 如果3为空,则取进程的启动命令中“DAOM.APPN”字段的值。 组件名称取值优先级: 取进程的启动命令中“DAOM.PROCN”字段的值,如果为空则取“Dapm_tier”字段的值。 如果1为空,则取环境变量“JAVA_TOOL_OPTIONS”中“Dapm_tier”字段的值。 如果2为空,则取环境变量“PAAS_APP_NAME”的值。 如下示例所示,则组件名为atps-demo,应用名为atpd-test。 PAAS_MONITORING_GROUP=atpd-test PAAS_APP_NAME=atps-demo JAVA_TOOL_OPTIONS=-javaagent:/opt/oss/servicemgr/ICAgent/pinpoint/pinpoint-bootstrap.jar -Dapm_application=atpd-test -Dapm_tier=atps-demo Default_Rule(可停用) 如果进程的“COMMAND”列的值为“java”,则组件名依次按照优先级从命令行中的jar包名、命令行中主类名、命令行中第一个非-开头的关键字获取,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“python”,则组件名取命令行中第一个py/pyc脚本名,应用名使用默认值unknownapplicationname。 如果进程的“COMMAND”列的值为“node”,则组件名取命令行中第一个js脚本名,应用名使用默认值unknownapplicationname。
  • 过滤规则说明 ICAgent会在目标主机上进行周期性探测,类似ps -e -o pid,comm,lstart,cmd | grep -v defunct命令的效果,查出目标主机的所有进程。然后将每一个进程分别与过滤规则(过滤规则详见表1)进行匹配。如果进程满足过滤规则,则进程会被过滤掉,不会被AOM发现;如果进程不满足过滤规则,则进程不会被过滤,会被AOM发现。 探测结果类似如下回显信息: PID COMMAND STARTED CMD 1 systemd Tue Oct 2 21:12:06 2018 /usr/lib/systemd/systemd --switched-root --system --deserialize 20 2 kthreadd Tue Oct 2 21:12:06 2018 [kthreadd] 3 ksoftirqd/0 Tue Oct 2 21:12:06 2018 (ksoftirqd/0) 1140 tuned Tue Oct 2 21:12:27 2018 /usr/bin/python -Es /usr/sbin/tuned -l -P 1144 sshd Tue Oct 2 21:12:27 2018 /usr/sbin/sshd -D 1148 agetty Tue Oct 2 21:12:27 2018 /sbin/agetty --keep-baud 115200 38400 9600 hvc0 vt220 1154 docker-containe Tue Oct 2 21:12:29 2018 docker-containerd -l unix:///var/run/docker/libcontainerd/docker-containerd.sock --shim docker-containerd-shim --start-timeout 2m --state-dir /var/run/docker/libcontainerd/containerd --runtime docker-runc --metrics-interval=0 表1 过滤规则 过滤规则 举例 如果进程的“COMMAND”列的值为“docker-containe”、“vi”、“vim”、“pause”、“sshd”、“ps”、“sleep”、“grep”、“tailf”、“tail”或“systemd-udevd”,且为非容器内的进程,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1154”的进程,因为其“COMMAND”列的值为“docker-containe”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“[”开头,且以“]”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“2”的进程,因为其“CMD”列的值为“[kthreadd]”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“(”开头,且以“)”结尾,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“3”的进程,因为其“CMD”列的值为“(ksoftirqd/0)”,所以该进程不会被AOM发现。 如果进程的“CMD”列的值以“/sbin/”开头,则该类进程会被过滤掉,不会被AOM发现。 例如,上面信息中“PID”为“1148”的进程,因为其“CMD”列的值以“/sbin/”开头,所以该进程不会被AOM发现。
  • 功能特性 AOM的Prometheus监控具有监控数据采集、存储、计算、展示、告警等能力。监控指标覆盖广,涵盖容器、云服务、中间件、数据库、应用以及业务等多种监控数据。AOM的Prometheus监控支持的主要功能如下所示。 表2 监控对象接入 功能 功能说明 创建Prometheus实例 AOM支持创建多种类型的Prometheus实例。您可以根据需求选择创建任一类型的Prometheus实例。 集成中心 AOM集成容器服务CCE集群的Prometheus云原生监控插件,支持在Prometheus实例的“集成中心”为CCE集群安装云原生监控插件,上报指标到指定的CCE类型Prometheus实例中。 当前仅CCE类型Prometheus实例支持。 接入中心 AOM集成Prometheus中间件插件,支持在Prometheus实例的“接入中心”为虚机安装中间件Exporter,将上报指标到指定的ECS Prometheus实例中。 当前仅ECS类型Prometheus实例支持。 云服务接入 AOM支持在Prometheus实例的“云服务接入”中将云服务接入AOM,将云服务关指标上报到定的云服务Prometheus实例中。 当前仅云服务类型Prometheus实例支持。 账号接入 AOM支持在Prometheus实例的“接入账号”中将同一组织下多个成员账号接入AOM后,实现对同一组织下多个成员账号的云服务指标进行监控。通过数据多写功能,可以实现跨VPC的访问,而不必暴露服务端相关的网络信息。 表3 监控指标采集 功能 功能说明 管理Prometheus实例指标数据 支持查看、新增和废弃指标。 当前仅default类型、CCE类型、云服务类型、ECS类型、通用实例类型的Prometheus实例支持。 表4 监控数据处理 功能 功能说明 获取Prometheus实例的服务地址 使用Remote Read地址和Remote Write地址,将自建Prometheus的监控数据存储到AOM的Prometheus实例中,实现远程存储。 预聚合 通过配置预聚合规则将计算过程提前到写入端,可减少查询端资源占用,尤其在大规模集群和复杂业务场景下可以有效的降低PromQL的复杂度,从而提高查询性能,解决用户配置以及查询慢的问题。 当前仅CCE类型Prometheus实例支持。 数据多写 通过数据多写功能,可以实现跨VPC的访问。
  • 产品优势 表5 产品优势 开箱即用 一键安装部署即可监控Kubernetes以及各类云产品。 一键接入各种应用组件及告警工具。 低成本 多种指标免费用,覆盖Kubernetes标准组件。 提供全托管式服务,无需另购资源,可降低监控成本,且维护成本几乎为零。 与CCE集成并提供监控服务,容器监控体系创建时间从2天降低至10分钟。一个Prometheus For CCE实例可以上报多个CCE集群数据。 开源兼容 支持自定义多维数据模型、HTTP API模块、PromQL查询。 静态文件配置和动态发现机制发现监控对象,实现轻松迁移及接入。 数据规模无上限 凭借 云存储 能力,数据存储无上限,不再受限于本地容量。云端分布式存储保障数据可靠性。 通过Prometheus实例 for 多账号聚合实例将多个资源账号的指标数据汇聚到一个Prometheus实例,实现统一监控。 高性能 相较开源版本结构更轻量,资源消耗更低。通过单进程一体化Agent监控Kubernetes集群,采集性能提升20倍。 Agent部署在用户侧,保留原生采集能力同时能够最大程度的减少资源的使用。 通过采集存储分离架构,全面提升整体性能。 采集组件优化,提升单副本采集能力,降低资源消耗。 通过多副本横向扩展均衡分解采集任务,实现动态扩缩,解决开源水平扩展问题。 高可用性 双副本:数据采集、处理和存储组件支持多副本横向扩展,核心数据链路高可用。 水平扩展:基于集群规模可直接进行弹性扩容。
  • 基本概念 本文汇总使用Prometheus监控过程中涉及的基本概念,方便您查询和了解相关概念。 表6 基本概念 概念 说明 Exporter 一个采集监控数据并通过Prometheus监控功能规范对外提供数据的组件。目前有上百个官方或者第三方 Exporter可供使用,具体请参见Exporter详情。 Target Prometheus探针要抓取的采集目标。采集目标暴露自身运行、业务指标,或者代理暴露监控对象的运行、业务指标。 Job 一组Target的配置集合。定义了抓取间隔,访问限制等作用于一组Target的抓取行为。 Prometheus 监控 Prometheus监控全面对接开源Prometheus生态,支持类型丰富的组件监控,提供多种开箱即用的预置监控大盘和全面托管的Prometheus服务。 Prometheus实例 Prometheus监控功能提供的管理Prometheus数据采集和数据存储分析的逻辑单元。 Prometheus探针 部署在用户侧或者云产品侧Kubernetes集群。负责自动发现采集目标、采集指标和远程写到其他库。 PromQL Prometheus监控的查询语言。支持瞬时查询和时间跨度查询,内置多种函数和操作符。可以对原始数据进行聚合、切片、预测和联合。 Sample 一条时间线在某个时间点对应的数值。在Prometheus监控服务中,每个Sample由一个float64数据类型的值和一个毫秒精度的时间戳构成。 告警规则 Prometheus监控Alerting Rule格式的告警配置。可以通过PromQL描述。 标签 描述指标的一组Key-Value值。 指标管理 Prometheus监控的功能特点之一,无需静态配置,可以自动发现采集目标。支持Kubernetes SD、Consul、Eureka等多种指标管理方式,支持通过ServiceMonitor、PodMonitor的方式暴露采集目标。 预聚合 Prometheus监控的Recording Rule能力。可以通过PromQL将原始数据加工成新的指标,提升查询效率。 时间序列 由指标名和标签组成。属于同一指标和同一组标签维度的带时间戳的流。 远程存储 自研的时序数据存储组件。支持Prometheus监控的Remote Write协议,由云产品全面托管。 云产品监控 无缝集成了多种云产品的监控数据。用户如果有云产品的监控需求,可以通过接入云产品监控实施。 指标 采集目标暴露的、可以完整反映监控对象运行或者业务状态的一系列标签化数据。Prometheus监控采用OpenMetrics的标准数据格式描述指标。
  • 约束与限制 只有在CCE 的“插件中心” 页面或AOM的CCE类型Prometheus实例的“集成中心” 页面安装3.9.0以上的云原生监控插件(kube-prometheus-stack),且kube-prometheus-stack处于“运行中”状态时,才能成功启用/停用采集规则。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到“云原生监控插件”卡片,查看插件的状态。
  • 其他相关操作 CCE集群的指标管理配置完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 查看指标管理 在列表中,可查看名称、标签、命名空间、配置方式等信息,并支持按集群名称、命名空间或配置方式筛选查看。 单击“操作”列的,在弹出的对话框中查看ServiceMonitor或PodMonitor采集规则详情。 启用/停用采集规则 在“指标管理”页面的“配置”页签下,单击列表中“启停状态”列的,可以启用/停用采集规则。表示采集规则处于停用状态,表示采集规则处于启用状态。 删除指标管理 单击“操作”列的,,可删除指标。
  • 约束与限制 目前仅default类型、CCE类型、云服务类型、通用实例、ECS类型、APM类型的Prometheus实例支持指标查看、新增和废弃功能。 在指标管理页面仅支持查询近3个小时内上报的指标。 default类型的Prometheus实例下,指标名以“aom_”、“apm_”开头以及资源类型为ICAgent的指标暂不支持废弃。 ECS类型的Prometheus实例仅支持展示和配置UniAgent插件采集的指标。 CCE类型的Prometheus实例仅支持废弃如下指标: 只有在CCE “插件市场” 页面或AOM “集成中心” 页面安装的3.9.0以上的云原生监控插件(kube-prometheus-stack)上报的指标可以被废弃,且只有kube-prometheus-stack处于“运行中”状态时,指标才能废弃成功。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到“云原生监控插件”卡片,查看插件的状态。
  • 约束与限制 只有组织管理员或委托管理员账号才可以创建多账号聚合Prometheus实例,并执行接入账号的操作。设置委托管理员相关操作请参见添加、查看和取消委托管理员。 以委托管理员登录,如果无法执行接入账号操作,请参考给 IAM 用户授权为委托管理员授予以下权限: organizations:trustedServices:list organizations:organizations:get organizations:delegatedAdministrators:list organizations:accounts:list organizations:delegatedServices:list AOM只支持接入组织单元OU下的成员账号,当OU和成员账号所属关系变化时,AOM不会自动同步OU和成员账号的关系信息。
  • 接入账号 登录AOM 2.0控制台。 在Prometheus实例列表中,单击多账号聚合类型的Prometheus实例名称,进入该实例的“账号接入”界面。 在“账号接入”界面可以管理成员账号、接入云服务、选择数据存储,并添加云服务支持的相关指标。 管理成员账号:AOM为企业用户提供多账号关系的管理能力,支持用户将多个华为云账号整合到创建的组织中,并可以集中管理组织下的所有账号。组织下有三种成员类型,分别为组织管理员、委托管理员和普通用户。普通用户无权限在AOM监控多账号指标。 需要监控某个成员账号的指标,则单击“成员账号”文本框,在弹出的搜索框中输入账号关键字,下面的账号树中自动显示相关的成员账号,根据需要勾选需要监控的成员账号即可。 需要停止监控某个成员账号的指标,则在“账号接入”界面的“成员账号”文本框中删除对应的成员账号。 接入云服务:从云服务下拉列表中选择需要监控的一个或多个云服务。 数据存储:组织内子账号指标数据接入Prometheus For聚合实例后,子账号保留数据。系统默认不选择。 添加云服务支持的相关指标:单击“新增指标”,依次为接入的云服务添加相关指标。 图1 账号接入界面
共100000条