华为云用户手册

  • 数据订阅格式说明 AOM 格式的指标JSON格式代码片段 package metric type MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"` } type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"` } type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"` } type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"` } type Dimension struct { Name string `json:"name"` Value string `json:"value"` } Kafka消息示例 key:, value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-aom-4-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-aom-4-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131" } 参数说明: 表3 告警参数 参数 参数类型 描述 events Array of objects,详见 表4。 事件或者告警详情。 project_id String 租户从 IAM 申请到的projectid,一般为32位字符串。 表4 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间, CS T毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,CST毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,CST毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为3天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String。 event_severity:事件级别枚举值。类型为String,四种类型:“Critical”,“Major”,“Minor”,“Info”。 event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件。 resource_provider:事件对应云服务名称。类型为String。 resource_type:事件对应资源类型。类型为String。 resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 创建委托apm_admin_trust 登录IAM控制台。 在左侧导航栏,单击“委托”,进入委托页面。 单击右上角“创建委托”,进入创建委托页面。 参考表5设置创建委托的参数。 表5 创建委托 名称 说明 样例 委托名称 标识该委托代理的名称。委托名称必须为apm_admin_trust。 - 委托类型 选择“云服务”。 云服务 云服务 请选择“ 应用运维管理 AOM”。 - 持续时间 选择“永久”。 永久 描述 可选参数,用于补充说明该委托代理的详细信息。 - 单击“完成”,在授权的确认弹窗中,单击“立即授权”,进入“授权”页面。 在“选择策略”页签选择“DMS UserAccess”策略,并单击“下一步”。 DMS UserAccess策略:分布式消息服务普通用户权限(无实例创建、修改、删除、扩容、转储)。 在“设置最小授权范围”页签设置授权范围方案为“指定区域项目资源”,并在下方“项目[所属区域]”选定生效区域。 单击“确定”,委托关系创建成功。
  • 更多操作 表1 仪表盘相关操作 操作 说明 全屏显示 选择待操作的仪表盘,在“仪表盘”页面右上角单击,可全屏显示仪表盘。 退出全屏显示 将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。 手动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击可手动刷新当前页面。 自动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击后的下拉箭头,开启仪表盘自动刷新开关。 轮播仪表盘 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见设置全屏模式在线时长。 查询时间设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击前面的下拉框,在下拉框可选择“近30分钟”、“近1小时”、“近6小时”、“近一天”、“近一周”、“自定义时间段”。若选择“自定义时间段”,在弹出日历表中选择对应的时间段,时间可精确至秒数。单击“确定”后,可根据选择时间查询仪表盘中所有图表数据。 导出监控报告 选择待操作的仪表盘,在“仪表盘”页面右上角单击,选择“导出折线图监控报告”,可将该指标的折线图表以CSV格式导出,以便进行本地存储及进一步分析。
  • 约束与限制 配置Remote read的Prometheus需谨慎配置“global:external_labels**:”,external_labels会被附加在Remote read的查询条件中,不正确的label可能导致查询不到需要的数据。 您可以将配置项配置为“filter_external_labels: false”(Prometheus:v2.34版本以上),以避免将external_labels加入查询条件。
  • 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。 应用层监控 在应用层,主要监控业务层 、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。 组件监控 在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分布等核心指标。同时监控主机、进程、容器、云服务、性能监控、 日志分析 等信息。 图2 环境监控
  • 开通自动化运维 开通自动化运维时,因为不同区域是互相隔离的,对于不同的区域(例如:华北-北京一、华南-广州等),您需分别进行开通操作。 用户首次登录开通自动化运维,需要添加Security Administrator角色,后续使用自动化运维服务则不需要此角色权限。 访问AOM 2.0。 已开通AOM 2.0可忽略该步骤。 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在弹出的“服务授权”页面单击“同意授权并开通”。 父主题: 运维管理
  • 创建启动ECS实例任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“服务场景”,在服务场景页面单击“启动ECS实例”卡片,或单击卡片右上角的选择“创建任务”,进入创建启动ECS实例任务页面。 填写基本信息,具体的参数说明请参见表1。 图1 创建启动ECS实例任务 表1 创建ECS任务 参数名称 说明 任务名称 自定义任务名称。 最多可输入64个字符,只能由大小写字母、数字、下划线、中划线以及中文字符组成。默认勾选“自动命名”,系统将自动生成任务名称。 企业项目 选择所属的企业项目。 选择实例。 单击“添加资源”,弹出选择实例页面。单个任务最多支持选择100个实例。 实例类型默认为“ECS”。选择方式默认采用“手动选择”方式,选择方式的详细说明请参见表2。 图2 选择实例 表2 选择方式说明 选择方式 说明 手动选择 输入搜索条件,在实例列表中通过搜索条件来选取实例,默认按照名称搜索。 过滤条件 输入过滤属性和对应的过滤值,指定过滤条件来选择实例。 支持设置多个过滤条件,搜索时多个过滤属性之间为“与”的关系。 该方式对未来新增的实例也生效。 标签 设置标签键和对应的标签值,指定一个或多个标签来选取实例。 选择多个标签时,按照“与”的关系搜索。 该方式对未来新增的实例也生效。 从CMDB中选择 输入搜索条件或关键字,从CMDB服务中选取实例。当前节点类型支持两种选择方式,静态IP和动态节点。 静态IP:可选中指定CMDB应用下的ECS实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的ECS实例。该方式对节点下未来新增的实例也生效。 如需设置审批配置、执行策略,可展开“更多设置”进行配置,配置参数如表3。 表3 更多设置 参数类别 参数名称 说明 审批配置 人工审核 选择是否开启人工审核开关,默认不打开。 审批配置不允许更改,如需更改,需在工具市场中对该原子服务卡片进行审批配置。 审批人设置 开启人工审核后,需要选择审批人。 通过选择“主题”的方式配置审批人,您需要在 消息通知 服务中,创建一个新主题,并为这个主题添加订阅。 执行策略 分批发布 选择是否开启分批发布开关,默认不打开。 每批发布 开启分批发布后需填写每批发布数量。 每批间隔 开启分批发布后需填写每批发布的时间间隔。 单击“立即执行”进入任务执行界面,查看任务执行情况。 也可单击“保存”,将创建好的任务展现在任务管理页面,方便后续对任务进行执行或其他操作。
  • 约束与限制 目前仅default类型、CCE类型、云服务类型、ECS类型、通用实例类型的Prometheus实例支持数据多写功能。当前数据多写功能受限开放,如有需求可以通过提交工单,为您开放此功能。 通过配置预聚合规则汇聚生成的指标暂不支持数据多写。 AOM汇聚生成的部分默认指标,例如:aom_metrics_total、aom_metrics_total_per_hour、ALERTS、ALERTS_FOR_STATE不支持数据多写。 通过数据多写功能转储default Prometheus中的指标时,AOM会直接转储原始指标,导致部分转储的指标名称与AOM页面展示的指标名称不一致。例如:icagent上报的原始指标名称为小驼峰格式,AOM页面查询时指标名称转换成蛇形格式(以memUsage指标为例,原始指标名称为memUsage,AOM页面查询时指标名称为aom_container_memory_usage)。
  • 其他相关操作 您可以对已安装UniAgent的主机执行如下相关操作: 表6 相关操作 操作 说明 搜索主机 在主机列表上方的搜索框,可以通过服务器ID,服务器名称,运行状态,IP地址来搜索对应主机。 刷新主机列表 单击主机列表右上角的按钮,可刷新主机列表信息。 设置主机展示列 单击主机列表右上角的按钮,可对已接入的主机展示列进行设置。 切换排序 在主机列表的表头,单击各列的可切换主机排序。为默认排序,为按正序排序,为按倒序排序。
  • 安装方式说明 AOM支持对主机安装UniAgent。UniAgent有以下几种安装方式,您可以按照实际场景进行选择。 表1 安装方式 方式 适用场景 脚本快速安装(推荐) 适用于首次安装、单机安装UniAgent场景。使用远程登录工具,登录待安装UniAgent的服务器,手动执行安装命令去安装UniAgent,详情请参见: 脚本快速安装UniAgent(本Region内) 脚本快速安装UniAgent(本Region外) 控制台手动安装 适用于在AOM控制台批量安装UniAgent场景。同一虚拟私有云中,在AOM控制台中通过中转机(一台已安装UniAgent的服务器)批量为其他 ECS云服务器 安装UniAgent。详情请参见:控制台手动安装UniAgent(本Region内)。 该场景必须有一台已经装了UniAgent的服务器,如果是首次安装UniAgent,需要通过脚本快速安装方式进行安装。 中转机脚本安装 适用于通过在中转机上执行脚本安装UniAgent场景。使用远程登录工具,登录中转机(一台已成功安装UniAgent的服务器),然后在该中转机上执行脚本,为一个或多个服务器安装UniAgent: 通过中转机执行脚本安装UniAgent(单机安装) 通过中转机执行脚本安装UniAgent(批量安装) 该场景必须有一台已经装了UniAgent的服务器,如果是首次安装UniAgent,需要通过脚本快速安装方式进行安装。
  • 查看UniAgent状态 在“UniAgent管理”页面查看目标主机的UniAgent状态,详细请参见表4 UniAgent状态说明。 表5 UniAgent状态 状态 说明 运行中 表示服务器安装的UniAgent运行正常。 离线 表示服务器安装的UniAgent功能异常。 安装中 表示该服务器正在安装UniAgent。安装UniAgent预计需要1分钟左右,请耐心等待。 安装失败 表示服务器安装UniAgent失败,请卸载UniAgent后,并重新安装。 未安装 表示服务器未安装UniAgent。 主机成功安装完UniAgent后,UniAgent会在本地启动查询端口“39338”和“39339”,用于查询日志级别,采集任务等。
  • 创建修改ECS非管理员密码任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“服务场景”,在服务场景页面单击“修改ECS非管理员密码”卡片,或单击卡片右上角的选择“创建任务”,进入创建修改ECS非管理员密码任务页面。 填写基本信息,具体的参数说明请参见表1。 图1 创建修改ECS非管理员密码任务 表1 修改ECS非管理员密码基本信息 参数名称 说明 任务名称 自定义任务名称。 最多可输入64个字符,只能由大小写字母、数字、下划线、中划线以及中文字符组成。默认勾选“自动命名”,系统将自动生成任务名称。 企业项目 选择所属的企业项目。 用户名 非管理员用户名。 最多可输入64个字符,只能由大小写字母、数字、下划线组成。 可以单击,从参数库中选择。 新密码 非管理员用户的新密码。 长度范围8到26个字符。 只能包含大小写字母、数字和特殊字符,且至少包含这4种类型中的3种。 不能包含用户名或用户名的逆序。 可以单击,从参数库中选择。 确认密码 非管理员用户的新密码。 与新密码保持一致。 长度范围8到26个字符。 只能包含大小写字母、数字和特殊字符,且至少包含这4种类型中的3种。 不能包含用户名或用户名的逆序。 可以单击,从参数库中选择。 选择实例。 单击“添加资源”,弹出选择实例页面。单个任务最多支持选择100个实例。 实例类型默认为“ECS”。选择方式默认采用“手动选择”方式,选择方式的详细说明请参见表2。 图2 选择实例 表2 选择方式说明 选择方式 说明 手动选择 输入搜索条件,在实例列表中通过搜索条件来选取实例,默认按照名称搜索。 过滤条件 输入过滤属性和对应的过滤值,指定过滤条件来选择实例。 支持设置多个过滤条件,搜索时多个过滤属性之间为“与”的关系。 该方式对未来新增的实例也生效。 标签 设置标签键和对应的标签值,指定一个或多个标签来选取实例。 选择多个标签时,按照“与”的关系搜索。 该方式对未来新增的实例也生效。 从CMDB中选择 输入搜索条件或关键字,从CMDB服务中选取实例。当前节点类型支持两种选择方式,静态IP和动态节点。 静态IP:可选中指定CMDB应用下的ECS实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的ECS实例。该方式对节点下未来新增的实例也生效。 如需设置审批配置、执行策略,可展开“更多设置”进行配置,配置参数如表3。 表3 更多设置 参数类别 参数名称 说明 审批配置 人工审核 选择是否开启人工审核开关,默认不打开。 审批配置不允许更改,如需更改,需在工具市场中对该原子服务卡片进行审批配置。 审批人设置 开启人工审核后,需要选择审批人。 通过选择“主题”的方式配置审批人,您需要在消息通知服务中,创建一个新主题,并为这个主题添加订阅。 执行策略 分批发布 选择是否开启分批发布开关,默认不打开。 每批发布 开启分批发布后需填写每批发布数量。 每批间隔 开启分批发布后需填写每批发布的时间间隔。 单击“立即执行”进入任务执行界面,查看任务执行情况。 也可单击“保存”,将创建好的任务展现在任务管理页面,方便后续对任务进行执行或其他操作。
  • 一键迁移AOM 1.0数据至AOM 2.0 登录AOM 1.0控制台 。 在“AOM 2.0新特性”弹框中单击“我要迁移”。 图1 新特性弹框 在“迁移注意事项”弹框中单击“开始迁移”。 图2 迁移注意事项弹框 开始迁移,弹框显示“迁移中”。 图3 迁移中 迁移完成,单击“迁移完成”弹框中的“开始使用AOM 2.0”,进入AOM 2.0控制台。 迁移完成后,单击过“迁移完成”弹框中的“开始使用AOM 2.0”,再次进入AOM 1.0控制台会自动跳转到AOM 2.0控制台。如果需要回到AOM 1.0控制台,可以在AOM 2.0控制台左侧导航栏中单击“返回旧版”。 图4 迁移完成
  • 其他相关操作 您可以对已安装UniAgent的主机执行如下相关操作: 表6 相关操作 操作 说明 搜索主机 在主机列表上方的搜索框,可以通过主机IP、导入IP、主机名称、安装机名称和代理IP来搜索对应主机。 刷新主机列表 单击主机列表右上角的按钮,可刷新主机列表信息。 设置虚机展示列 单击主机列表右上角的按钮,可对已接入的虚机展示列进行设置。 过滤主机信息 在主机列表的表头,单击各列的,可按特定类型过滤显示主机的信息。 切换主机排序 在主机列表的表头,单击“UniAgent心跳时间”列的可切换主机的排序。为默认排序,为按时间正序排序(即最新的UniAgent心跳时间显示在最后方),为按时间倒序排序(即最新的UniAgent心跳时间显示在最前方)。 删除主机 当主机的UniAgent状态为异常、未安装或安装失败时,可删除主机。 单击主机名称及IP地址右侧对应的“删除”。 删除主机需要注意以下事项: 安装中/升级中/卸载中的机器不能直接删除,请刷新页面等待状态更新后,再执行删除操作。 运行中的机器需要先卸载UniAgent才能删除。 安装机/代理机不能直接删除,请先取消相关设置。 设置安装机 通过如下操作可以设置安装机的名称。 单击主机名称及IP地址右侧对应的“设置安装机”,输入安装机的名称。 取消安装机 当主机已设置了安装机,通过如下操作可取消设置。 单击主机名称及IP地址右侧对应的“ 取消安装机”,可取消原有的安装机。 修改安装机名称 当主机已设置了安装机,通过如下操作可以修改安装机的名称。 单击安装机名称,在弹出的对话框中重命名安装机的名称。
  • 安装方式说明 AOM支持对主机安装UniAgent,UniAgent支持的安装方式:Excel导入安装、手动安装和远程安装。您可以按照实际场景进行选择。 表1 安装方式 方式 适用场景 手动安装UniAgent 适用于首次安装、单机安装UniAgent场景。登录待安装的UniAgent的主机,手动执行安装命令去安装UniAgent。 首次安装UniAgent时,必须使用手动安装方式。 远程安装UniAgent 适用于批量安装UniAgent场景。将一台已经安装了UniAgent的主机设置为安装机,然后通过该安装机对其他机器进行远程安装UniAgent。(在安装页面直接输入待安装UniAgent的主机信息。) Excel导入安装UniAgent 适用于批量安装UniAgent场景。将一台已经安装了UniAgent的主机设置为安装机,然后通过该安装机对其他机器进行远程安装UniAgent。(在安装页面通过Excel导入待安装UniAgent的主机信息。) 当前通过Excel导入安装方式受限开放,如有需求可以通过提交工单,为您开放此功能。
  • 查看UniAgent状态 在“虚机接入”页面在查看目标主机的UniAgent状态。详细请参见表9 UniAgent状态说明。 表5 UniAgent状态 状态 说明 运行中 表示服务器安装的UniAgent运行正常。 离线 表示服务器安装的UniAgent功能异常。 安装中 表示该服务器正在安装UniAgent。安装UniAgent预计需要1分钟左右,请耐心等待。 安装失败 表示服务器安装UniAgent失败,请卸载UniAgent后,并重新安装。 未安装 表示服务器未安装UniAgent。 主机成功安装完UniAgent后,UniAgent会在本地启动查询端口“39338”和“39339”,用于查询日志级别,采集任务等。
  • 创建参数 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“参数库”,单击右上角的“创建参数”。 填写参数信息,具体的参数说明请参见表1。 图1 填写参数信息 表1 填写参数信息 参数名称 说明 参数类型 参数的类型,目前仅支持字符串类型。 参数名称 参数的名称。 最多可输入64个字符,只能由大小写字母组成。 加密参数 参数默认为不亮状态,当前不支持加密功能 。 初始值 参数初始值,最多可输入1000个字符。 必填 参数被引用时,是否为必填参数,默认为点亮状态。 输入提示 参数被引用时的提示信息,最多可输入1000个字符。 参数描述 参数的描述信息,最多可输入1000个字符。 单击“保存”完成创建。
  • 事件根因分析方法说明 “智能洞察”根因分析方法是一种基于调用链下钻的根因分析方法,分为离线训练和在线推理两个阶段: 离线训练阶段:在用户开通“智能洞察”功能后,后台会自动开启基于调用链的根因分析模型的离线训练任务,并自动获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调用链模型。默认每14天后台自动更新模型,并将模型保存在后台数据库中。 在线推理阶段:当用户单击事件卡片,进入到根因分析页面时,会触发根因分析模型的在线推理任务,在线推理任务会基于上一步离线训练完的调用链模型与事件发生期间的异常调用进行模式对比,分析事件根因,进行快速定位。
  • 更多操作 任务创建或执行完成后,您可以在任务列表页面查看任务名称、任务类型、执行策略、最近执行结果、更新人、更新时间、启停任务、操作等信息,还可执行表6中的操作。 表6 相关操作 操作 说明 启停任务 单击“启停任务”列的按钮,选择启动或者关闭任务。 编辑任务 单击“操作”列的“编辑”,进入到编辑定时任务页面,可以对任务进行编辑。 只有在任务关闭时,才能编辑任务。 查看执行记录 单击“操作”列的“执行记录”可查看任务执行的详细信息,包括任务名称、任务ID、任务状态、执行时间以及审批人等信息。 删除任务 单击“操作”列的“删除”,可以删除任务。只有在任务关闭时,才能删除任务。 搜索任务 支持按任务名称、创建人、更新人、最近执行结果、任务类型和企业项目搜索。在右上角的搜索框中输入关键字,单击后在下面任务列表显示匹配对象。 隐藏/显示任务列表的列信息 单击,根据需要勾选/取消勾选对应列,可在任务列表中显示/隐藏该列。 刷新任务列表 单击,可刷新任务列表。
  • 创建任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“定时运维 ”,单击右上角的“创建定时任务”。 填写创建定时任务基本信息,详细的参数说明请参见表1。 图1 创建定时任务基本信息 表1 创建任务参数说明 参数名称 参数说明 任务名称 自定义任务名称。 最多可输入64个字符,只能由大小写字母、数字、下划线、中划线以及中文字符组成。默认勾选“自动命名”,系统将自动生成任务名称。 设置定时参数,详细参数说明请参见表2。 图2 定时参数设置 表2 定时参数说明 参数名称 参数说明 时区 定时任务的时区,可以在下拉列表中选择正确的时区。 执行策略 定时任务的执行策略,包含以下三种: 单次执行:在设置的时间执行一次操作。 简单周期执行:根据设置的时间周期循环执行。 周期执行(Cron表达式):根据设置的Cron表达式执行操作。 执行时间 定时任务执行的具体时间。 执行周期 “执行策略”为“简单周期执行”才需要设置。 每天:周期内的每一天。 指定时间:从周日到周一中选择一个或多个,默认全部选中。 执行规则 “执行策略”为“周期执行(Cron表达式)”才需要设置。 根据设置的Cron表达式执行操作,目前只支持从0分开始计时递增,最小时间间隔30分钟 。具体的规则和配置方式请单击页面“了解Cron表达式”。 配置任务通知,详细参数说明请参见表3。 图3 任务配置通知 表3 任务配置通知参数说明 参数名称 参数说明 执行成功通知 任务执行成功时,发送通知给相关人,系统默认开关关闭。 通知人配置:在下拉列表中选择“通知人”,可以选择一个或者多个。 也可以通过“创建主题”的方式选择。通过选择“主题”的方式配置通知人,需要先通过“创建主题”创建一个新主题,并为这个主题添加订阅,之后即可通知。 执行失败通知 任务执行失败时,发送通知给相关人,系统默认开关关闭。 通知人配置:在下拉列表中选择“通知人”,可以选择一个或者多个。 也可以通过“创建主题”的方式选择。通过选择“主题”的方式配置通知人,需要先通过“创建主题”创建一个新主题,并为这个主题添加订阅,之后即可通知。 当前支持邮件和短信2种类型的通知方式。 配置任务,任务类型分为脚本执行、文件管理、服务场景以及作业管理。 配置脚本执行任务。 任务类型选择“脚本执行”。 输入脚本名称、脚本参数、超时时长、执行账号。脚本名称下拉框只展示已上线脚本的名称,未上线脚本名称不显示。脚本版本信息,根据选定的脚本名称自动获取。 脚本参数框后的“敏感参数”,勾选后脚本参数框对输入的内容不直接显示。 图4 配置脚本执行任务 选择“目标实例”。单击“添加资源”,弹出选择实例页面。实例类型默认为“ECS”。选择方式默认采用“手动选择”方式,选择方式的详细说明请参见表4。 表4 选择方式说明 选择方式 说明 手动选择 输入搜索条件,在实例列表中通过搜索条件来选取实例,默认按照名称搜索。 过滤条件 输入过滤属性和对应的过滤值,指定过滤条件来选择实例。 支持设置多个过滤条件,搜索时多个过滤属性之间为“与”的关系。 该方式对未来新增实例也生效。 标签 设置标签键和对应的标签值,指定一个或多个标签来选取实例。 选择多个标签时,按照“与”的关系搜索。 该方式对未来新增实例也生效。 从CMDB中选择 输入搜索条件或关键字,从CMDB服务中选取实例。当前节点类型支持两种选择方式,静态IP和动态节点。 静态IP:可选中指定CMDB应用下的ECS实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的ECS实例。该方式对节点下未来新增的实例也生效。 配置文件管理任务。 任务类型选择“文件管理”。 输入文件包名称、版本号、类型、超时时长、目标存储路径、执行账号。文件包名称下拉框只展示已上线文件包名称,未上线文件包名称不显示,版本号根据选定的文件包名称自动展示。 图5 配置文件管理 选择“目标实例”。单击“添加资源”,弹出选择实例页面。实例类型默认为“ECS”。选择方式默认采用“手动选择”方式,选择方式的详细说明请参见表4。 配置服务场景任务。 任务类型选择“服务场景”。 在服务场景的下拉列表中,选择服务场景。不同服务场景的具体操作,参见服务场景。 图6 配置服务场景 配置作业管理任务。 任务类型选择“作业管理”。 在下拉列表中,分别选择作业名和执行方案。 图7 配置作业管理 如需设置审批配置、执行策略,可展开“更多设置”进行配置,配置参数如表5。 表5 更多设置 参数类别 参数名称 说明 审批配置 人工审核 选择是否开启人工审核开关,默认不允许更改。如需更改,系统默认的服务场景请前往工具市场对原子卡片进行设置。作业执行方案需前往作业中设置,文件管理需前往文件包中设置,脚本执行需前往脚本中设置。 审批人设置 开启人工审核后,需要选择审批人。 通过选择“主题”的方式配置审批人,您需要在消息通知服务中,创建一个新主题,并为这个主题添加订阅。 执行策略 分批发布 选择是否开启分批发布开关,默认不打开。 每批发布 开启分批发布后需填写每批发布数量。 每批间隔 开启分批发布后需填写每批发布的时间间隔。 单击“提交”创建定时任务成功。
  • 约束与限制 仅开通了 云监控 CES融合功能才支持管理云监控告警规则。当前云监控 CES 融合功能受限开放,如有需求可以通过提交工单,为您开放此功能。 AOM 2.0融合CES相关功能后,会向AOM FullAccess策略中添加“CES:*:*”,“ecs:instance:list”,“dms:instance:list”,“dms:instance:get”,“lts:topics:list”,“lts:groups:list”,“smn:topic:list”,“smn:topic:publish”,“swr:repository:*”,“swr:repo:*”,“vpc:bandwidths:get”,“as:groups:get”,“astrocanvas:*:*”细粒度权限,若您之前通过AOM FullAccess策略对租户下子用户进行了权限控制,那么AOM FullAccess策略增加上述权限后,子用户也会展示上述云服务资源,您若仍有子用户云服务资源控制诉求,则您可自行进行自定义的子用户权限配置,从而达成子用户云服务资源展示控制效果。
  • 创建重启CCE工作负载任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在左侧导航栏中选择“服务场景”,在服务场景页面单击“重启CCE工作负载”卡片,或单击卡片右上角的选择“创建任务”,进入创建重启CCE工作负载任务页面。 填写基本信息,具体的参数说明请参见表1。 图1 重启CCE工作负载 表1 重启CCE工作负载 参数名称 说明 任务名称 自定义任务名称。 最多可输入64个字符,只能由大小写字母、数字、下划线、中划线以及中文字符组成。默认勾选“自动命名”,系统将自动生成任务名称。 企业项目 选择所属的企业项目。 重启超时 CCE工作负载任务重启超时时间,输入值必须在10-600之间。 选择实例。 单击“添加资源”,弹出选择实例页面。单任务一次最多重启10个负载实例。 实例类型默认为“CCE”。选择方式默认采用“手动选择”方式,选择方式的详细说明请参见表2。 图2 重启CCE工作负载选择实例 表2 选择方式说明 选择方式 说明 手动选择 输入搜索条件,在实例列表中通过搜索条件来选取实例,默认按照名称搜索。 过滤条件 选择负载类型、集群名称、命名空间的方式来选择实例,该方式对未来新增的实例也生效。 从CMDB中选择 输入搜索条件或关键字,从CMDB服务中选取实例。当前节点类型支持两种选择方式,静态IP和动态节点。 静态IP:可选中指定CMDB应用下的CCE实例。 动态节点:选择CMDB应用中的节点,从而动态获取节点下的CCE实例。该方式对节点下未来新增的实例也生效。 如需设置审批配置、执行策略,可展开“更多设置”进行配置,配置参数如表3。 表3 更多设置 参数类别 参数名称 说明 审批配置 人工审核 选择是否开启人工审核开关,默认不打开。 审批配置不允许更改,如需更改,需在工具市场中对该原子服务卡片进行审批配置。 审批人设置 开启人工审核后,需要选择审批人。 通过选择“主题”的方式配置审批人,您需要在消息通知服务中,创建一个新主题,并为这个主题添加订阅。 执行策略 分批发布 选择是否开启分批发布开关,默认不打开。 每批发布 开启分批发布后需填写每批发布数量。 每批间隔 开启分批发布后需填写每批发布的时间间隔。 单击“立即执行”进入任务执行界面,查看任务执行情况。 也可单击“保存”,将创建好的任务展现在任务管理页面,方便后续对任务进行执行或其他操作。
  • 常用的普罗命令 常用的查询指标的普罗命令如表1所示,用户可根据实际修改其中的IP地址、ID等参数信息。 表1 常用的普罗命令 指标 标签定义 PromQL 主机CPU使用率 {nodeIP="",hostID=""} aom_node_cpu_usage{nodeIP="192.168.57.93",hostID="ca76b63f-dbf8-4b60-9c71-7b9f13f5ad61"} 主机应用请求吞吐量 {aomApplicationID="",aomApplicationName=""} http_requests_throughput{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机应用请求成功率 {aomApplicationID="",aomApplicationName=""} http_requests_success_rate{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机组件CPU使用率 {appName="",serviceID="",clusterId=""} aom_process_cpu_usage{appName="icagent",serviceID="2d29673a69cd82fabe345be5f0f7dc5f",clusterId="00000000-0000-0000-0000-00000000"} 主机进程线程数 {processCmd="",processName=""} aom_process_thread_count{processCmd="cdbc06c2c05b58d598e9430fa133aff7_b14ee84c-2b78-4f71-9ecc-2d06e053172c_ca4d29a846e9ad46a187ade88048825e",processName="icwatchdog"} 集群磁盘使用率 {clusterId="",clusterName=""} aom_cluster_disk_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群虚拟内存使用率 {clusterId="",clusterName=""} aom_cluster_virtual_memory_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群可用虚拟内存 {clusterId="",clusterName=""} aom_cluster_virtual_memory_free_megabytes{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 工作负载文件系统使用率 {appName="",serviceID="",clusterId="",nameSpace=""} aom_container_filesystem_usage{appName="icagent",serviceID="cfebc2222b1ce1e29ad827628325400e",clusterId="af3cc895-bc5b-11ec-a642-0255ac101a0b",nameSpace="kube-system"} POD内核占用 {podID="",podName=""} aom_container_cpu_used_core{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""} aom_container_network_transmit_bytes{containerID="16bf66e9b62c08493ef58ff2b7056aae5d41496d5a2e4bac908c268518eb2cbc",containerName="coredns"}
  • 普罗语句查询举例说明 示例一:集群下指定pod占所在节点(不含控制节点)的内存使用率 定义变量: pod中容器内存实际占用量(同一个Pod下可能会有多个容器/实例):aom_container_memory_used_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_used_megabytes,使用聚合函数sum,按照nodeIP和podID进行指定node下指定pod当前的内存实际占用量计算。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的内存实际使用率的普罗语句如下所示: sum(aom_container_memory_used_megabytes{podID="****1461-41d8-****-bfeb-fc1213****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="***.***.***.***"}) by (nodeIP) 示例二:集群下指定pod占所在节点(不含控制节点)的cpu使用率 定义变量: pod中容器的cpu实际使用量:aom_container_cpu_used_core node的cpu实际总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_used_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的cpu实际使用率的promQL如下所示: sum(aom_container_cpu_used_core{nodeIP="***.***.***.***",podID="****1461-41d8-****-bfeb-***13******"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="***.***.***.***"}) by (nodeIP) 示例三:集群下运行的Pod内存配额申请值 / 集群下该Pod所在节点的内存可分配量 定义变量: pod中给容器分配的内存总量:aom_container_memory_request_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_request_megabytes,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前被分配的内存总量。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际分配率。 pod的内存实际分配率的promQL如下所示: sum(aom_container_memory_request_megabytes{podID="****1461-41d8-4403-****-f***35*****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="***.***.***.***"}) by (nodeIP) 示例四:集群下运行的Pod的cpu配额申请值 / 集群下该Pod所在节点的cpu可分配量 定义变量: pod中容器的cpu实际分配总量:aom_container_cpu_limit_core node的cpu实际分配总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_limit_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu分配量。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的cpu实际分配率。 pod的cpu实际分配率的promQL如下所示: sum(aom_container_cpu_limit_core{podID="*****461-41d8-****-bfeb-****135*****",nodeIP="***.***.***.***"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="***.***.***.***"}) by (nodeIP)
  • 其他相关操作 CCE集群的指标管理配置完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 查看指标管理 列表中,可查看名称、标签、命名空间、配置方式等信息,并支持按集群名称、命名空间或配置方式筛选查看。 单击“操作”列的,在弹出的对话框中查看ServiceMonitor或PodMonitor采集规则详情。 启用/停用采集规则 在“指标管理”页面的“配置”页签下,单击列表中“启停状态”列的,可以启用/停用采集规则。表示采集规则处于停用状态,表示采集规则处于启用状态。 删除指标管理 单击“操作”列的,可删除指标。
  • 约束与限制 只有在CCE的“插件市场”页面或AOM的CCE类型Prometheus实例的“集成中心”页面安装3.9.0以上的云原生监控插件(kube-prometheus-stack),且kube-prometheus-stack处于“运行中”状态时,才能成功启用/停用采集规则。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到“云原生监控插件”卡片,查看插件的状态。
  • 常用功能 此卡片默认展示AOM最常使用的功能。 自定义告警模板:单击“自定义告警模板”可跳转至告警模板页面。 创建告警规则:单击“创建告警规则”可跳转至创建告警规则页面,可以根据需要创建指标告警规则、事件告警规则、应用性能监控告警规则。 创建通知规则:单击“创建通知规则”可跳转至告警通知页面。 创建消息模板:单击“创建消息模板”可跳转至消息模板页面。 自定义仪表盘:单击“自定义仪表盘”可跳转至仪表盘页面。 创建通知组:单击“创建通知组”可跳转至通知组页面。 图8 常用功能
  • 产品使用概况 此卡片主要展示Prometheus 监控、云监控、应用性能监控、用户体验监控、 云日志 监控的资源数量。 Prometheus 监控:展示Prometheus实例数量。单击“接入指标”可跳转至“实例列表”页面。 云监控:展示云监控的资源总数。单击“查看监控”可跳转至“云服务监控”页面。 应用性能监控:展示应用性能监控的应用总数。单击“接入调用链”可跳转至“应用概览”页面。 用户体验监控:展示用户体验监控的Web站点/APP移动端数量。单击“接入调用链”并选择监控类型可跳转至“前端站点”或“App列表”页面。 云日志监控:展示云日志监控的日志组/日志流数量。单击“接入日志”可跳转至“日志管理”页面。 图3 产品使用概况
  • Prometheus 监控 此卡片主要展示Prometheus实例列表,可以查看已创建的Prometheus实例的实例名称、实例类型、基础指标、自定义指标以及计费模式。默认展示“基础指标”数量最多的5个Prometheus实例,还可以通过Prometheus实例的实例名称、自定义指标、计费模式进行排序。 用量统计:单击“用量统计”可跳转至“用量统计”页面。 创建实例:单击“创建实例”可跳转至“实例列表”页面。 接入中心:单击“接入中心”可跳转至“接入中心”页面。 图4 Prometheus 监控
  • 约束与限制 “全景监控”页面中云服务监控CES相关功能当前受限开放,如有需求可以通过提交工单,为您开放此功能。 如果需要在“全景监控”页面中查看CES的数据,需要提前获取CES的“ces:dashboard:listResourceStatistics”权限,权限详情请参见CES权限管理。 LTS相关功能当前仅在华北-北京一,华南-深圳,西南-贵阳一,华北-北京四,亚太-新加坡,非洲-约翰内斯堡,华东-上海一,华北-乌兰察布一,华北-乌兰察布二零二、拉美-圣地亚哥,拉美-圣保罗一,拉美-墨西哥城一,拉美-墨西哥城二,亚太-雅加达,土耳其-伊斯坦布尔,华北-乌兰察布-汽车一,中东-利雅得,华东-青岛,华东-上海二,华南-广州,华北-北京二,中国-香港,亚太-曼谷、华东二区域开放。如果需要在“全景监控”页面中查看LTS的数据,需要提前获取LTS的“lts:trafficStatistic:get”、“lts:groups:list”权限,权限详情请参见LTS权限管理。 应用性能监控功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。 Web站点和App移动端监控功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。 AOM会自动检测主机安装的ICAgent插件版本。 如果AOM检测到您的主机中安装的ICAgent插件处于不再维护的版本时,当您进入AOM后,界面会弹出“ICAgent版本太低”的提示框,您可以根据实际需求单击“授权自动升级”,授权AOM为您在业务低峰期自动升级ICAgent插件,或单击“前往手动升级”前往UniAgent管理页面手动升级ICAgent插件。如果您暂不需要升级ICAgent插件,可勾选“不再提示”前的复选框,取消提示信息。
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全