检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
登录LTS控制台。 在左侧导航栏选择“配置中心”。 配额设置 分词配置 通过配置分词可将日志内容按照分词符切分为多个单词,在日志搜索时可使用切分后的单词进行搜索。 登录AOM 2.0控制台。 在左侧导航栏选择“设置”,进入全局配置界面。 在左侧导航栏选择“日志设置”,单击“分词配置”页签。
appName 否 String 应用名称。 clusterId 是 String CCE集群ID。 hostIP 否 String 日志所在虚拟机IP。 nameSpace 否 String CCE容器集群的命名空间。 pathFile 否 String 日志文件名称。 podName
onitor的相关参数信息,然后单击“确定”。 图3 新增PodMonitor 配置完成后,新增的采集规则将显示在下方的列表中。 图4 配置采集规则 更多操作 CCE集群的指标管理配置完成后,您还可以执行表1中的操作。 表1 相关操作 操作 说明 查看指标管理 在列表中,可查看名
接入云服务:从云服务下拉列表中选择需要监控的一个或多个云服务。 数据存储:组织内子账号指标数据接入Prometheus For聚合实例后,子账号保留数据。系统默认不选择。 添加云服务支持的相关指标:单击“新增指标”,依次为接入的云服务添加相关指标。 图1 账号接入界面 父主题:
可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务、操作、资源、条件等策略内容,可自动生成策略。 JSON视图创建自定义策略:可以在选择策略模板后,根据具体需求编辑策略内容;也可以直接在编辑框内编写JSON格式的策略内容。 具体创建步骤请参见:创建自定义策略。本章为您介绍常用的自动化运维自定义策略样例。
次告警通知。通常设置为秒级别的时间,便于告警合并后再发送,避免告警风暴。 15秒 变化等待 合并集合内的告警数据发生变化后,等待多久发送告警通知。此处的变化是指新增告警或告警状态改变。 60秒 重复等待 合并集合内的告警数据重复后,等待多久发送告警通知。此处的重复是指无新增告警和
根因分析方法 “智能洞察”根因分析方法是一种基于调用链下钻的根因分析方法,分为离线训练和在线推理两个阶段: 离线训练阶段:在用户开通“智能洞察”功能后,后台会自动开启基于调用链的根因分析模型的离线训练任务,并自动获取应用接口发生调用时产生的调用链数据,然后根据应用近7天的调用链数据来训练调
Web监控 AOM作为华为云服务可观测性分析统一入口,自身并不具有APM服务的功能,AOM 2.0控制台中Web监控相关功能由应用性能管理APM提供。用户可在AOM 2.0控制台界面操作,也可登录APM控制台界面操作。 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-
错误时延设置:支持配置1s、3s、5s、10s、15s。 单击组件之间的连线,会在右侧显示详细的请求数、平均RT、错误率等数据。 单击“只显示组件之间调用”后的按钮,仅展示组件之间的调用数据。 右键单击某一个组件图标,选择 “查看调用链”或者“查看指标”,支持查看调用链或组件指标,详情请参见查看调用链和查看组件性能指标。
描述 400 BadRequest 非法请求。 建议直接修改该请求,不要重试该请求。 401 Unauthorized 在客户端提供认证信息后,返回该状态码,表明服务端指出客户端所提供的认证信息不正确或非法。 403 Forbidden 请求被拒绝访问。 返回该状态码,表明请求能够
"min_instances": 1,//最小实例数,表示扩容最小限制 "cooldown_time": 60 //冷却时间,应用的策略执行完后必须冷却该时间后才能继续执行下条策略 } 响应消息 响应参数 响应参数如表4所示。 表4 响应参数 参数名称 参数类型 描述 errorCode String
设置是否启用告警行动规则。启用告警行动规则后,系统根据关联SMN主题与消息模板来发送告警通知。如果现有的告警行动规则无法满足需要,可单击“新建告警行动规则”添加。设置告警行动规则的操作详见创建告警行动规则。 启用告警行动规则后,需要设置是否开启告警恢复通知。开启告警恢复通知后,当满足“高级设置-告警
小时、近一天等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为31天。 设置搜索条件后,单击,查看在已设时间范围内满足搜索条件的事件。 您可参考表1执行如下操作: 表1 操作说明 操作 方法 说明 查看事件统计数据 单击“事件
请求响应成功。 400 BadRequest 非法请求。建议直接修改该请求,不要重试该请求。 401 Unauthorized 在客户端提供认证信息后,返回该状态码,表明服务端指出客户端所提供的认证信息不正确或非法。 403 Forbidden 请求被拒绝访问。返回该状态码,表明请求能够到
Multiprocessor)上处于Active的时间占比。 该值表示所有SM的平均值,且该值对每个块的线程数不敏感。 线程束处于Active是指一个线程束被调度且分配资源后的状态,可能是在Computing、也可能是非Computing状态(例如等待内存请求)。 该值小于0.5表示未高效利用GPU,大于0.8是必要的。
工作负载:在下拉框中选择已有工作负载,可以选择一个或多个。 若选择1个工作负载,规则创建成功后规则名称会被命名为“自定义规则名称_0”,如“test_0”;若选择多个工作负载,规则创建成功后规则名称会被依次命名为“自定义规则名称_0”、“自定义规则名称_1”等,如“test_0”、“test_1”。
PU使用率和内存使用率等信息。 在节点列表上方,可按节点名称设置过滤条件,实现节点列表过滤显示。 单击右上角的,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。 单击节点名称,可查看主机的相关资源、告警、事件等信息,并监控显卡、网卡等常用系统设备。 在“概览”页签
从组件下钻到实例,从实例下钻到容器。通过各层状态,完成对应用或组件的立体监控。 支持 支持 数据订阅 支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的kafka或DMS的Topic中,供消费者消费转发的订阅的信息。 支持 支持 采集管理 通过UniAgent调度采
计算表达式。Prometheus监控将通过该表达式计算得出预聚合指标。计算表达式必须符合PromQL。 labels (可选)指标的标签。 配置后的Recording Rule示例如下: groups: - name: apiserver_request_total interval:
does not exist", "trace_id" : "" } 状态码: 401 Unauthorized 在客户端提供认证信息后,返回该状态码,表明服务端指出客户端所提供的认证信息不正确或非法。 { "error_code" : "AOM.0403", "error_msg"