检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本文档介绍如何建设完整的指标体系和统一监控大盘,实现资源和应用的全方位、立体化、可视化监控。 实践场景 用户体验至上的互联网时代,页面的响应速度、访问时延和页面的访问成功率常常会影响用户的体验,如果无法及时获知,就会导致流失大量用户,某商城的运维人员使用开源的监控软件,虽然能采集很多指标,但却分散在各处,无法统一展示。
主要提供工作负载监控、集群监控、主机监控、进程监控和云服务监控的功能。 工作负载监控 工作负载监控的对象通过CCE部署的工作负载,通过工作负载监控可及时了解工作负载的资源使用、状态和告警等信息。 集群监控 集群监控的对象为通过CCE部署的集群。“集群监控”页面可实时监控展示集群的Pods运行状态、CPU使用率等信息。
指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。指标分为系统指标和自定义指标。 系统指标:AOM提供的基础指标,例如:CPU使用率、CPU内核占用等。 自定义指标:您自己定义的指标。可参考如下两种方式上报自定义指标。 方式一:通过AOM提供的接口上报自定
击,查看满足搜索条件的火焰图。 查看每一个方法、类和线程的调用关系和执行效率的实时数据。 表1 对比参数说明 参数 说明 flame 火焰图Y轴(纵轴)表示调用栈,每一层都是一个函数(包),调用的越深,火焰层数越高,最底部(火焰尖)是正在执行的函数,上方是他的父函数。 火焰图X轴
用于并行发送到远程存储的队列中每个分片的容量 prometheus_remote_storage_shards 当前用于并行发送到远程存储的分片数 prometheus_remote_storage_shards_desired 分片队列期望基于输入样本和输出样本的比率运行的分片数 pro
在规则列表中可查看已创建的接入规则的集群名称、命名空间等信息。单击搜索框右上方的,自定义列表项的展示。单击“接入日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情。 编辑 单击“操作”列的“编辑”,可以编辑该接入规则。修改接入规则的影响请参见修改映射。 删除 单击“操作”列的“删除”,
数据保护技术 AOM通过多种数据保护手段和特性,保障AOM的数据安全可靠。 表1 AOM的数据保护手段和特性 数据保护手段 简要说明 详细介绍 传输加密(HTTPS) AOM支持HTTPS传输协议,保证数据传输的安全性。 构造请求 数据冗余存储 指标、告警、配置等数据以多副本方式存储,保障数据可靠性。
如何创建终端节点? 当前支持通过创建终端节点和AOM/LTS服务打通网络,进行心跳和指标上报,以及日志上报。如果要通过终端节点的方式打通AOM/LTS的网络,需要为AOM和LTS各自购买1个终端节点。 创建AOM/LTS终端节点的方法: 登录华为云VPC终端节点 VPCEP控制台,进入终端节点页面。
数据保护技术 AOM通过多种数据保护手段和特性,保障AOM的数据安全可靠。 表1 AOM的数据保护手段和特性 数据保护手段 简要说明 详细介绍 传输加密(HTTPS) AOM支持HTTPS传输协议,保证数据传输的安全性。 构造请求 数据冗余存储 指标、告警、配置等数据以多副本方式存储,保障数据可靠性。
安装ICAgent ICAgent用于采集指标、日志和应用性能数据。对于在ECS、BMS控制台直接购买的主机,您需手动安装ICAgent。对于通过CCE间接购买的主机,ICAgent会自动安装。 AOM和LTS使用的ICAgent功能完全相同,ICAgent采集的指标数据均上报到AOM分析处理,日
查询时间序列 场景描述 本章以查询一个节点的CPU使用率时间序列为例。 涉及的基本信息 查询时间序列前,需要确定节点的ID和集群ID的值,节点ID值可以在ECS的dimensions中查看,集群ID值可以在CCE的“集群管理”页面,基本信息的dimensions中查看。 CPU使用
在左侧导航栏中选择“采集设置 > CCE接入”。 查看已接入的CCE集群。可根据集群名称,在搜索框中搜索集群。 执行ICAgent操作 您可以对已接入的CCE集群中的主机进行ICAgent插件的安装、升级和卸载。 安装ICAgent:当集群中的主机未安装ICAgent时,可以对所有主机安装ICAgent。
ICAgent安装类常见问题 ICAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。 ICAgent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决?
单击任务ID,可以查看该任务的具体信息,包括主机名、IP名、插件类型、任务类型、执行状态、执行失败的原因、执行事件、执行耗时和查看操作日志。 过滤任务信息 在任务列表的表头,单击各列的,可按特定类型过滤显示任务的信息。 切换任务排序 在任务列表的表头,单击各列的,可切换任务的排序,为正序排序,为倒序排序。
单击右上角的,通过选中或取消选中各展示项后的单选框,自定义可选列的展示与隐藏。 单击容器名称,可查看容器的相关资源、告警、事件和仪表盘信息。在“相关资源”页签下,默认展示该容器所在的容器组。可按节点和节点名称、工作负载和负载名称、容器组和容器组名称查看当前容器相关的节点、工作负载、容器组信息。
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。
支持细粒度授权,精确地允许或拒绝您对特定的资源进行某项具体操作,进行更精细的访问控制。 2018-9-5 云应用立体运维,提供资源、应用、应用体验的全链路、多层次、一站式运维平台。 智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
告警规则”。 选中一个或多个告警规则前的复选框,在规则列表上方单击“一键迁移至AOM2.0”。 迁移操作无法恢复,请谨慎操作。 如果待迁移的告警规则依赖告警模板,告警规则迁移时,对应的告警模板会同步迁移。 在弹出的“迁移规则”对话框中单击“确定”,即可将选中的告警规则批量迁移至AOM 2.0。