云服务器内容精选

  • UniAgent状态 UniAgent状态有运行中、异常、安装中、安装失败和未安装。 表3 UniAgent状态 状态 说明 运行中 表示主机安装的UniAgent运行正常。 异常 表示主机安装的UniAgent功能异常,请联系技术支持。 安装中 表示该主机正在安装UniAgent。 说明: 安装UniAgent预计需要1分钟左右,请耐心等待。 安装失败 表示主机安装UniAgent失败,请重新安装。 未安装 表示主机未安装UniAgent。安装UniAgent,详细操作请参见安装UniAgent。
  • UniAgent状态 UniAgent状态有运行中、异常、安装中、安装失败和未安装。 表5 UniAgent状态 状态 说明 运行中 表示主机安装的UniAgent运行正常。 异常 表示主机安装的UniAgent功能异常,请联系技术支持。 安装中 表示该主机正在安装UniAgent。 说明: 安装UniAgent预计需要1分钟左右,请耐心等待。 安装失败 表示主机安装UniAgent失败,请重新安装。 未安装 表示主机未安装UniAgent。安装UniAgent,详细操作请参见安装UniAgent。
  • 前提条件 服务已接入CCE类型Prometheus 监控并接入CCE集群,具体请参见Prometheus实例 for CCE。 服务已接入云服务类型Prometheus 监控并接入云服务,具体请参见Prometheus实例 for 云服务。 服务已接入E CS 类型Prometheus监控并接入插件,具体请参见Prometheus实例 for ECS。 服务已接入通用实例类型Prometheus 监控,具体请参见Prometheus 通用实例。
  • 注意事项 目前仅default类型、CCE类型、云服务类型、通用实例、ECS类型的Prometheus实例支持指标查看、新增和废弃功能。 default类型的Prometheus实例下,指标名以“aom_”、“apm_”开头以及资源类型为ICAgent的指标暂不支持废弃。 ECS类型的Prometheus实例仅支持展示和配置UniAgent插件采集的指标。 CCE类型的Prometheus实例仅支持废弃如下指标: 只有在CCE “插件市场” 页面或 AOM “集成中心” 页面安装的3.9.0以上的云原生监控插件(kube-prometheus-stack)上报的指标可以被废弃,且只有kube-prometheus-stack处于“运行中”状态时,指标才能废弃成功。 查看kube-prometheus-stack插件状态的方法:登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“插件中心”,在右侧找到“云原生监控插件”卡片,查看插件的状态。
  • 更多操作 您还可以根据需要执行以下操作,具体请参见表 相关操作。 表6 相关操作 操作 说明 改变指标排列顺序 在“指标量(最近10分钟)”或“占比”列后单击,可改变指标在列表中的排列顺序。为默认排序,为按大小正序排序(即数据大的显示在最后方),为按大小倒序排序(即数据小的显示在最后方)。 新增指标 单击“新增指标”,在指标列表中选择需要新增的指标,单击“确定”。 说明: 单次新增指标最多支持新增100个指标。 废弃指标 废弃一个指标:选择一个指标,单击操作列的。 废弃一个或多个指标:选中一个或多个指标前的复选框,在弹出框中选择“废弃”,可以废弃一个或多个指标。 说明: 单次废弃指标最多支持废弃100个指标。
  • 功能介绍 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。 应用层监控 在应用层,主要监控业务层 、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。 组件监控 在组件层,主要监控组件的告警信息。支持从组件层面查询活动告警与历史告警,快速修复告警问题。 图1 组件监控 环境监控 在环境页面,以环境概览、日志、性能、调用链、告警的形式,深度的监控和分析环境的核心指标。针对预发环境、生产环境按环境进行指标观测,监控环境的进程状况、应用性能(错误数、请求数、平均响应时间)、告警分布等核心指标。同时监控主机、进程、容器、云服务、性能监控、 日志分析 等信息。 图2 环境监控
  • 前提条件 监控账号与被监控账号均已加入组织。监控账号需为组织管理员,非组织管理员的组织成员需进行步骤二,授权委托管理员身份。 被监控账号当前支持汇聚的包括“Prometheus for 云服务”可接入的18个云服务指标(FunctionGraph,EVS,CBR,OBS,VPC,ELB,DC,NAT,DMS,DCS,RDS,DDS,DRS,LakeFormation, MRS GaussDB DWS, CSS ,WAF)以及ICAgent采集的CCE和ECS指标。
  • 步骤二:开启AOM可信服务并设置委托管理员(若进行监控的账号为组织管理员,可跳过此步骤) 使用组织中的管理员账号登录组织Organizations控制台。 在左侧导航栏选择“可信服务”。 在可信服务列表中,单击“ 应用运维管理 服务(AOM)”操作列的“启用”,开启AOM可信服务。 单击“应用运维管理服务(AOM)”操作列的“设置委托管理员”,选择需要设置为委托管理员的账号,单击“确定”。如图5所示,将paas_aom设置为委托管理员。 图5 设置委托管理员
  • 步骤一:建设四层指标体系 接入业务层指标。 登录AOM 2.0控制台。 在左侧导航栏中选择“接入中心”。 在右侧“业务层”面板单击需要接入的指标卡片。 接入ELB 日志指标 系统可自动接入,无需用户手动操作。 在左侧导航栏,选择已创建的仪表盘,单击页面右上角的,输入对应SQL语句,即可在仪表盘中查看该日志指标。以查看流量指标为例,输入对应SQL语句,单击“查询”,如图2所示。 图2 查看流量指标 接入 APM 事务指标 为工作负载安装APM探针,具体操作请参见安装APM探针。 安装完成后,请登录安装探针的服务对应的控制台界面,执行操作触发APM事务指标的采集。以本实践场景中的商城服务为例,可以在商城操作界面将对应商品添加到购物车。 登录AOM 2.0控制台。 在左侧导航栏选择“指标浏览”。在右侧区域通过选择指标的方式查看接入的APM指标。 接入应用层指标。 为工作负载安装APM探针,具体操作如下: 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“工作负载 ”,选择需要上报到AOM的工作负载类型。 单击工作负载名称,选择“性能管理配置”,单击右下角“编辑”,修改“性能管理配置”相关信息。 选择“APM 2.0探针”,设置“探针版本”为“latest-x86”,“APM环境”为“phoenixenv1”,从“APM应用”的下拉列表中选择创建的“phoenixapp1”应用。 设置完成后,单击“保存”。 安装完成后,请登录安装探针的服务对应的控制台界面,执行操作触发应用层指标的采集。以本实践场景中的商城服务为例,可以在商城操作界面将对应商品添加到购物车。 登录AOM 2.0控制台。 在左侧导航栏选择“指标浏览”。在右侧区域通过选择指标的方式查看接入的应用层指标。 接入中间件指标。 将数据上传到ECS服务器。 下载mysqld_exporter-0.14.0.linux-amd64.tar.gz软件包,下载地址:https://prometheus.io/download/。 以root用户登录ECS服务器,将下载的Exporter软件包上传到ECS服务器并解压。 登录RDS 控制台,在“实例管理”界面实例列表中单击一个RDS实例名。在“基本信息”界面查看RDS安全组。 图3 查看RDS安全组 检查RDS的安全组是否已开放3306端口。 图4 检查RDS端口是否开放 执行以下命令,进入解压文件夹,并在ECS服务器上配置mysql.cnf文件。 cd mysqld_exporter-0.14.0.linux-amd64 vi mysql.cnf 例如,在mysql.cnf文件中添加如下内容: [client] user=root(rds用户名) password=****(rds密码) host=192.168.0.198(rds公网IP) port=3306(端口) 执行以下命令,启动mysqld_exporter工具。 nohup ./mysqld_exporter --config.my-cnf="mysql.cnf" --collect.global_status --collect.global_variables & 执行以下命令,确认工具是否正常启动。 curl http://127.0.0.1:9104/metrics 如果回显信息如图5所示,能够查看到指标则说明工具启动正常。 图5 查看指标 通过虚机接入方式接入中间件指标。 登录AOM 2.0控制台。 在左侧导航栏中选择“接入中心”,在右侧“Prometheus 中间件”面板单击需要接入的指标卡片。 在“虚机接入”界面为ECS服务器安装UniAgent采集工具,具体操作请参见手动安装UniAgent。 为创建的“phoenixenv1”环境创建中间件采集任务。在左侧导航栏中,选择“接入中心”,在右侧“Prometheus 中间件”面板单击需要接入的指标卡片。 在弹框中配置采集任务和安装Exporter,详细操作请参见虚机场景Exporter接入。 完成后,单击“立即创建”。 接入完成后,在左侧导航栏,选择“指标浏览”。在右侧区域通过选择指标的方式查看接入的中间件指标。 接入基础设施层指标。 登录AOM 2.0控制台。 在左侧导航栏中选择“接入中心”。 在右侧“Prometheus 运行环境”与“Prometheus 云服务”面板单击需要接入的指标卡片。 选择容器指标卡片: 以选择“云容器引擎CCE”卡片为例,具体操作如下: 在“插件市场”界面搜索找到云原生监控插件,单击“安装”。 图6 查找云原生监控插件 设置集群名称、规格信息。 开启对接第三方开关,将普罗数据上报至AOM,填写上报AOM的地址及token,并跳过证书认证。 图7 设置对接第三方参数 参数说明如下: 数据上报地址 :https://aom-internal-access.{region_name}.myhuaweicloud.com:8443/v1/{project_id}/push,其中region_name为指定承载REST服务端点的服务器 域名 或IP,project_id 为项目的ID,您可以单击右上方的用户名称,在下拉列表中选择“我的凭证”。在“我的凭证”页面中选择“API凭证”页签。从右侧项目列表的“项目”和“项目ID”信息中获取。例如AOM服务在“华北-北京一”区域名称为“cn-north-1”。 Token:登录AOM 2.0控制台,在左侧导航栏选择“设置”,单击“认证管理”,从右侧AccessCode列表的“ID”信息中获取。 设置完成后,单击“安装”。安装完后单击插件查看安装状态,当状态都为“运行中”则表示插件安装成功。 图8 安装kube-prometheus-stack插件 选择云服务监控指标卡片: 在弹出的“云服务接入”对话框中选择需要监控的云服务。例如RDS或DCS服务。 单击“确定”完成接入。 接入完成后,系统自动跳转至“云服务监控”页面,即可查看已选择的云服务运行状态等信息。 接入完成后,在左侧导航栏选择“指标浏览”。在右侧区域通过选择指标的方式查看接入的基础设施层指标。
  • 解决方案 AOM能够实现云上应用的一站式立体化运维管理,在接入中心中可以接入需要监控的业务层、应用层、中间件层、基础设施层指标,在仪表盘中实现个性化监控,以及通过统一告警入口配置告警规则,实现业务的日常巡检,保障业务的正常运行。 AOM提供多场景、多层次、多维度指标数据的监控能力,建立了从基础设施层指标、中间件层指标、应用层指标到业务层指标的四层指标体系,将1000+种指标数据全方位呈现,数据丰富全面。 表1 AOM支持的四层指标体系 类型 来源 指标举例 如何接入 业务层指标 通常来源于端侧日志SDK、提取的ELB日志。 访问UV、访问PV、访问延时、访问失败率、访问流量情况等 接入业务层指标 通常来源于事务监控或上报的自定义指标。 URL的调用次数、URL的最大并发数、URL的最大响应时间等 应用层指标 通常来源于组件性能图表或接口性能数据。 接口调用次数、请求平均时延、错误调用次数、请求吞吐量等 接入应用层指标 中间件指标 通常来源于原生中间件或云中间件数据。 文件系统容量、文件系统使用率等 接入中间件指标 基础设施层指标 通常来源于容器或云服务相关数据,例如计算、存储、网络、数据库等。 CPU使用率、内存使用率、健康状态等 接入基础设施层指标 接入容器指标 接入云服务指标 图1 AOM四层指标体系
  • 最佳实践概述 本章汇总呈现应用运维管理 AOM的最佳实践。 建设完整指标体系,实现立体化监控 通过告警降噪清除告警风暴 通过多账号聚合Prometheus实例实现指标数据统一监控 自建中间件接入(CCE容器场景) PostgreSQL Exporter接入 MySQL Exporter接入 Kafka Exporter接入 Memcached Exporter接入 MongoDB Exporter接入 ElasticSearch Exporter接入 Redis Exporter接入 其他Exporter接入 第三方云厂商/IDC/华为云其它Region自建Prometheus对接到AOM Prometheus实例
  • AOM自定义策略样例 示例1:授权用户创建告警规则的权限 { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:alarmRule:create" ] } ] } 示例2:拒绝用户删除应用发现规则 拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略中,一个授权项的作用如果同时存在Allow和Deny,则遵循Deny优先。 如果您给用户授予AOM FullAccess的系统策略,但不希望用户拥有AOM FullAccess中定义的删除应用发现规则权限,您可以创建一条拒绝删除应用发现规则的自定义策略,然后同时将AOM FullAccess和拒绝策略授予用户,根据Deny优先原则,则用户可以对AOM执行除了删除应用发现规则外的所有操作。拒绝策略示例如下: { "Version": "1.1", "Statement": [ { "Effect": "Deny", "Action": [ "aom:discoveryRule:delete" ] } ] } 示例3:多个授权项策略 一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是项目级服务。多个授权语句策略描述如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "aom:*:list", "aom:*:get", "apm:*:list", "apm:*:get" ] }, { "Effect": "Allow", "Action": [ "cce:cluster:get", "cce:cluster:list", "cce:node:get", "cce:node:list" ] } ] }
  • 动态配置master.address以及AK/SK 支持动态配置master.address以及AK/SK。 用户可以通过配置环境变量的方式,给APM_MASTER_ADDRESS、APM_AC CES S_KEY(apm-ak)以及APM_SECRET_KEY(apm-sk)赋值。获取AK/SK的具体操作,请参见获取AK/SK,获取master.address,请参见接入地址。 如果javaagent配置文件和环境变量同时配置了AK、SK、master.address,那么环境变量配置的值优先生效。 Agent 2.3.19之后版本支持动态配置master.address以及AK/SK。
  • 更多仪表盘操作 仪表盘创建完成后,您还可以执行表5中的操作。 表5 相关操作 操作 说明 设置列表项 在仪表盘列表右上角单击,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。 收藏仪表盘 选择一个仪表盘,单击“操作”列的。 移动仪表盘分组 移动一个仪表盘分组:选择一个仪表盘,单击“操作”列的,选择“移动分组”。 批量移动仪表盘分组:选中多个仪表盘前的复选框,在弹出框中选择“移动分组”可修改仪表盘分组。 删除仪表盘 删除一个仪表盘:选择一个仪表盘,单击“操作”列的,选择“删除”。 批量删除仪表盘:选中多个仪表盘前的复选框,在弹出框中选择“删除”可批量删除仪表盘。 修改仪表盘分组名称 在“仪表盘”列表,单击仪表盘名称。 进入对应仪表盘页面,在“仪表盘”页面左上角,单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后,单击,选择“编辑”可修改分组名称。 删除仪表盘分组 删除仪表盘分组功能有两种入口方式: 入口一: 在“仪表盘”列表,单击仪表盘名称。 进入对应仪表盘页面,在“仪表盘”页面左上角,单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后,单击 ,选择“删除”。 在弹出框中单击“确定”,删除仪表盘分组。 入口二:在仪表盘分组列表中,将光标移至需要删除的仪表盘分组名称后,单击,选择“删除”,在弹出框中单击“确定”,删除仪表盘分组。 删除仪表盘中的图表 选择待操作的仪表盘,在“仪表盘”页面右上角单击,将光标移至某个图表框右上角,单击,在下拉列表中选择“删除图表”。 单击,将已创建图表删除。 调整仪表盘中图表的位置 选择待操作的仪表盘,在“仪表盘”页面右上角单击,将光标移至待操作的图表框内,选中该图表,可将该图表移动至仪表盘内任意位置。 单击,调整当前图表布局。 全屏显示 选择待操作的仪表盘,在“仪表盘”页面右上角单击,可全屏显示仪表盘。 退出全屏显示 将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。 手动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击可手动刷新当前页面。 自动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击后的下拉箭头,开启仪表盘自动刷新开关。 手动刷新单个图表 选择待操作的仪表盘,将光标移至某个图表框右上角,单击,在下拉列表中选择“刷新”,可手动刷新当前图表。 修改单个图表 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“编辑”,可修改图表数据,具体操作请参见添加图表至仪表盘。 修改完成后,单击“确定”。 在“仪表盘”页面右上角单击,保存修改结果。 新增告警规则 添加图表时,新增告警规则 单击页面中的“添加图表”或单击页面右上角的。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 修改图表时,新增告警规则 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“编辑”。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 全屏显示单个图表 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“全屏”,可全屏显示图表数据。 退出全屏显示单个图表 将光标移至屏幕上方,单击弹出的,或者单击,选择“退出全屏”,或者按键盘中的“Esc”可退出全屏模式。 轮播仪表盘 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见设置全屏模式在线时长。 仪表盘设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见新增变量。 查询时间设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击前面的下拉框,在下拉框可选择“近30分钟”、“近1小时”、“近6小时”、“近一天”、“近一周”、“自定义时间段”。若选择“自定义时间段”,在弹出日历表中选择对应的时间段,时间可精确至秒数。单击“确定”后,可根据选择时间查询仪表盘中所有图表数据。 导出仪表盘 可将该仪表盘的指标图表数据以JSON格式导出,并保存到本地便于进一步分析。导出仪表盘功能有两种入口方式: 入口一:在仪表盘列表中,选择一个仪表盘,单击“操作”列的,选择“导出仪表盘”。 入口二:选择待操作的仪表盘,在“仪表盘”页面右上角单击,并选择“导出仪表盘”。 导入仪表盘 将本地存储的JSON格式仪表盘数据导入AOM,便于在AOM上可视化分析。导入仪表盘功能有两种入口方式: 入口一:在“仪表盘”页面,单击“导入仪表盘”。 入口二:在仪表盘分组列表中,将光标移至需要导入仪表盘的分组名称后,单击,选择“导入仪表盘”。 导入方法: 选择待导入的JSON格式仪表盘文件,上传或拖入“导入仪表盘”对话框的文本上传区域,然后单击“创建”。 在“新建仪表盘”对话框,依次设置仪表盘名称等信息,具体请参见表1。 设置完成,单击“创建”。 导出监控报告 选择待操作的仪表盘,在“仪表盘”页面右上角单击,选择“导出折线图监控报告”,可将该指标的折线图表以CSV格式导出,以便进行本地存储及进一步分析。 表6 日志图表相关操作 操作 说明 创建日志组 输入日志组名称。日志组名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 设置日志存储时间。存储时间默认为7天,可设置为1~30天内的时间节点。超出存储时间的日志将会被自动删除,您可以按需将日志数据转储至OBS桶中长期存储。 单击“确定”完成创建。 创建日志流 输入日志流名称。日志流名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 单击“确定”完成创建。
  • 注意事项 系统预置的仪表盘模板都保存在“系统内置”分组下,包含容器、云服务、原生中间件、应用。预置仪表盘不允许删除或调整分组,仪表盘模板不支持创建。 系统预置的容器类型仪表盘需要在CCE集群下的“插件管理”中安装“kube-prometheus-stack”插件后,才能正常使用。 系统预置的原生中间件类型仪表盘需要在UniAgent中创建中间件采集任务后,才能正常使用。 1个区域中最多可创建1000个仪表盘分组。 1个区域中最多可创建1000个仪表盘。 1个仪表盘中最多可添加30个图表。 1个折线图最多支持展示200条指标数据。 1个数字图只能展示1个资源。