云服务器内容精选

  • 什么是 云监控服务 云监控 服务为用户提供一个针对弹性云服务器、带宽等资源的立体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况,并及时收到异常告警做出反应,保证业务顺畅运行。云监控服务架构图如图1所示。 图1 云监控服务架构图 云监控服务主要具有以下功能: 自动监控: 云监控服务不需要开通,在创建弹性云服务器等资源后监控服务会自动启动,您可以直接到云监控服务查看该资源运行状态并设置告警规则。 主机监控: 通过在弹性云服务或裸金属服务器中安装云监控服务Agent插件,用户可以实时采集E CS 或BMS 1分钟级粒度的监控数据。已上线CPU、内存和磁盘等40余种监控指标。有关主机监控的更多信息,请参阅主机监控简介。 灵活配置告警规则: 对监控指标设置告警规则时,支持对多个云服务资源同时添加告警规则。告警规则创建完成后,可随时修改告警规则,支持对告警规则进行启用、停止、删除等灵活操作。 实时通知: 通过在告警规则中开启 消息通知 服务,当云服务的状态变化触发告警规则设置的阈值时,系统通过短信、邮件通知或发送消息至服务器地址等多种方式实时通知用户,让用户能够实时掌握云资源运行状态变化。 监控面板: 为用户提供在一个监控面板跨服务、跨维度查看监控数据,将用户关注的重点服务监控指标集中呈现,既能满足您总览云服务的运行概况,又能满足排查故障时查看监控详情的需求。 OBS转储: 云监控服务各监控指标的原始数据的保留周期为两天,超过保留周期后原始数据将不再保存。您可以在 对象存储服务 (Object Storage Service,以下简称OBS)创建存储桶,然后将原始数据同步保存至OBS,以保存更长时间。 资源分组: 资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控: 站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。 日志监控: 日志监控提供了针对日志内容的实时监控能力。通过云监控服务和 云日志 服务的结合,用户可以针对日志内容进行监控统计、设置告警规则等操作,降低用户监控日志的运维成本,简化用户使用监控日志的流程。 事件监控: 事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收集到云监控服务,并在事件发生时进行告警。
  • 服务资费 云监控服务基础功能免费,包括查看监控看板、创建告警规则、添加监控项等。同时云监控服务与其他云服务组合使用,为您提供监控数据文件转储、发送告警通知等增值服务,这些增值服务可能产生额外费用,具体由提供该功能的服务结算。 通常情况下,云监控服务产生的增值服务费用很低,因此建议您根据需要搭配使用。 增值服务列表如下: 监控数据文件转储:需要使用对象存储服务(OBS),转储后的监控数据文件将永久保存。 发送告警通知:需要使用消息通知服务( SMN ),当云服务的状态变化触发告警规则设置的阈值时,发送邮件、短信、HTTP、HTTPS告知用户。 增值服务的计费方式如下: 对象存储服务(OBS) 对象存储服务提供按需付费、包年包月两种计费方式。用户可以根据实际需求变更资源的资费方式。OBS开通时,默认按照按需付费(使用量按小时计费),同时也支持包年包月(资源包)的方式提前购买使用额度和时长。 由于云监控服务需要高频次的访问转储事件文件的OBS桶,因此必须选择标准存储类型的OBS桶,具体价格请参考产品价格说明。 消息通知服务(SMN) 消息通知服务会从短信、邮件、HTTP、HTTPS的使用中收费,具体价格请参考产品价格说明。
  • 约束与限制 当前云监控服务对单个用户的使用限制如表1所示。调整配额请参考配额调整。 表1 用户资源限制 配额类型 默认限制 可创建告警规则数 1000 可创建自定义告警模板数 200 告警模板可添加告警规则数 50 可创建监控看板数 10 单监控看板可添加监控视图数 50 历史告警保存时间 7天 单次创建告警规则可选择的被监控对象数 5000 单次可创建告警规则条数 1000 说明: 若选择监控对象为50个,监控指标为20个,则可创建的告警规则条数为1000。 发送通知可选择主题数 5 单次导出监控数据条数 400 说明: 若监控对象为400个,则监控指标为1个。若监控对象为80个,则监控指标为5个。 可创建资源分组个数 1000 单个资源分组单次添加资源数 1000 单个资源分组资源总数 10000 可创建监控站点个数 20 告警模板策略个数 50
  • 云产品监控指标 全局级服务的监控数据默认保存在华北-北京四,如需要查询数据,请在华北-北京四查看。 分类 服务 命名空间 维度 监控指标参考文档 计算 弹性云服务器 SYS.ECS Key:instance_id Value:云服务器ID 弹性云服务器的基础监控指标 弹性云服务器中操作系统监控 AGT.ECS Key:instance_id Value:云服务器ID Key:disk Value:磁盘 Key:mount_point Value:挂载点 Key:proc Value:进程 Key:gpu Value:GPU Key:npu Value:NPU Key:davp Value:DAVP 弹性云服务器操作系统监控的监控指标(安装Agent) 裸金属服务器 SERVICE.BMS Key:instance_id Value:云服务器ID 裸金属服务器操作系统监控的监控指标(安装Agent) 弹性伸缩 SYS.AS Key:AutoScalingGroup Value:弹性伸缩组的ID 弹性伸缩的监控指标说明 云手机服务器 SYS.CPH Key:instance_id Value:云手机服务器ID Key:cph_id Value:云手机ID Key:disk_name Value:磁盘名称 Key:gpu_index Value:GPU名称 云手机服务器的监控指标说明 函数工作流 服务 SYS.FunctionGraph Key:package-functionname Value:应用名-函数名 函数工作流服务的监控指标说明 存储 云硬盘(仅当挂载到云服务器时) SYS.EVS Key:disk_name Value:云服务器实例ID-盘符名(例如sda为盘符名) 云硬盘的监控指标说明 对象存储服务 SYS.OBS Key:bucket_name Value:桶名 Key:tenant_id Value:租户Id Key:api_name Value:接口 Key:http_code Value:HTTP返回码 Key:domain_name Value: 域名 对象存储服务监控指标说明 弹性文件服务 SYS.SFS Key:share_id Value:文件系统 弹性文件服务监控指标说明 云备份 SYS.CBR Key:instance_id Value:存储库名称/ID 云备份监控指标说明 云存储 网关 SYS.CSG Key:gateway_id Value:网关ID 云存储网关监控指标说明 弹性文件服务Turbo SYS.EFS Key:efs_instance_id Value:实例 SFS Turbo监控指标说明 网络 弹性公网IP和带宽 SYS.VPC Key:publicip_id Value:弹性公网IP ID Key:bandwidth_id Value:带宽ID 虚拟私有云的监控指标说明 弹性负载均衡 SYS.ELB Key:lbaas_pool_id Value:后端服务器组的ID Key:lbaas_instance_id Value:独享/共享型负载均衡器的ID Key:lbaas_listener_id Value:独享/共享型负载均衡监听器的ID 弹性负载均衡的监控指标说明 云专线 SYS.DCAAS Key:direct_connect_id Value:物理连接 Key:history_direct_connect_id Value:历史物理连接 Key:virtual_interface_id Value:虚拟接口 Key:virtual_gateway_id Value:虚拟网关 说明: 虚拟接口维度针对的是一站式专线,物理专线维度针对的是手工专线。 云专线的监控指标说明 虚拟专用网络 SYS.VPN Key:evpn_connection_id Value:VPN连接 虚拟专用网络的监控指标说明 NAT网关 SYS.NAT Key:nat_gateway_id Value:NAT网关实例标识 Key:vpc_nat_gateway_id Value:私网NAT实例标识 NAT网关的监控指标说明 企业路由器 SYS.ER Key:er_instance_id Value:企业路由器实例 Key:er_attachment_id Value:企业路由器连接 企业路由器的监控指标说明 云连接 SYS.CC Key:cloud_connect_id Value:云连接ID Key:bwp_id Value:带宽包ID Key:region_bandwidth_id Value:域间带宽ID 云连接的监控指标说明 全球加速 SYS.GA Key:ga_accelerator_id Value:全球加速实例的ID Key:ga_listener_id Value:全球加速监听器的ID Key:ga_source_pop Value:全球加速实例的接入点 Key:ga_destination_region Value:全球加速实例的目的区域 Key:ga_source_area Value:全球加速实例的接入大区 Key:ga_listener_region Value:全球加速监听器和目的区域 Key:ga_pop_listener Value:全球加速接入点和监听器 Key:ga_pop_region Value:全球加速接入点和目的区域 Key:ga_pop_listener_region Value:全球加速接入点、监听器和目的区域 Key:ga_source_destination_area Vaue:全球加速接入大区和目的大区 全球加速的监控指标说明 企业连接 SYS.EC Key:enterprise_connect_network Value:企业连接网络 Key:intelligent_enterprise_gateway Value:智能企业网关 Key:ieg_equipment Value:网关设备 企业连接的监控指标说明 应用中间件 分布式消息服务 SYS.DMS 请参考右侧相关文档链接页面。 分布式消息服务Kafka版的监控指标 分布式消息服务RabbitMQ的监控指标 分布式消息服务RocketMQ版的监控指标 API网关 SYS.APIG Key:api_id Value:API API网关的监控指标说明 API专享版网关 SYS.APIC Key:instance_id Value:专享版API网关 Key:api_id Value:API API网关的监控指标说明 分布式缓存服务 SYS.DCS Key:dcs_instance_id Value:Redis实例 Key:dcs_cluster_redis_node Value:数据节点 Key:dcs_cluster_proxy_node Value:Redis3.0 Proxy集群实例Proxy节点 Key:dcs_cluster_proxy2_node Value:Redis4.0/Redis5.0 Proxy集群实例Proxy节点 Key:dcs_memcached_instance_id Value:Memcached实例 分布式缓存服务的监控指标说明 应用与 数据集成平台 SYS.ROMA 请参考右侧相关文档链接页面。 应用与数据集成平台的监控指标说明 数据库 关系型数据库 SYS.RDS 请参考右侧相关文档链接页面。 MySQL的监控指标说明 MariaDB的监控指标说明 PostgreSQL的监控指标说明 SQL Server的监控指标说明 文档数据库 SYS.DDS Key:mongodb_node_id Value:文档数据库节点ID Key:mongodb_instance_id Value:文档数据库实例ID 文档数据库的监控指标说明 分布式数据库 中间件 SYS.DDMS Key:node_id Value:DDM节点 分布式数据库中间件的监控指标说明 云数据库 GaussDB NoSQL SYS.NoSQL 请参考右侧相关文档链接页面。 云数据库GaussDB(for Cassandra)的监控指标说明 云数据库GaussDB(for Mongo)的监控指标说明 云数据库GaussDB(for Influx)的监控指标说明 云数据库GaussDB(for Redis)的监控指标说明 云数据库 TaurusDB SYS.GAUSSDB Key:gaussdb_mysql_instance_id Value:GaussDB(for MySQL)实例ID Key:gaussdb_mysql_node_id Value:GaussDB(for MySQL)实例节点ID Key:dbproxy_instance_id Value:GaussDB(for MySQL)Proxy实例ID Key:dbproxy_node_id Value:GaussDB(for MySQL)Proxy节点ID 云数据库GaussDB(for MySQL)的监控指标说明 云数据库 GaussDB SYS.GAUSSDBV5 Key:gaussdbv5_instance_id Value:GaussDB实例 Key:gaussdbv5_node_id Value:GaussDB节点 Key:gaussdbv5_component_id Value:GaussDB组件 云数据库 GaussDB的监控指标说明 数据复制服务 SYS.DRS Key:instance_id Value:数据复制服务实例ID 数据复制服务的监控指标说明 迁移 云数据迁移 SYS. CDM Key:instance_id Value:云数据迁移服务实例 云数据迁移的监控指标说明 大数据 数据仓库 服务 SYS.DWS Key:datastore_id Value:数据仓库集群ID Key:dws_instance_id Value:数据仓库节点ID 数据仓库服务的监控指标说明 云搜索服务 SYS.ES Key:cluster_id Value:集群id Key:instance_id Value:实例id 云搜索 服务的监控指标说明 数据湖探索 SYS. DLI Key:queue_id Value:队列 Key:flink_job_id Value:Flink作业 Key:elastic_resource_pool_id Value:弹性资源池 数据湖 探索的监控指标说明 数据接入服务 SYS.DAYU Key:stream_id Value:实时数据接入 数据接入服务的监控指标说明 表格存储服务 SYS.CloudTable Key:cluster_id Value:CloudTable集群ID Key:instance_name Value:CloudTable集群节点名称 HBase集群的监控指标说明 Doris集群的监控指标说明 ClickHouse集群的监控指标说明 人工智能 ModelArts SYS.ModelArts Key:service_id Value:在线服务ID Key:model_id Value:模型负载ID ModelArts的监控指标说明 图像搜索 服务 SYS.IS Key:instanceName Value:实例名称 图形搜索服务的监控指标说明 图像识别 SYS.IRS Key:call_of_interface Value:接口 图像识别的监控指标说明 自然语言处理 SYS.NLP Key:call_of_interface Value:接口 自然语言处理的监控指标说明 文字识别 SYS.OCR Key:call_of_interface Value:接口 文字识别的监控指标说明 图引擎服务 SYS.GES Key:instance_id Value:图引擎服务实例 图引擎服务的监控指标说明 语音交互 服务 SYS.SIS Key:interface Value:接口 语音交互服务的监控指标说明 安全与合规 Web应用防火墙 SYS.WAF Key:instance_id Value:独享引擎实例 Key:waf_instance_id Value:云模式实例 WAF监控指标说明 数据库安全服务 SYS.DBSS Key:audit_id Value:实例 数据库安全服务的监控指标说明 云防火墙 SYS.CFW Key:fw_instance_id Value:云防火墙实例 云防火墙的监控指标说明 DDoS防护 SYS.DDOS Key:zone_ip Value:防护IP Key:instance_id Value:实例ID DDoS防护的监控指标说明 云堡垒机 SYS.CBH Key:server_id Value:CBH实例ID 云 堡垒机 的监控指标说明 企业主机安全 SYS.HSS Key:host_id Value:主机实例 企业主机安全的监控指标说明 企业应用 应用与数据集成平台 ROMA Connect SYS.ROMA Key:kafka_groups Value:消费组 Key:kafka_groups_topics Value:队列 Key:kafka_groups_partitions Value:分区 应用与数据集成平台的监控指标说明 云解析服务 SYS.DNS Key:resource Value:云解析服务实例的类型 Key:resourceId Value:云解析服务实例的ID Key:resourceName Value:云解析服务实例的名称 Key:domainId Value:用户ID 云解析服务的监控指标说明 CDN与智能边缘 智能边缘小站 SYS.IES Key:site_id Value:边缘小站ID 智能边缘小站的监控指标说明 内容分发网络 SYS.CDN Key:domain_name Value:域名 内容分发网络的监控指标说明 视频 视频直播 SYS.Live Key:domain Value:域名 视频直播的监控指标说明 管理与监管 消息通知服务 SYS.SMN Key:topic_id Value:主题的ID 消息通知服务的监控指标说明
  • 规则详情 表1 规则详情 参数 说明 规则名称 alarm-resource-check 规则展示名 指定的资源类型绑定指定指标 CES 告警 规则描述 指定的资源类型没有绑定指定指标的CES告警,视为“不合规”。 标签 ces 规则触发方式 周期触发 规则评估的资源类型 account 规则参数 provider:云服务名称,字符串类型。 resourceType:资源类型,字符串类型。 metricName:监控指标名称,字符串类型。
  • 前提条件 需要创建两个委托,并为两个委托进行相关的DMS和 IAM 细粒度授权。需要创建的委托如下: 委托方给被委托方创建委托账号,用途:在console页面创建数据转储获取委托方的项目列表、DMS实例列表、Topic列表使用。以下简称“DMS资源查询委托”。 委托方给CES的op_svc_ces创建委托,用途:将被委托方的指标数据转储到委托方DMS实例中,以下简称“CES账号委托”。 委托方是指拥有DMS资源的账号,被委托方是指拥有待转储的指标数据的账号。
  • 被委托方需要的权限 被委托方如果是主账号,无需配置权限,被委托方子账号需要拥有数据转储相关的权限。 项目级权限如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "ces:quotas:get", "ces:dataShareJob:get", "ces:dataShareTask:delete", "ces:dataShareJob:action", "ces:dataShareTask:list", "ces:namespaces:list", "ces:sysEventsNames:list", "ces:dataShareTask:get", "ces:dataShareTask:action", "ces:dataShareJob:list", "ces:dataShareTask:put", "ces:dataShareTask:create", "ces:dataShareJob:action", "ces:dataShareJob:delete", "ces:dataShareJob:create", "dms:instance:list", "dms:instance:get", "ces:dataShareJob:listDmsInstancesByAgency", "ces:dataShareJob:listAgencyProjects", "ces:dataShareJob:listDmsTopicsByAgency", "ces:agency:get", "ces:agency:post", "ces:namespacesDimensions:list", "mqs:instance:list", "mqs:instance:get", "ces:i18n:list" ] } ] } 此外,还需要拥有查询操作IAM委托权限(全局级权限),来保障转储任务能正常创建和运行,权限如下: { "Version": "1.1", "Statement": [ { "Effect": "Allow", "Action": [ "iam:agencies:assume", "iam:agencies:createAgency", "iam:agencies:listAgencies", "iam:permissions:grantRoleToAgency", "iam:permissions:grantRoleToAgencyOnProject", "iam:permissions:listRolesForAgency", "iam:permissions:listRolesForAgencyOnDomain", "iam:permissions:listRolesForAgencyOnProject", "iam:permissions:revokeRoleFromAgency", "iam:roles:createRole", "iam:roles:listRoles", "iam:roles:updateRole" ] } ] } 项目级权限和全局级权限创建请参考创建自定义权限策略。
  • 创建CES账号委托 操作步骤请参考IAM服务的创建委托。 按照创建委托的方法分别创建DMS资源查询委托和CES账号委托。在创建过程中,需要将“委托的账号“参数填写正确。如图1所示。 创建CES账号的委托时,“委托名称”必须是CloudServiceAgency2CESAutoConfig,填写的“委托的账号“参数必须是“op_svc_ces “且是小写字母。 如果已经存在CloudServiceAgency2CESAutoConfig委托,则可跳过该步骤。 图1 创建委托 完成以上两个委托后,需要给委托添加授权信息。
  • DMS委托授权 委托方给被委托方授权DMS的相关细粒度权限具体操作步骤如下,委托方给CES账号委托授权DMS的细粒度权限操作步骤一致: 在 统一身份认证 服务页面单击委托,单击被委托方账号操作列的“授权”按钮,进入选择策略页面。 图2 授权 在选择策略页面,单击击右上角“新建策略”,进入新建策略页面。 图3 新建策略 在新建策略页面,输入策略名称,策略内容点击“云服务”在搜索框输入“分布式消息”或“DMS”,搜索出来后点击“分布式消息服务(DMS)”。 图4 选择服务 在“操作”中搜索并选择“dms:instance:get”和“dms:instance:list”。 图5 选择操作 点击下一步选中创建的策略策略名。 图6 选择策略 点击“确定”,完成被委托方账号委托的细粒授权。
  • 确认正在使用的Agent版本 使用root账号,登录ECS。 执行如下命令,确认使用Agent的版本。 if [[ -f /usr/local/uniagent/extension/install/telescope/bin/telescope ]]; then /usr/local/uniagent/extension/install/telescope/bin/telescope -v; elif [[ -f /usr/local/telescope/bin/telescope ]]; then echo "old agent"; else echo 0; fi 返回“old agent”,表示使用老版本Agent,手动配置Agent操作请参考操作步骤(老版本Agent)。 返回版本号,表示使用新版本Agent,手动配置Agent操作请参考请使用操作步骤(新版本Agent)。 返回“0”,表示未安装Agent。
  • 前提条件 已安装GPU驱动,未安装lspci工具的云服务器影响GPU掉卡事件的上报。 如果您的弹性云服务器未安装GPU驱动,请参见GPU驱动概述安装GPU驱动。 安装GPU驱动需使用默认路径。 GPU驱动安装完后,需重启GPU加速型实例,否则可能导致采集GPU指标及上报GPU事件失败。 GPU驱动正常安装后,最多10分钟将在控制台看到采集到的GPU指标数据。 已安装lspci工具,未安装lspci工具的云服务器不支持采集GPU指标数据及上报事件。 安装lspci工具的方法,请参见安装lspci工具。 确保云服务器的安装目录都有读写权限,并且安装成功后的Telescope进程不会被其他软件关闭。
  • 安装lspci工具 登录弹性云服务器。 更新镜像源,获取安装依赖。 wget http://mirrors.myhuaweicloud.com/repo/mirrors_source.sh && bash mirrors_source.sh 更多内容,请参见如何使用自动化工具配置华为云镜像源(x86_64和ARM)? 执行以下命令,安装lspci工具。 CentOS系统: yum install pciutils Ubuntu系统: apt install pciutils 执行以下命令,查看安装结果。 lspci -d 10de: 图1 安装结果 如果安装完lspci后,安装结果显示命令不存在,可通过重启云服务器来解决。
  • 约束与限制 目前只有“我的看板”提供跨账号功能,且只能查看,不能编辑。 该功能当前在华南-广州-友好用户环境、土耳其-伊斯坦布尔、西南-贵阳一、乌兰察布-汽车一、拉美-墨西哥城一、亚太-新加坡、非洲-约翰内斯堡、亚太-曼谷、中国-香港、拉美-墨西哥城二、亚太-雅加达、华南-广州、华北-北京一、华北-乌兰察布一、华北-北京四、拉美-圣地亚哥、华东-上海一、拉美-圣保罗一、中东-利雅得和华东-青岛区域开放。
  • 应用场景 广域网质量监控主要用于发送模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连通性等问题。 服务可用性监控 通过使用广域网功能配置定时HTTP(S)拨测任务,选择分布在全球的探测点对域名进行HTTP(S)拨测,并根据协议拨测结果状态码识别服务的可用性,通过配置监控告警条件,可在出现异常状态时立马告警,并收到服务故障信息。此外,您还能观察到不同地域运营商线路探测点到服务的网络响应时间时延,了解不同地域运营商的用户访问时延体验,可为系统部署架构优化提供参考依据。 网络可用性分析 通过使用广域网质量监控功能配置定时PING探测任务,根据需要选择发起探测的不同国家地域的运营商探测节点,运行一段时间后可以观察到不同国家地域的运营商线路到目标服务的网络时延情况。
  • 操作步骤 使用ssh以root用户登录到已安装Agent的主机中。 批量安装Agent,分别对应下面两种安装命令。 当获取到的Agent安装脚本为batch_agent_install.sh时,执行以下命令: cd /usr/local && curl -k -O ${download_url} && bash batch_agent_install.sh -t ${version} 当获取到的Agent安装脚本为agentBatchPackage.sh时,执行以下命令: cd /usr/local && curl -k -O ${download_url} && bash agentBatchPackage.sh 将安装命令中的${download_url}替换成表1中的下载路径,将${version}替换成Agent版本特性中的版本。 例如,在北京一的安装命令为: cd /usr/local && curl -k -O https://obs.cn-north-1.myhuaweicloud.com/uniagent-cn-north-1/script/batch_agent_install.sh && bash batch_agent_install.sh -t 2.5.6 安装完成后,登录云监控服务管理控制台,单击左侧导航栏的“主机监控”。 查看所有已安装Agent的弹性云服务器列表。 Agent插件配置完成后,因监控数据暂未上报,插件状态仍显示“未安装”,等待3-5分钟,刷新即可。