云服务器内容精选

  • 审计 云审计 服务(Cloud Trace Service, CTS ),是华为 云安全 解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录 AOM 的管理事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。 CTS支持追踪的AOM管理事件列表,请参见审计。 图1 云审计服务
  • 服务韧性 AOM服务提供了多种可靠性容灾能力,可以通过AZ内实例容灾、多AZ容灾、多集群容灾、数据多副本等技术方案,保障服务的持久性和可靠性。 表1 AOM服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,AOM实例通过多实例方式实现实例容灾,快速剔除故障节点,保障实例持续提供服务。 多AZ容灾 AOM支持跨AZ容灾,当一个AZ异常时,不影响其他AZ下的实例持续提供服务。 多集群容灾 AOM支持多集群方案,当一个集群异常时,可以继续提供服务。 数据容灾 AOM的配置、指标、告警等数据均是多副本存储,保证了数据可靠性。 父主题: 安全
  • 监控安全风险 AOM通过多种方式监控安全风险,保障数据安全可靠,具体请参见表1。 表1 AOM的监控安全风险 监控安全风险 简要说明 详细介绍 资源监控 AOM提供应用监控、组件监控、主机监控、容器监控、指标浏览等功能,支持实时监控您的应用及相关云资源,并将 数据可视化 展示,帮助用户快速分析应用健康状态。 资源监控使用说明 告警管理 AOM支持通过告警规则对应用、资源及业务设置告警条件,当AOM自身或外部服务存在异常或可能存在异常时,将告警信息通过邮件、短信、企业微信等方式发送给指定人员,帮助用户及时发现故障。 告警管理使用说明 父主题: 安全
  • 巡检与问题定界 日常运维中,遇到异常难定位、日志难获取等问题,需要一个监控平台对资源、日志、应用性能进行全方位的监控。 AOM深度对接应用服务,一站式收集基础设施、中间件和应用实例的运维数据,通过指标监控、 日志分析 、服务异常报警等功能,支持日常巡检资源、应用整体运行情况,及时发现并定界应用与资源的问题。 优势 应用自动发现:自动部署采集器,针对应用的运行环境,主动发现应用并进行监控。 跨云服务的分布式应用监控:对于同时使用了多种云服务的分布式应用,提供统一的运维平台,便于您对业务进行立体排查。 告警灵活通知:提供多种异常检测策略并支持丰富的异常告警触发方式及API。 图1 巡检与问题定界
  • 磁盘指标及其维度 表1 磁盘指标 指标名称 指标含义 取值范围 单位 磁盘读取速率(aom_node_disk_read_kilobytes) 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) 磁盘写入速率(aom_node_disk_write_kilobytes) 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) 表2 磁盘指标维度 维度 说明 clusterId 集群ID。 diskDevice 磁盘名称。 hostID 主机ID。 nameSpace 集群的命名空间。 nodeIP 主机IP。 nodeName 主机名称。 父主题: 指标总览
  • 磁盘分区指标 当主机类型为“CCE”时,可以查看磁盘分区指标,支持的系统为:CentOS 7.6版本、EulerOS 2.5。 以root用户登录CCE节点,执行docker info | grep 'Storage Driver'命令查看docker存储驱动类型。如果执行结果为“Device Mapper ”,表示驱动类型为Device Mapper ,则支持查看磁盘分区thinpool指标。如果执行结果不为“Device Mapper”,则不支持查看磁盘分区thinpool指标。 表1 磁盘分区指标 指标名称 指标含义 取值范围 单位 Thin pool 元数据空间使用率 (aom_host_diskpartition_thinpool_metadata_percent) 该指标用于统计CCE节点上thinpool元数据空间使用百分比。 0~100 百分比(%) Thin pool 数据空间使用率 (aom_host_diskpartition_thinpool_data_percent) 该指标用于统计CCE节点上thinpool数据空间使用百分比。 0~100 百分比(%) Thin pool 磁盘分区容量 (aom_host_diskpartition_total_capacity_megabytes) 该指标用于统计CCE节点上thinpool总空间容量。 ≥0 兆字节(MB) 父主题: 指标总览
  • 操作系统使用限制 AOM支持多个操作系统,在购买主机时您需选择AOM支持的操作系统,详见表1,否则无法使用AOM对主机进行监控。 表1 AOM支持的操作系统及版本 操作系统 版本 SUSE SUSE Enterprise 11 SP4 64bit SUSE Enterprise 12 SP1 64bit SUSE Enterprise 12 SP2 64bit SUSE Enterprise 12 SP3 64bit OpenSUSE 13.2 64bit 42.2 64bit 15.0 64bit(该版本暂不支持syslog日志采集) EulerOS 2.2 64bit 2.3 64bit 2.5 64bit 2.9 64bit 2.10 64bit CentOS 6.3 64bit 6.5 64bit 6.8 64bit 6.9 64bit 6.10 64bit 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit Ubuntu 14.04 server 64bit 16.04 server 64bit 18.04 server 64bit Fedora 24 64bit 25 64bit 29 64bit Debian 7.5.0 32bit 7.5.0 64bit 8.2.0 64bit 8.8.0 64bit 9.0.0 64bit Kylin Kylin V10 SP1 64bit 对于Linux x86_64服务器,AOM支持上表中所有的操作系统及版本。 对于Linux ARM服务器,CentOS操作系统仅支持7.4 及其以上版本,上表所列的其他操作系统对应版本均支持。
  • 修订记录 表1 版本说明列表 发行时间 更新说明 2022-04-16 告警降噪功能优化。 2022-01-25 支持创建告警规则。通过告警规则可对服务设置事件条件或者对资源的指标设置阈值条件。当服务的资源数据满足事件条件时产生事件类告警。当资源的指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。 2021-10-20 支持创建告警行动策略。关联 SMN 主题与消息模板,通过创建消息模板,自定义通知消息配置。 支持创建告警降噪策略。告警降噪策略分为路由分组、去重、抑制、静默四部分,作用于发送告警通知之前对告警按照策略规则链条进行处理,通过所有规则后,再发送通知。 2021-08-20 支持AOM日志接入LTS 通过添加接入规则,可以将AOM中的CCE或自定义集群的日志映射至LTS,通过LTS查看和分析日志。映射不会产生额外的费用(除重复映射外)。 2021-07-12 修改磁盘分区指标中指标名称。 2020-07-30 AOM2.0版本上线。 Console 切换UI4.0。 2019-11-30 支持云服务监控功能:展示华为云各服务实例的历史性能数据曲线,了解云服务实例运行状况。 2019-11-13 日志采集规则修改:指定日志采集文件名时不受日志文件扩展名(.log、.trace和.out)限制;被采集日志文件必须为文本文件。 2019-8-30 容器指标增加对“文件系统可用”“文件系统容量”和“文件系统使用率”的支持。 主机和容器指标增加对NPU指标的支持。 2019-8-21 支持统计分析APP的用户运营数据,便于您更有针对性地开展运营活动。 支持统计分析APP的网络交互数据,便于您更好地有针对性地进行网络优化,提升APP使用体验。 2019-8-9 采集配置界面增加应用运维配置,支持打开/关闭指标采集和日志采集。 2019-1-31 支持对原始日志进行结构化,并使用SQL语句对结构化后的日志进行查询与分析。 下线容器服务日志采集路径配置功能。 2018-12-5 支持配置容器服务日志采集路径。了解详情 2018-11-27 支持查看桶日志。了解详情 2018-10-31 支持配置分词,通过配置分词可将日志内容按照分词符切分为多个单词,在日志搜索时可使用切分后的单词进行搜索。了解详情 2018-10-24 支持创建统计规则,通过统计规则能够周期性统计关键字在日志文件中出现的条数,并生成指标数据。了解详情 2018-9-26 支持日志转储,可将日志桶中的日志文件转储到OBS桶中。了解详情 2018-9-13 支持细粒度授权,精确地允许或拒绝您对特定的资源进行某项具体操作,进行更精细的访问控制。 2018-9-5 云应用立体运维,提供资源、应用、应用体验的全链路、多层次、一站式运维平台。 智能运维,提供智能阈值机制,基于机器学习动态阈值告警,提升监控效率。 端侧分析,支持移动APP和Browser性能指标分析和崩溃分析等,实现应用全端掌控。 事务洞察,支持自动发现事务性能问题,智能筛选,完成根因探究。 中间件监控,无需额外安装其他插件,即可在AOM界面监控关系型数据库、分布式缓存服务等中间件的运行状态及各种指标。 2018-8-15 支持创建通知规则,将告警信息以短信或邮件的方式发送给指定人员。 2018-8-5 中国华北区支持使用模板创建批量静态和智能阈值规则。 2018-7-12 支持磁盘、文件系统监控。 2018-5-16 支持采集虚机应用(语言为Java、node.js或python)的指标。支持通过自定义规则发现应用。了解详情 2018-4-15 提供基础规格、专业规格,满足您对于指标、日志的不同存储要求。 2018-3-15 第一次正式发布。
  • 文件系统指标及其维度 表1 文件系统指标 指标名称 指标含义 取值范围 单位 可用磁盘空间(aom_node_disk_available_capacity_megabytes) 还未经使用的磁盘空间。 ≥0 兆字节(MB) 磁盘空间容量(aom_node_disk_capacity_megabytes) 总的磁盘空间容量。 ≥0 兆字节(MB) 磁盘读写状态(aom_node_disk_rw_status) 该指标用于统计主机上磁盘的读写状态。 0、1 0表示读写 1表示只读 无 磁盘使用率(aom_node_disk_usage) 已使用的磁盘空间占总的磁盘空间容量百分比。 0~100 百分比(%) 表2 文件系统指标维度 维度 说明 clusterId 集群ID。 clusterName 集群名称。 fileSystem 文件系统。 hostID 主机ID。 mountPoint 挂载点。 nameSpace 集群的命名空间。 nodeIP 主机IP。 nodeName 主机名称。 父主题: 指标总览
  • 虚机组件指标及其维度 AOM中,虚机组件指的是进程,虚机组件指标指的就是进程指标。 表1 进程指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_process_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_process_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) CPU使用率(aom_process_cpu_usage) 该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。 0~100 百分比(%) 句柄数(aom_process_handle_count) 该指标用于统计测量对象使用的句柄数。 ≥0 无 最大句柄数(aom_process_max_handle_count) 该指标用于统计测量对象使用的最大句柄数。 ≥0 无 物理内存总量(aom_process_memory_request_megabytes) 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) 物理内存使用率(aom_process_memory_usage) 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) 物理内存使用量(aom_process_memory_used_megabytes) 该指标用于统计测量对象实际已经使用的物理内存(Resident Set Size)。 ≥0 兆字节(MB) 状态(aom_process_status) 该指标用于统计进程状态是否正常。 0、1 0表示正常 1表示异常 无 线程数(aom_process_thread_count) 该指标用于统计测量对象使用的线程数。 ≥0 无 虚拟内存总量(aom_process_virtual_memory_total_megabytes) 该指标用于统计测量对象申请的虚拟内存总量。 ≥0 兆字节(MB) 表2 进程指标维度 维度 说明 appName 服务名称。 clusterId 集群ID。 clusterName 集群名称。 nameSpace 集群的命名空间。 processID 进程ID。 processName 进程名称。 serviceID 存量ID。 aomApplicationName 应用名称。 aomApplicationID 应用ID。 processCmd 进程命令ID。 父主题: 指标总览
  • 运维遇到挑战 随着容器技术的普及,越来越多的企业通过微服务框架开发应用,业务实现更多使用云上服务,运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。 图1 运维现有问题 运维人员技能要求高,配置繁杂,同时需要维护多套系统。对于分布式追踪系统,学习和使用成本高,并且稳定性差。 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。
  • 指标命名空间 指标命名空间是对一组资源和对象产生的指标的抽象整合,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。 系统指标的命名空间:命名空间是固定不变的,均以“PAAS.”开头,如表1所示。 表1 系统指标命名空间 命名空间名称 说明 PAAS.AGGR 集群指标的命名空间。 PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。 PAAS.CONTAINER 组件指标、实例指标、进程指标和容器指标的命名空间。 PAAS.SLA SLA指标的命名空间。 自定义指标的命名空间:需要您自定义,自定义时命名空间必须以字母开头,但不能以“PAAS.”、“SYS.”和“SRE.”开头,且以0~9、a~z、A~Z或下划线(_)组成的格式为XX.XX的3~32位字符串。
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 采用三层架构 数据采集接入层 ICAgent采集数据 给主机安装ICAgent(插件式的数据采集器)并通过ICAgent上报相关的运维数据。 API接入数据 通过AOM提供的OpenAPI接口或者Exporter接口,将业务指标作为自定义指标,接入到AOM。 传输存储层 数据传输:AOM Access是用来接收运维数据的代理服务,运维数据接收上来之后,会将数据投放到Kafka队列中,利用Kafka高吞吐的能力,实时将数据传输给业务计算层。 数据存储:运维数据经过AOM后端服务的处理,将数据写入到数据库中,其中Cassandra用来存储数据,Redis用来查询缓存,ETCD用来存储AOM的配置数据,ElasticSearch用来存储资源、日志、告警和事件。 业务计算层 AOM提供告警、日志、监控、指标等基础运维服务,同时也提供异常检测与分析等AI服务。
  • 产品规格差异 应用运维管理 服务(简称AOM)按计费方式不同分为基础版、按需版两种,其中按需版又分为专业版和企业版。 各版本的具体规格差异请参见表1。 表1 版本规格差异说明 规格项 基础版 专业版 企业版 日志读写流量 500MB 400GB 1TB 日志索引流量 500MB 400GB 1TB 日志存储空间 500MB 400GB 1TB 主机监控 指标存储7天 100VM,指标存储时长1年 200VM,指标存储时长1年 CCI实例监控 指标存储7天 500实例,指标存储时长1年 1000实例,指标存储时长1年 秒级监控指标数量 首月免费10个 无 2000个 自定义指标 10个 100个 500个 查询指标数据API调用 50万次/月 100万次/月 500万次/月 事件和告警总条数 5万条/月,存储时长7天 10万条/月,存储时长30天 50万条/月,存储时长30天