检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可观测指标可以通过监控工具来实现,并允许在发生异常时发送警报。有很多监控工具可以使用,例如Prometheus、Grafana、Zabbix等,以及华为云提供的云监控服务CES。这些工具可以定期收集指标,提供可视化的指标报告,并且可以发送警报,以帮助组织及时发现问题。 可参考CES的最佳实践,https://support
按照以上评估,每年应用系统不可用的时长是240分钟,满足可用设计目标要求。 信息管理类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE(以CCE为例),通过ELB负载均衡;后端数据库基于不同业务类型可采用不同数据库,通常采用GaussDB提供更高性能与可靠性;基于
500错误)和隐式失败(如HTTP 200中包含了错误内容)。 饱和度:侧重在对系统中最为受限的瓶颈资源的监控。 对于基于Java的应用系统,华为云用户可使用APM服务实现基于调用链的业务延迟和错误率监控。函数服务FunctionGraph、微服务引擎CSE提供了流量、延迟和错误率监控
相关服务和工具 创建预算提醒,将预算设置为提醒阈值,在预测或实际成本超出预算时,及时获取超预算通知,防止潜在成本超支。 创建成本监控,华为云成本中心的成本监控引入机器学习,对客户历史消费数据进行建模,对于不符合历史数据模型的成本增长,识别为异常成本记录,同时提供异常增长的Top
/内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。 应用层进行过载保护,保障优先业务的运行。 连接后端云数据库 TaurusDB失败
ER 主机监控 主机监控提供了包括基础监控和操作系统监控两种不同监控粒度层次的监控。基础监控为 ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。主要关注:CPU_UTIL、DISK_READ_BYTES_RATE、带外网络流入速率等指标
支持计划、未及时标记的成本。只有将公共成本也分配下去,才能让业务团队关注这部分消费,从而合理化使用,减少不必要的浪费。 相关服务和工具 华为云成本中心提供包年包月、资源包成本按实际使用者和实际消耗的成本分摊(即摊销成本)。 父主题: COST03 对成本进行分配
规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 安全性是现代应用程序的重要维度,需要成体系地考虑工作负载的安全。华为云安全性支柱的设计框架如下图所示:
计量能力,有的针对平台网站具有Web应用、移动应用和API测试能力,所以性能压测工具是要依据业务测试场景来选择。 相关云服务和工具 参考华为云CodeArts PerfTest工具 父主题: OPS03 完备的测试验证体系
以便在警报触发时能够快速采取必要的措施,如优化资源、停止不必要的服务,或者针对某个部门,项目进行新购买云资源的限制等。 相关服务和工具 华为云提供了通用的预算管理工具,您可以根据企业实际规划的预算,用预算管理工具跟踪起来,并可以设置细粒度的过滤条件,精细化跟踪具体产品、团队、项目的成本。
业务使用规范 原则 原则说明 级别 备注 就近部署业务,避免时延过大 如果部署位置过远(非同一个region)或者时延较大(例如业务服务器与Redis实例通过公网连接),网络延迟将极大影响读写性能。 强制 如果对于时延较为敏感,请避免创建跨AZ Redis实例。 冷热数据区分 建议将热数据加载到
该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 broker_cpu_core_load CPU核均负载 该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 broker_memory_usage 内存使用率 该指标为Kafka节点虚拟机层面采集的内存使用率。
添加到它们的日志中,以便在出现问题时进行故障排除。分布式跟踪可以使用开源工具Jaeger、Zipkin、skywalking或CAT等,华为云APM提供了调用链观测能力。 可参考APM最佳实践 父主题: OPS06 可观测性体系
线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务操作过程,获得完成业务的操作过程性能数据和操作结果数据;业务检测使用拨测技术来完成检测,由于拨测需要占用
期备份,避免受到未预期的删除、修改或覆盖。 风险等级 高 关键策略 云服务的关键操作包含高危操作(如创建IAM用户、删除IAM用户、重启虚拟机、变更安全配置等)、成本敏感操作(创建、删除高价资源等)、业务敏感操作(网络配置变更等)。 启用关键操作通知功能。启用云审计服务CTS的关
性能测试环境配置通常要考虑以下因素: 系统组网与架构:系统组网方式如主备、集群、分布式等组网,系统架构分析服务间依赖关系,确定周边依赖服务。 硬件规格:所需服务器的数量、规格以及硬件配置,包括 CPU 主频/核数、内存容量、磁盘类型与容量、存储池类型与容量,网卡带宽等。 软件环境:软件版本与配置,如
实施持续的监控,包括云环境的日志、网络流量和异常行为。当检测到潜在事件时,进行初步分析以确定事件的性质和严重性。 实施快速安全响应动作,隔离受影响的系统或账户、断开网络连接、停止服务、清除恶意文件、修复漏洞、替换受损系统并加固系统,确认所有威胁已经被完全清除,避免再次发生。 制定恢复策略,逐步恢复受影响服务,
Replication Service,简称DRS)创建灾备任务,当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和
Replication Service,简称DRS)创建灾备任务,当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和
支持业务运行状况、成功指标的检查,在发生故障时告警;支持ECS、DCS、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS