检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES11-03 长稳测试 基于用户使用场景构建业务模型,自动化构建覆盖系统容量规格70%的业务量,持续7*24小时进行长时间负载测试以评估系统稳定性。 风险等级 高 关键策略 模拟各种业务场景进行测试。 持续自动测试。 测试结果发生偏差时自动告警,以便及时定位和处理。 父主题:
非关键路径透传数据库,建议对访问数据库进行限流。 建议 - 从Redis获取数据未命中时,访问只读数据库实例。可通过域名等方式对接多个只读实例。 建议 核心是未命中的缓存数据不会打到主库上。 用域名对接多个只读数据库实例,一旦出现问题,可以增加只读实例应急。 不用作消息队列 发布订阅场景下,不建议作为消息队列使用。
如果工作负载能够支持弹性(例如:应用无状态化),请考虑具有自动缩放功能的计算服务,该功能可根据需求自动调整计算容量。自动缩放有助于确保在高峰期拥有足够的资源,并防止在低需求时段过度预配。虚拟机弹性伸缩和容器弹性伸缩都是实现应用自动化扩容和缩容的方式,但虚拟机弹性伸缩需要更多的资源和时间来启动和部署,而容器弹
还原业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。 调用链与日志关联,提高用户体验。用户可以从调用链直接跳转LTS查看日志。
Kafka:配合CES服务,支持对Kafka实例、实例节点、实例主题、实例分区、实例分区的消费组、实例队列的消费组、实例的消费组等进行监控和告警。详见“支持的监控指标”。 RabbitMQ:配合CES服务,支持对RabbitMQ实例、实例节点、实例队列进行监控和告警等进行监控和告警。详见“支持的监控指标”。
富并且可弹性扩展的块存储服务,可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。 存储数据的逻辑 存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,可以直接存放文件,文件会自动产生对应的系统元数据,用户也可以自定义文件的元数据。 存放的是二进制数据,无法
应用层进行过载保护,保障优先业务的运行。 连接后端RDS失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如RDS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。 当RDS实例由于过载导致网络限制时,可参考“RDS的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高”的处理。
Service,简称DRS)创建灾备任务,当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。数据复制服务提供的实时灾备功能,可实现主实例和跨区域的灾备实例之间的单主灾备(详见“云数据库
、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS for M
漏洞管理有助于及时发现并修复系统中存在的安全漏洞,防范潜在的安全威胁和攻击。安全漏洞可能使他人非法获得系统访问特权,应通过可信渠道获取最新的安全情报。 风险等级 高 关键策略 安全漏洞可通过及时安装安全补丁的方式修复漏洞,以防恶意个人或软件非法利用从而破坏业务系统和数据。通过及时了解最新的华为云和业界的安全公告
中总结的最佳实践应该得到广泛地传播,对已有事故的分析,应该得到记录,确保相关根因都得到充分理解,尤其重要的是制定有效的标准化流程/自动化工具来降低事故再次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
选择合适的计算资源 评估计算要求涉及评估工作负载的特定计算需求,包括实例类型、可伸缩性和容器化等因素。不同的计算服务具有不同的功能和特征,可能会影响工作负载的性能。选择最佳计算服务以确保工作负载高效运行。请考虑以下策略: 了解实例类型 不同的实例类型针对不同的工作负载进行优化,例
云数据库 TaurusDB的CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率过高 检测:通过CES监控CPU /内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。
弹性扩缩容 针对内部用户场景,资源足够,无需自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可根据ECS监控情况随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS,可根据RDS负载监控情况,在维护时段更改实例类型或增加只读节点。 变更防差错
针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错 软件更新采用金丝雀或蓝绿部署,部署过程自动完成,在部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急
容灾 应用跨3AZ部署,AZ故障时自动恢复。 监控告警 支持业务运行状况、成功指标的检查,在发生故障时告警;支持云服务实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 针对内部用户场景,资源足够,无需自动弹性伸缩;针对CCE容器,通过CCE进行
PERF03-06 选择合适的消息队列 风险等级 中 关键策略 三种不同版分布式消息服务的适用场景如下: Kafka:兼容开源Kafka,适用构建实时数据管道、流式数据处理、第三方解耦、流量削峰去谷等场景,有大规模、高可靠、高并发访问、可扩展且完全托管的特点。 RocketMQ:兼
针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错 软件更新采用金丝雀或蓝绿部署,部署过程自动完成,在部署过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急
日志监控:日志监控提供了针对日志内容的实时监控能力。通过云监控服务和云日志服务的结合,用户可以针对日志内容进行监控统计、设置告警规则等操作,降低用户监控日志的运维成本,简化用户使用监控日志的流程。 事件监控:事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要事件或对云资源的操作事件收
维防线等日志实施标准化管理,以监测系统和用户活动,实现日志的统一管理,并确保透明可追溯。 风险等级 高 关键策略 跟踪并监测对网络资源和关键数据的所有访问。通过系统的活动记录机制和用户活动跟踪功能可有效降低恶意活动对于数据的威胁程度。常见的安全日志如主机安全日志、操作系统日志、堡