检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
带宽、优化数据库查询等。 云服务资源性能优化步骤包括: 识别性能瓶颈: 通过监控和分析云服务资源使用情况,找出性能瓶颈。 优化资源配置: 根据性能瓶颈,调整云服务资源的配置,如 CPU 、内存、网络等。 使用缓存: 使用缓存技术,如 CDN 、 Redis 等,提高数据访问速度。
SEC05-05 证书安全管理 证书的常见用途包括传输数据的加密和系统间的身份认证场景。集中管理每个证书的用途、有效期等信息,并及时对证书替换。 风险等级 中 关键策略 集中管理证书: 建立中心化的证书管理系统,用于存储、跟踪和管理所有证书。 确保每个证书都有清晰的标识,包括用途、所有者、有效期等信息。
误日志数量、日志大小等指标 自定义监控 自定义监控展示用户所有自主定义上报的监控指标。用户可以针对自己关心的业务指标进行监控,将采集的监控数据通过使用简单的 API 请求上报至监控服务进行处理和展示 中间件监控 提供快捷安装配置各类型中间件插件的功能,并提供开箱即用的专属监控大盘,目前支持的中间件插件有以下几种:
内容进行检查,确保变更并未影响实际业务,检查完成后,发布变更结果。 变更关闭:在变更完成后,关闭变更任务。对变更记录进行留存,便于后续变更数据的运营与分析。 设计建议 父主题: OPS05 运维准备和变更管理
OPS02 通过CI/CD实现高效的频繁可逆的小规模变更 OPS02-01 进行需求管理和迭代开发 OPS02-02 关联源代码版本和部署的应用版本,使用代码质量最佳实践 父主题: 卓越运营支柱
网络的分区是将网络划分为多个部分,以隔离不同敏感性要求的网络流量和资源,从而增加网络的安全性。 风险等级 高 关键策略 通过网络分区,可以实现以下目的: 隔离敏感数据:将敏感数据和应用程序隔离在独立的网络分区中,以减少未经授权访问的风险。 可扩展性:分区和分层可以帮助管理和扩展复杂的网络架构,使其更易于维护和扩展。
题。记住,每秒钟发送的消息数比消息大小更容易达到瓶颈。虽然发送大消息不是一个好的做法,但是发送多条小的消息也可能不是一个好的选择。更好的方法是生产者把多条小消息封装成一条大消息,然后由消费者来拆开处理。然而,如果一条大消息封装了太多的子消息,处理速度将会受到影响。如果一条子消息处
RES13-04 支持主动扩容 当由于计划性活动而导致资源需求增加时,需要支持主动扩容,避免由于资源不足而导致业务受影响。 风险等级 高 关键策略 当发现应用系统业务需要更多资源时,可主动扩展资源以满足需求,而避免影响可用性。典型场景如产品促销前预测会有突发大流量,则可手工进行扩容处理。
常见故障模式 CCE集群的CPU /内存/磁盘容量使用率过高 检测:通过AOM监控CCE集群的CPU/内存/磁盘容量使用率。 恢复: 根据业务情况,手工变更集群规格或扩展资源。 CCE节点的CPU /内存/磁盘容量/磁盘IOPS/GPU/GPU缓存使用率过高 检测:通过AOM监控
可靠性功能 负载均衡 配合弹性负载均衡ELB服务,可以对弹性伸缩组创建的弹性云服务器进行负载均衡。 健康检查 健康检查会将异常的实例从伸缩组中移除,伸缩组会重新创建新的实例以维持伸缩组的期望实例数和当前实例数保持一致,伸缩组的健康检查方式主要包括以下两种。 云服务器健康检查:是指
消息队列性能优化 以下章节我们结合一些具体建议和指标来说明如何针对消息队列的使用进行性能优化。 Kafka性能优化 RabbitMQ性能优化 父主题: 云服务性能优化介绍
年度减少多少。 相关云服务和工具 MAS-CAST故障注入服务:针对云应用提供测试工具和注入手段,支持故障和业务流程编排的可靠性评估测试、压力负荷测试、CHAOS随机故障注入、生产环境故障演练等能力。 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险
个AZ提供服务而不受影响;对于集群类业务不涉及。 风险等级 高 关键策略 面向有状态主备类型业务提供容灾仲裁,站点间链路中断不双主,不破坏数据完整性。 应用内所有相关组件对接一致性仲裁,在链路中断的情况下所有组件均能切换到同一个站点,实现端到端的业务可用性 父主题: RES03 跨AZ容灾
应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。 每个恢复操作动作必须明确无歧义,可指导操作人员。 相关云服务和工具 云运维中心 COC:支持应急预案管理。 父主题: RES12 应急恢复处理
生产消息失败 检测:生产消息失败 恢复: 应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。 当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。 父主题: DMS分布式消息服务
载均衡器停止向该实例发送业务请求。 ECS实例或挂载的磁盘或数据被意外删除 检测:NA 恢复:对于无状态业务,使用模板快速发放新实例;对于有状态业务,使用CBR云备份服务对ECS进行定期备份,在数据被删除时使用备份数据快速恢复。 ECS实例使用本地盘时本地盘故障 检测:应用层检测本地盘运行状态。
度设置。 关于数据的安全审计见:SEC07-03 对数据操作实施监控 相关云服务和工具 云审计服务 CTS:用户开通CTS后,系统会自动创建一个追踪器,该追踪器会自动识别并关联当前租户所使用的所有云服务,并将当前租户的所有操作记录在该追踪器中。CTS服务具备对各种云资源操作记录的
架构始终保持与设计态一致。 自动化资产盘点:使用安全云服务或工具来自动发现和记录云上资源,包括主机、存储、数据库、网络等。这样可以确保资产清单的及时性和准确性。 标签和元数据:使用标签和元数据来对云资源进行分类和描述,以便更好地组织和管理资源清单。通过标签可以快速识别和过滤资源,有助于监控和安全审计。
演练期间严格按照应急预案进行恢复,以检验应急预案的准确性。 演练结束后需要对恢复过程进行回溯,并优化应急预案。 相关云服务和工具 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题:
分配结果,支持在“成本分析”页面可视。 如果需要获取明细数据与自身云管平台进行集成,实现定制化的成本和使用分析,您还可以订阅账单明细数据、OBS转储成本明细或调用客户运营能力API。比如将成本和使用明细与企业的业务运营数据结合,生成业务单位成本KPI。 父主题: COST03 对成本进行分配