检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成一般、紧急、重要三个梯度,对应每个梯度的指标配套对应的处理措施。对于敏感度或业务重要度的应用架构,可以新增一个提示级别的梯度。 相关云服务和工具: 云监控服务
行扩容处理。 华为云服务实例支持主动横向或纵向扩容功能;如对于ECS实例可以通过创建多个ECS实例实现横向扩容,也可升级ECS规格实现纵向扩容;对于RDS实例可升级RDS实例规格实现纵向扩容。 父主题: RES13 过载保护
持定时和手动两种备份方式,定时备份频率以天为单位,最多保存7天,但至少会保留一个数据备份文件;手动备份由用户触发,通常在执行业务系统维护、升级等高危操作进行,保存期限无限制。 DCS指定备份集恢复。恢复过程中,实例会有一段时间不能处理客户端的数据操作请求,当前数据将被删除,待恢复完成后存储原有备份数据。
egion的数据双写,以进行数据同步。 接入侧主Region与灾备Region各自申请外部IP,并通过DNS域名解析到主Region,在主Region故障时,将DNS域名对应IP地址修改为灾备Region中的外部IP。 申请MAS多活高可用服务,进行容灾编排,以便在灾难场景快速主备切换恢复业务。
您如何进行配置防差错? 变更防呆检查 自动化变更 变更前数据备份 提供runbook进行标准化变更 RES15 您如何进行升级不中断业务? 自动化部署和升级 自动化检查 自动化回滚 灰度部署和升级 父主题: 韧性支柱
线和三线阶梯型运维支持团队,一线受理客户的服务请求,第一时间将大部分的服务请求闭环。二线处理一线升级的服务请求和监控发现的客户的问题,按照SLA完成闭环,涉及到软件版本缺陷类问题升级到三线进行解决,大部分时间处理告警、事件和故障的恢复,其余时间开展转维验收、应急预案与演练等主动运
路径。 公有云组网场景可通过多EIP 弹性IP及DNS域名解析实现网络连接的高可用;对可用性要求较高的场景,需要支持智能DNS功能,能对EIP进行异常监控和自动切换;此外DNS自身也需要冗余容错,避免由于DNS故障而导致域名解析失败,业务中断。 混合云组网场景链路冗余与倒换方案:
立定期审查机制,同时根据业务情况动态调整,不断改进预算规划来更好控制成本,以确保其符合企业的实际情况。 企业应该建立紧急响应和应对计划,设计应对成本超支情况的紧急响应计划。包括明确的流程和责任人,确定接收警报并负责采取行动的责任人或团队。这些人员可能是财务团队、运维团队、部门负责
现工作负载的可靠操作。 变更操作属于运维的一部分,内容可参考卓越运营支柱部分“运维准备和变更管理”。 RES14 配置防差错 RES15 升级不中断业务 父主题: 韧性支柱
本的需求 相关服务和工具 华为云成本中心的成本单元提供按比例的公共成本分拆方式。 华为云成本中心提供共同成本分拆,支持CDN、Live按照域名流量进行成本分拆。 华为云CCE服务提供细化的按照Pod Level的成本分拆,并可以卷积到Workload,Service等各种标准K8S模型层级。
络异常将会导致业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络连接的高可用,可减少由于网络连接中断而导致的业务中断。
管理的标准和规范。团队成员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧急情况。团队应清楚知道如何应对安全威胁和处理安全事件。 父主题: SEC01 云安全治理策略
WARNING。 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。 预警增强:对于某些影响业务方的操作,提供预警。 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。 相关云服务和工具 应用运维管理
设置或读取在数据主体系统上的Cookie前(如用于营销或广告),应提供获取数据主体同意及撤销的机制。 修改用户个人空间的行为(如系统或应用配置变更、下载软件、对用户系统或软件升级),须得到用户的同意。 对未成年人提供服务或收集了包含年龄信息的个人信息时,需要实现从未成年人的监护人处获取同意的功能。 数据控制者应提供
洞,并管理安全补丁的发布和应用过程。 在关键节点处检测和清除恶意代码:应在关键网络节点处对恶意代码进行检查和清除,并维护恶意代码防护机制的升级和更新。 相关云服务和工具 企业主机安全 HSS 安全云脑 SecMaster 漏洞管理服务 CodeArts Inspector 威胁检
环境安全、稳定地运行,并最大化的提升系统的可用性,满足所承诺的服务水平。 告警和事件管理流程:适用于开发,生产环境故障等事件的受理、处理、升级流程,确保用户的业务及时得到响应和处理,支撑SLA的达成,需要明确定义企业各类事件的等级,以及处理的职责,规范各类事件响应和处理时限及通报机制,保障业务的安全性和稳定性。
解决实践 考虑升级实例规格,将内存利用率维持在合理范围,防止业务突增导致实例OOM,或根据业务实际情况优化慢查询。 11.GaussDB(for MySQL)联合索引设置不当导致慢SQL的解决实践 查询变慢首先确认是否由于CPU利用率达到性能瓶颈导致执行慢,考虑升级资源规格;或是
非关键路径透传数据库,建议对访问数据库进行限流。 建议 - 从Redis获取数据未命中时,访问只读数据库实例。可通过域名等方式对接多个只读实例。 建议 核心是未命中的缓存数据不会打到主库上。 用域名对接多个只读数据库实例,一旦出现问题,可以增加只读实例应急。 不用作消息队列 发布订阅场景下,不建议作为消息队列使用。
应时间、吞吐量、并发用户数等,这些指标需要能够反映出业务的需求。 确定业务优先级:不同的业务需求有不同的优先级,因此需要根据业务的重要性和紧急程度确定业务的优先级,以便在性能测试和优化时重点关注。 定期回顾和更新性能目标:业务需求会随着时间的推移而发生变化,因此需要定期回顾和更新性能目标,以确保其与业务目标保持一致。
统处理的容量的情况,一般给重要任务赋予高优先级,最重要的行为优先得到处理。只适用于暂时超载的情况,如果超载不是暂时的,需要减少处理量,或者升级系统。如在性能过载场景下,按照功能优先级进行熔断间接,保证主要功能可用。 聚合 将大多数场合在一起使用的功能组合在一起,以减少调用的交互次数。