检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对资源进行监控时,需要先定义资源的关键指标以及对应的阈值,以便快速有效的发现业务表现和系统状态,以便在异常状态下尽早干预恢复,或定位改进系统缺陷。 风险等级 中 关键策略 关键指标需要与系统内工作负载的关键性能指标相关,并能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相比
RES11-04 灾难演练 通过容灾演练,可以验证灾备系统是否可用,且数据丢失时间以及恢复时间符合数据的RPO与RTO指标要求。 风险等级 高 关键策略 灾难演练着重测试服务跨AZ或跨Region故障转移能力,验证系统的容灾能力以及面对灾难时的应对能力,涉及到多个团队间配合,通常
检测:通过CES监控CPU/内存/磁盘容量/磁盘IOPS使用率 恢复: 根据业务情况,更换规格更高的BMS实例或增加BMS实例进行负荷分担。 应用层进行过载保护,保障优先业务的运行。 连接后端BMS失败 检测:网络连接失败。 恢复: 至少部署2个后端BMS。对于无状态业务,配置ELB弹性负载均衡保
检查。可以采用很多方法来验证数据的完整性,其中大多数方法都依赖于冗余或者包含在数据中的摘要信息。有些方法采用足够的冗余,不仅能检测错误,而且能纠正错误。但大多数方法中都只包括足够的额外信息来检测数据是否有效。典型的方法如奇偶校验和CRC(循环冗余校验)。 比较测试:当系统具有冗余
/内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启存储空间自动扩容,以便在磁盘容量不足时自动扩容。 应用层进行过载保护,保障优先业务的运行。 连接后端RDS失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如RDS实例正在进行主备切换时;应用故障重试处理可参考“故障重试”。
分层监控,每一层对应的观测指标均不同。在应用层,主要监控业务层、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。主要关注:WAITING 状态线程数、TIMED_WAITING 状态线程数、可使用内存等指标 进程监控
减少业务中断时长,提升可用性。 安全性支柱: 旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁,降低安全风险。安全性支柱涉及保护云上系统、资产、数据的机密性、完整性、可用性以及合法、合规使用数据,保护用户隐私的一系列最佳实践。 性能效率支柱:
/内存/带宽/连接数使用率过高 检测:通过CES监控CPU /内存/带宽/连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 应用层进行过载保护,保障优先业务的运行,如将部分性能要求不高的业务切回到原始数据源。 连接后端DCS失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂
/内存/磁盘容量/磁盘IOPS/数据库连接数使用率。 恢复: 根据业务情况,手工变更规格以扩展资源。 开启自动扩缩容,以便在过载时自动扩容规格和/或只读节点。 应用层进行过载保护,保障优先业务的运行。 连接后端GaussDB(for MySQL)失败 检测:连接失败。 恢复: 应用层进行重试,以应对暂时性故障,如GaussDB(for
COST07-02 释放闲置资源 风险等级 中 关键策略 持续监控资源的闲置情况(如ELB无流量,EVS盘无挂载,EIP没有绑定到虚机),释放资源,或者监控资源使用只是在某个固定的时间(如每天的十二点,每个周末),可以使用自动化的方式定期申请资源,使用后释放 相关服务和工具 华为
常见的简单表达方式用“9”的数量或“9”的数量加“5”表示,如“三个9”表示“99.9%”,而“三个9一个5”表示“99.95%”。 系统可用性目标通过服务等级目标(SLO)定义。不同的应用系统对可用性目标是不同的,明确应用系统的可用性目标,对于衡量应用系统的韧性至关重要。常见IT系统SLO示意如下:
PERF02-01 定义性能目标 风险等级 中 关键策略 建立性能目标是实现工作负载性能效率的重要步骤。性能目标定义了工作负载所需的性能级别,并帮助衡量实现这些目标的有效性。性能目标提供了衡量和比较工作负载效率的基准。此基准可帮助你突出显示改进领域。这些目标还使任务与组织的目标保
PERF06-03 自动告警 风险等级 中 关键策略 通过在云监控平台配置对应的告警策略,可以及时了解资源风险,以便做出对应调整和策略。 相关云服务和工具: 优化顾问 OA 云监控服务 CES 父主题: 性能看护
考虑简单、程序化且长期的任务。应用自动化并不是一种全有或全无的策略。即使需要人工干预的工作流(例: 决策点),也可以从自动化中受益。 风险等级 高 关键策略 优先考虑从自动化中受益最多的任务: 专注于高度程序化且容易出现人为错误的任务:这些任务被明确定义,高度自动化,没有增加复杂
业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。 调用链与日志关联,提高用户体验。用户可以从调用链直接跳转LTS查看日志。
聚合物,以消除对少量信息的频繁请求。如,帐户类CustAcct可以提供访问函数getName(),getAddress(),getZip(),如果经常用到该类的任务是创建邮件标签,可以使用一个新函数genMailLableInfo(),以便调用一次取得所有信息,减少交互次数。 批处理
RPO:允许的数据丢失量,与数据的周期性复制周期或连续性复制延时相关。 RTO:允许的业务恢复时长,即业务中断时长,与灾备端业务的部署与切换方式相关。 风险等级 高 关键策略 不同的业务系统重要性不一样,针对应用系统内的各种业务,需要明确其重要性及对应的RPO/RTO指标要求。比如对于核心业务,通
COST01-02 规划IT治理体系,提高管理效率 风险等级 高 关键策略 实施与您的组织对应的IT治理结构。这有助于在整个组织内分摊和管理成本。随着经营范围和规模的不断扩张,不断建立子公司、分公司,大部门也逐步拆分成多个小部门,组织结构的层级也就越来越多。企业的IT治理架构也会
RES15-03 自动化回滚 在升级或部署过程中出现异常,或检查/测试失败时,支持自动回滚,减少人工干预,避免回滚失败。 风险等级 高 关键策略 检测到异常后,可一键式回滚。 回滚过程自动化完成。 父主题: RES15 升级不中断业务
Bastion Host,CBH)是华为云的一款统一安全管控平台,为企业提供集中的账号(Account)、授权(Authorization)、认证(Authentication)和审计(Audit)管理服务。 云堡垒机提供云计算安全管控的系统和组件,包含部门、用户、资源、策略、运维