检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标准化,以确保安全、一致地执行任务。 回收闲置资源:由于配置管理工具及其限制等原因,有时 IaC 工具无法自动删除资源。例如,假设需要从虚拟机迁移到 PaaS 服务,而 IaC 工具没有删除闲置资源的逻辑。如果忘记手动删除这些资源,这些资源可能会成为孤立资源。为了处理这些场景,需要标准化扫描闲置资源并明确删除策略。
告警:应用系统在检测到故障后需要及时告警,并能通过短消息、邮件等方式发送给所有相关人员,确保使相关人第一时间得知故障信息,以便快速组织应急响应。 预测:维护团队需要根据系统运行现状,通过数据分析、机器学习等方式,预测系统的风险情况,提前进行预防和处理。 在进行应急恢复处理时,通常需要尽快缓解或恢复业务,快
若无法控制或无法预测,则建议明确变更方案或禁止变更。变更审批流程可由多人进行组合,包括:业务负责人、团队TL、技术TL等,变更涉及的人员可根据变更的影响程度以及影响范围等因素确定。 变更执行:通过发起时确认的执行人来进行执行工作的分派,以确保执行变更的是与变更内容相关的技术人员,从而确保变更的准确执行。
仅仅记录日志并不足够,还需要对日志进行有效的管理和分析。如果日志太多,将会成为一个负担,因为它们需要占用存储空间,并且需要花费很长时间来查找有用的信息。因此,需要对日志进行过滤和归档,以便更好地管理它们。 设计建议 可参考LTS最佳实践 父主题: OPS06 可观测性体系
实施改进措施:将制定的改进措施付诸实施,并监控其执行情况。确保所有相关人员都了解并遵守这些改进措施。 定期检视和更新:定期检视复盘结果和改进措施的执行情况,并根据需要进行更新和调整。持续改进是一个持久的过程。 文档和分享:将复盘的结果和改进措施进行文档化,并与团队内部分享。这有助于确保所有人都能从中学习,并避免类似的错误再次发生。
PERF01-01 全生命周期性能管理 风险等级 高 关键策略 指定性能目标 从性能角度来看,最好为性能场景定义具体的、量化的、可测量的性能目标。若要设置这些目标,需要充分了解业务要求以及预期将提供的服务质量。 需要与业务利益干系人共同关键功能的体验要求,而不是只关注技术指标。通
变化。管理层&财务等利益相关人诉求变化,他们可能会对更细粒度的提出请求,定期和利益相关人确定并更新规范。 相关服务和工具 企业可在成本中心查看可分配成本比例,并通过该指标诊断标签覆盖率和牵引企业内部治理标签。 企业可通过成本中心、TMS、云服务控制台来识别和治理未打标签资源,标签Key&value错误
际需要选取合适的数据库服务;例如RDS for MySQL和TaurusDB,在选取时应考虑更多因素,如性能等因素,这些因素可以从官方资料查看。 父主题: 选择合适的数据库资源