检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEC08-06 向第三方披露个人数据合规性 在将个人数据分享、转移或提供给第三方时,数据控制者必须遵守相关的法律法规和隐私保护准则,以确保数据转移活动符合法律规定并尊重数据主体的权利。 风险等级 高 关键策略 产品需评估是否存在将个人数据推送给第三方应用。评估是否存在高度敏感的用户数据在未获得用户明示同意便推送
故障演练 故障演练指通过沉淀通用的故障场景和可控成本在线上故障重放,以持续性的演练和回归方式的运营来暴露问题,不断验证和推动系统、工具、流程、人员能力的提升,从而提前发现并修复可避免的重大问题,或通过验证故障发现手段、故障修复能力来达到缩短故障修复时长的作用。
可基于流批一体化平台,支持在线、近线和离线的各种异常行为分析模型的构建,包含身份防线,网络防线,应用防线,数据防线,运维防线和主机防线等。也可同时基于AD-HOC实时进行安全事件分析,并聚合成各种报表动态化展示分析。
OPS08-03 知识管理 风险等级 高 关键策略 日益庞大的数据量和复杂的业务系统,对运维人员的要求越来越高。为了方便运维人员获取知识,学习和解决问题,运维知识管理能力变得必要。运维知识管理应集成丰富的运维知识,可以帮助运维人员快速解决问题,提高工作效率。一般通过运维知识库系统承载
RDS云数据库 云数据库RDS(Relational Database Service,简称RDS)是一种基于云计算平台的稳定可靠、弹性伸缩、便捷管理的在线云数据库服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
DCS分布式缓存服务 分布式缓存服务(Distributed Cache Service,简称DCS)是华为云提供的一款兼容Redis的高速内存数据处理引擎,可提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力,满足用户高并发及数据快速访问的业务诉求。
RDS服务最多支持5个只读副本,可在线扩展只读负载;一键规格变更实现CPU、内存扩容/缩容;在线存储容量扩容。 CCE服务支持配置自动扩容集群节点和工作负载,伸缩策略支持告警(按CPU或内存使用率触发)、定时、周期多种方式。
变更中断:假定应用支持离线更新与在线补丁,每年离线更新4次,每次更新时长30分钟,则每年更新时长为120分钟;在线补丁不影响业务。 按照以上评估,每年应用系统不可用的时长是240分钟,满足可用设计目标要求。
CodeArts由以下几个主要服务构成: 需求管理:提供需求管理与团队协作服务,内置多种开箱即用的场景化需求模型和对象类型(需求/缺陷/任务等),可支撑IPD、DevOps、精益看板等多种研发模式,还包含跨项目协同、基线与变更管理、自定义报表、Wiki在线协作、文档管理等功能。
OPS01 建立持续改进的团队文化和标准化的运维体系 OPS01-01 建立持续学习和改进的文化 OPS01-02 规划标准化的运维组织 OPS01-03 规划标准化的运维流程和运维工具 父主题: 卓越运营支柱
更多参考文档 确定性运维白皮书 父主题: 卓越运营支柱
OPS06-07 通过可观测性指标引入自动化措施 风险等级 高 关键策略 可观测与自动化运维工具联动,实现自动化的故障检测、恢复及弹性伸缩等功能,进一步提升运维响应速度和准确性,降低人为干预带来的延误,甚至错误。 父主题: OPS06 可观测性体系
OPS05-03 定义变更流程 风险等级 高 关键策略 在建立标准的变更管理流程前,清晰明白变更各个流程的定义: 变更发起:在变更发起前,需明确变更内容与变更原因等信息。信息的明确可减轻变更评估人的工作量,同时明确变更的意义。变更信息包括: 基本信息:标题、时间、变更人、原因等。
OPS05-02 进行变更风控 风险等级 高 关键策略 根据不同变更场景构建风险控制能力,通过风险数字化度量分析和评估风险影响程度,并采取风险控制措施削减或规避风险,保障变更成功。变更风险指现网各要素增、删、改及状态改变(如版本迭代、配置改变、节点扩缩容等)时引发的业务中断风险及变更失败可能导致的业务受损风险
漏洞管理服务 CodeArts Inspector:面向软件研发和服务运维提供的一站式漏洞管理能力,通过实时持续评估系统和应用等资产,内置风险量化管理和在线风险分析处置能力,帮助组织快速感知和响应漏洞,并及时有效地完成漏洞修复工作,更好地应对潜在的安全威胁。
从用量上,企业可以通过资源优化,释放闲置资源,降配等降低资源用量,或者通过离在线混部,弹性缩扩容等架构方案实现资源复用和闲时释放,也达到了资源用量的节省。费用优化、资源优化和业务架构优化代价逐步增高,对业务的影响也依次增大。
OPS05-01 进行生产准备度评审(Product Readiness Review) 风险等级 高 关键策略 Production Readiness Review 生产准备度评估基线:从SLI/SLO、可冗余、可容灾、可过载控制、可故障管理、可变更能力、可运维、安全生产等维度
通过持续演练,对架构高可用、监控、PRR 等能力做“在线验证”,实现持续性的动态风险治理。混沌演练和高可用设计共同成为系统稳定性的“双引擎”。
RES07-03 监控到异常后发送消息通知 当对应用系统监控发现应用异常后,需要向相应的人员和系统发送实时通知消息和告警,以便及时处理。 风险等级 中 关键策略 采用实时快捷的消息通知方式,以便相关人员能及时得到消息。 消息发送人员需要涵盖运维人员,以便及时恢复。 运维人员需要有备份
OPS01-01 建立持续学习和改进的文化 风险等级 高 关键策略 由于系统的独特性和复杂性,没有放之四海皆准的方案,为了达到卓越运营,需要不断改进这些最佳实践,并建立自己的最佳实践。所以,在所有最佳实践的第一条,就是在您的团队中培养持续学习和改进的文化。 而持续学习和改进需要鼓励团队沟通和共享