检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
OPS07-03 支持事件管理 风险等级 高 关键策略 事件(incidents)是需要干预的事情。当发生事故(incidents)时,通过流程来处理。如何与团队沟通活动的状态?谁负责响应处置?使用哪些工具来缓解该事件?这些都是流程中需要回答的问题,并需要获得可靠的响应过程。流程必须中心化,并
支持业务运行状况、成功指标的检查,在发生故障时告警;支持ECS、DCS、Kafka、RDS、DDS等实例负载状态及资源故障切换等的监控,在负载超过阈值或状态异常时告警。 弹性扩缩容 支持自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可通过AS监控负载随时添加和移除ECS实例来扩展应用系统的服务能力;针对RDS
流(例: 决策点),也可以从自动化中受益。 风险等级 高 关键策略 优先考虑从自动化中受益最多的任务: 专注于高度程序化且容易出现人为错误的任务:这些任务被明确定义,高度自动化,没有增加复杂性的变量,并且作为正常路径的一部分执行。示例包括:重新启动服务器、创建帐户以及将日志传输到
需要在计划采用云服务时尽早考虑安全性。 云安全治理策略包括安全团队、安全基线、安全资产、安全建模以及核心的安全控制点。企业需尽早规划和思考如何使用云技术和云服务来实现安全治理的现代化,并通过实施合理的云安全策略,实现云上业务系统的安全、合规。 SEC01-01 建立安全管理团队 SEC01-02
务流量切换到华为云。 应用层(负载均衡器、应用软件及虚拟机或物理主机):对于无状态应用,通过负载均衡器进行故障检测与负载均衡,在华为云上可通过AS弹性伸缩服务监控负载进行弹性伸缩;对于有状态应用,通过SDRS服务实现跨云的虚拟机数据复制与容灾切换,并可通过CBR服务进行自动数据备份。
选择解释性语言(nodejs、python)而不是编译型语言(java、go)。 精简函数代码包,满足其运行时需要即可。 这将大辐减少在调用前从华为云 OBS下载代码包所花费的时间。 FunctionGraph函数调用华为云其他云服务资源时(例:dis、obs),如果选择对应云服务s
9%的可用性,则在容灾到华为云后,能提供99.99%的可用性。 跨云应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用虚拟机或容器(以容器为例,华为云采用CCE),后端数据库通常要求采用通用MySQL数据库(华为云采用RDS for MySQL),以实现跨云双活容灾。
进行站点运行状态检查,在发生故障时告警;针对ECS、RDS实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 针对内部用户场景,资源足够,无需自动弹性伸缩;针对ECS,通过ELB实现ECS实例的故障检测与负载均衡,并可根据ECS监控情况随时添加和移除ECS实例来扩展应用系统的服务能力;针
、纵深防御和合规遵 从的基础设施架构,用以支撑并不断完善涵盖了 IaaS、 PaaS 和 SaaS 等具有优良安 全功能的常用云服务。 确定性运维体系建设 IT运维行业正在面临着颠覆性的变化,我们正在从保障设备稳定的防守型运维转向支撑业务敏捷的进攻型运维,从关注自身网络转向关注客
PERF06-01 分层看护 风险等级 高 关键策略 基于业务的部署架构,一般可以从最底层的硬件基础设施到最上层的应用分成5层资源,云上服务可以只需要关注虚拟网络、实例、应用三层。结合每一层资源的特征指标进行分层建模,分别设置不同梯度的性能看护指标。通常按照指标劣化程度可以设计成
可能会影响业务,时间在半分钟内。 数据备份和恢复 DCS支持将当前时间点的实例缓存数据备份并存储到OBS中,以便在缓存实例发生异常后能够从备份数据进行恢复。DCS实例支持定时和手动两种备份方式,定时备份频率以天为单位,最多保存7天,但至少会保留一个数据备份文件;手动备份由用户触
COC: 作业管理:提供用户自定义作业的创建、修改、删除以及在目标虚拟机上执行自定义作业的能力。通过该功能,用户可以通过自定义作业在目标实例(目前支持ECS)上执行操作。 变更中心:支持承载变更流程管理业务,以变更工单模式,从变更的申请、审批、执行三个大环节管控变更业务,为变更人员、变更管理人员提供统一管理平台。
能确定为系统性能下降的早期警告信号,如系统处理的API数量及成功率,相比CPU利用率、内存利用率等基础指标,能更真实的指示系统性能问题。 从可用性保证出发,结合有效性和简化,建议应用系统至少从业务状态、服务状态、资源状态三个层面进行监控。根据业务规模,可以使用CES服务(侧重在I
磁盘容量使用率 该指标为从Kafka节点虚拟机层面采集的磁盘容量使用率。 broker_cpu_core_load CPU核均负载 该指标为从Kafka节点虚拟机层面采集的CPU每个核的平均负载。 broker_memory_usage 内存使用率 该指标为Kafka节点虚拟机层面采集的内存使用率。
止异常行为。 安全生产 安全生产目的是为了持续保障现网“安全、稳定、高质量”,从人员、工具、产品能力、流程规范等方面在安全预防、过程监控、结果稽查等维度进行端到端管理,减少或防止现网故障的发生,其中如何防止异常行为导致的事件是安全生产的重要目标。 故障快速恢复 故障快恢是以故障模
提供Grid迁移功能,以便在增加/删除Grid业务单元时,可以快速调整分区键对应的Grid业务单元。典型处理过程如下: 从分区键对应的旧位置拷贝数据到新位置。 更新Grid路由层路由,使分区键重定向到新位置。 从分区键旧位置删除数据。 Grid代码部署与更新: Grid代码部署可与跨AZ、跨Region结合,通过多层隔离,减少故障影响范围。
应用身份管理服务 OneAccess:为云提供的应用身份管理服务,具备集中式的身份管理、认证和授权能力,保证企业用户根据权限访问受信任的云端和本地应用系统,并对异常访问行为进行有效防范。 资源治理中心 RGC:提供搭建安全、可扩展的多账号环境并持续治理的能力。 资源访问管理 RAM:
将大多数场合在一起使用的功能组合在一起,以减少调用的交互次数。 本模式要求将组合调用居多的一些子功能,合并起来使用。聚合这个模式要求尽量将相关或紧耦合的功能放到一个对象中,使用本地接口,避免在外部接口或重开销的接口(如CORBA接口),呈现小粒度对象。聚合模式使用更粗粒度的对象,经常被访问的数据应当组合成一个聚合物,
此外也可以使用DevOps模式,由开发工程师直接运维系统,而保留一个小而精干的卓越运营使能团队,用于负责组织整体的卓越运营流程改进和相应的流程工具落地。 无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收集运营/运维数据)分析团队
华为云责任:华为云提供高可用的基础设施,包括运行华为云服务的硬件、软件和机房设施,并确保服务可用性满足SLA服务等级协议。 客户责任:客户可以从华为云选择合适的产品并进行可靠性配置以符合应用韧性目标,并参考本白皮书中的设计原则与最佳实践,充分考虑各种异常场景的检测和恢复能力,来构建高可用应用系统。