检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障模式和演练任务的关系? 故障模式是对云应用进行评估,识别风险,是混沌演练的前提,演练任务将不同的攻击场景组合起来,使用故障注入来模拟对应的故障模式。 父主题: 韧性中心常见问题
ecs:cloudServers:stop 资源运维中批量关闭云服务器 批量重启云服务器 ecs:cloudServers:reboot 资源运维中批量重启云服务器 批量启动云服务器 ecs:cloudServers:start 资源运维中批量启动云服务器 切换弹性云服务器操作系统 ecs:cloudServers:changeOS
不同的攻击场景。先填写攻击任务名称,攻击目标来源分为弹性云服务器 (ECS)和云容器引擎 (CCE)。如果选择弹性云服务器 (ECS),则在下方列表里选择对应的机器,单击“下一步”。 图12 选择攻击目标为弹性云服务器 (ECS) 选择攻击场景并填写场景的攻击参数,单击“完成”即
从风险识别、应急预案管理、故障注入到复盘改进的端到端演练流程。承载华为云SRE在混沌演练上多年的最佳实践,使客户能对云上应用主动地进行风险识别、消减和风险验证,持续提升云应用的韧性。 镜像与武器版本支持声明 COC混沌演练新增了裸金属服务器(BMS)和Flexus应用服务器L实例
故障模式是指应用在运行过程中可能出现的特定类型的问题或失效状态。构建丰富的故障模式库,制定相应的预防和恢复措施,有助于设计更加高可用的应用系统。通过识别潜在的故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。 操作场景 您可以对应用可能
变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。 风险评估:基于场景规则、流程规则、业务规则对变更进行管控,提前识别和拦截变更风险;通过变更日历实现变更冲突检测,降低服务间变更依赖导致的变更风险。 实施保障:按预定方案执行变更,变更步骤标准化、可观测,变
改进管理 改进管理主要是故障处理过程识别到一些改进事项可通过改进单进行跟踪闭环。改进来源包含事件/Warrroom/演练/PRR。 改进管理 父主题: 故障管理
问题管理 问题管理主要是对应用的所有问题单进行管理,通过识别故障的实际和潜在原因、管理规避方案和已知错误,来降低故障再次发生的可能性和影响性。包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周期管理。问题单来源主要有人工创建与北向接口创建。 问题管理同时支持配置SLA规则,若需配置请参考基础配置-SLA管理。
作业控制编排成自定义作业。 定时运维:定时运维向客户提供了定时或周期性的向特定实例执行特定脚本或者作业的功能。 核心优势 动态识别:OS合规性风险动态识别。 资源自动发现和纳管。 安全生产:执行运维操作时,自动分批、爆炸半径评估等。 自动预警:短信、邮件、企业微信等自动通知。 前提条件
资源总览 提供用户查看所购买资源(包含弹性云服务器、弹性公网IP、云数据库等)的能力。 操作场景 通过Cloud Operations Center查看资源(包含弹性云服务器、弹性公网IP、云数据库等)。 操作步骤 登录COC。 进入COC“总览”后,可以查看对应的资源信息。 图1
操作场景 通过Cloud Operations Center查看资源拓扑关系。 注意事项 目前仅支持查看弹性云服务器(ECS)、MapReduce服务 (MRS)、裸金属服务器 (BMS)、云容器引擎 (CCE)以上四种资源的拓扑关系。 操作步骤 登录COC。 在左侧菜单栏选择“资源管理
at脚本,并对脚本内容进行高危命令校验。 脚本内容首行自动添加的解释器,例如#!/usr/bin/python需要用户的机器让有python的软链接,若缺乏软链接,需要用户自行修改解释器,适配为机器可执行的解释器。 图3 录入脚本内容 单击“校验高危命令”,可对脚本内容进行高危检测。
Center创建一个攻击场景为自定义故障的演练任务。 注意事项 由于自定义故障完全由您编写的脚本决定,所以在使用脚本对弹性云服务器 (ECS)进行攻击时,可能会导致资源使用率飙高、网络发生故障等异常现象,从而存在将弹性云服务器 (ECS)上已安装的UniAgent状态变成离线/异常的风险,请悉知。 创建自定义故障 通过Cloud
中心的作业管理功能可以为用户提供自定义作业的操作以及在目标虚拟机上执行作业的能力。您可以通过该功能对目标实例(目前支持弹性云服务器ECS和裸金属服务器BMS)执行操作。 本章节介绍如何通过云运维中心操作一台ECS执行重启作业。 操作流程 操作步骤 说明 准备工作 注册华为账号并实名认证,开通云运维中心。
更导致故障以及紧急告警呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。 图3 运维总览 表1 运维总览数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位
20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18
20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18
同步资源 提供用户同步资源的能力,资源数据支持页面的条件过滤及字段显示控制。 资源:用户可以在云平台上使用的一种实体。例如:弹性云服务器(ECS)实例、云硬盘(EVS)磁盘、虚拟私有云(VPC)实例等。 同步资源操作:需要当前用户具有rms:resources:list权限。该权
和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CTS可记录COC的管理事件和数据事件用于审计。 CTS的详细介绍和开通配置方法,请参见CTS快速入门。 日志 用户开通云审计服务并创建和配置追踪器后,CTS可记录与云运维中心服务相关的操作事件。 详细的操作列表以及查看方法,请参见查看审计日志。
llOS 授予重装弹性云服务器操作系统的权限。 coc:instance:changeOS 授予切换弹性云服务器操作系统的权限。 coc:instance:start 授予启动云服务器的权限。 coc:instance:reboot 授予重启云服务器的权限。 coc:instance:stop