检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
风险分析:分析应用架构,找出风险点。 应急预案:针对风险点,制定应急预案。 故障演练:针对风险分析的结果和应急预案,制定演练方案,进行故障演练。 复盘改进:演练完成后,对演练进行复盘总结,输出演练报告和改进事项。 核心优势 首创基于容错视角的故障场景分析方法(FT-FMEA),逐步内置故障模式300+; 支持
问题描述:必填,具体描述问题现网和对现网的影响,支持上传附件 问题来源:非必填,填写问题来源,来源包含事件、告警、WarRoom和主动运维发现。若是处理事件发现的问题则选择事件。 问题发生时间:非必填,填写当前问题发生的时间 问题应用:必填,选择该问题的归属应用 问题级别:必填,选择
以快捷执行作业及快捷混沌演练为例,帮助您快速了解COC在典型场景下的操作方法。 快速入门 快捷执行作业 快捷混沌演练 04 API 您可以使用本文档提供的API对COC进行相关操作,例如脚本工单的查询、自定义脚本的增/删/改/查/执行等。 API文档 API概览 如何调用API 脚本管理API
断要求。 图2 选择实例 在“创建OS诊断”页面,勾选“同意安装插件并采集数据《GuestOS诊断服务前端数据授权》”,单击“提交”。 图3 勾选授权协议,提交诊断 诊断按步骤正在进行中。 图4 正在进行诊断 诊断完成,查看诊断报告。 图5 诊断报告 父主题: 诊断工具
快速配置中心 COC快速配置中心面向华为云全局云服务提供场景化的集中配置入口,通过最佳实践的极简配置实现多区域、多账号、定时的自动化操作,为后续运维降低操作门槛。 操作场景 通过快速配置中心进行不同场景资源的快捷配置。 云运维中心配置 登录COC。 进入COC“总览”后,可以看到快速配置中心。
步骤一:同步资源 获取当前用户所属的所有Region下资源数据并同步至云运维中心。 步骤二:安装UniAgent 给对应机器资源安装UniAgent,用于云运维中心与下层的业务、主机之间的信息交互。 步骤三:执行作业 通过云运维中心,租户可以操作ECS以自动化的方式执行作业。 准备工作 注册账号并实名认证。
单击“+添加实例”,选择待执行实例的区域,根据实例名称、UniAgent状态等条件筛选并选中目标实例,单击“提交”。 图6 选择目标实例 选择“分批策略”: 自动分批:用户选择的待执行机器,会根据默认规则,分成多批。 手动分批:用户可以根据自身需要,将待执行的机器,分成若干批,控制机器所在的批次。 不分
随着传统IT基础设施运维向云服务运维方式的转变,传统的运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务的停机都会给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计
集成管理 支持用户自主接入告警数据 功能介绍 支持租户将自开发的监控系统按照标准化集成至COC,集成后告警会按照标准格式上报至COC告警中心 URI POST /v1/event/huawei/custom/{integration_key} 表1 路径参数 参数 是否必选 参数类型
问题单受理后,在定位阶段若需要创单人协助提供数据或其他信息;问题实施阶段变更需要审批等场景。支持问题处理人挂起问题单,问题单挂起后需要创建人审批。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面
排班管理为云运维中心提供了统一的、多维度、多形式、可自定义的人员管理模式。您可以在排班管理对排班场景进行管理,并将“人员管理”中的人员添加到排班中完成排班的设置。 在需要设置排班人员、获取排班人员时,您直接前往排班管理页面进行配置、查询。 已创建的排班可直接在流转规则、事件中心、
启动WarRoom 操作场景 重大事件需启动WarRoom攻关,进行拉会处理事件,事件可快速恢复。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 事件管理”,选择“待处理的”页签,单击事件标题进入“事件详情”页面。 图1 进入事件单详情 单击“启动WarRoom”。 图2
流转规则 流转规则 租户创建的流转规则个数≤50个。 集成管理 数据记录 COC保存集成数据源的最近10次数据记录。 人员管理 人员数量 租户创建的人员个数≤50个。 排班管理 排班角色 单个排班场景下的排班角色≤10个。 帐号管理 资源类型 目前支持纳管的资源类型: 弹性云服务器 ECS
集成管理 本文介绍如何集成监控源。 操作场景 每个监控源的集成配置都有独立的集成接入步骤,需要单独接入,各监控源的详细步骤可查看集成接入中各监控集成说明。 操作步骤 该步骤主要介绍华为云监控系统、开源监控系统的接入步骤 登录COC。 在左侧导航栏选择“故障管理 > 集成管理”,进入“集成管理”配置页面。
区域和计划演练时间 ,单击“确认”,即可完成演练规划的创建。 图2 创建演练规划 演练规划指定的执行人在演练规划列表操作项里单击“接单”,进入创建演练任务页面,演练任务关联选择的故障模式和区域。并且可以对后续的演练任务进度进行跟踪。 图3 通过演练规划接单进入创建演练任务页面 父主题:
查看账号名 执行区域:执行的目标对象所在的区域 委托名称:IAM中委托对象的名称 图8 获取委托名称 项目ID:IAM中的项目概念,执行的目标对象所在的项目的ID 图9 查看项目 图10 获取项目ID 填写执行基本信息,包含执行描述和标签。可按照标签管理中的步骤创建标签。 图11 填写执行基本信息
帐号管理 账号管理为用户提供针对华为云ECS、RDS、中间件等资源实例的人机帐号密码集中管理能力。多种帐号进行统一收口,避免多资源帐号密码易遗忘、多人知晓密码信息易泄漏等风险,用户可通过帐号管理来获取主机密码 图1 资源帐号管理流程 按照资源帐号管理流程完成相关配置后,方可从帐号管理页面获取到主机密码。
直连接入(内网):华为云主机,使用直连接入(内网)的方式。 直接接入(公网):非华为云主机,使用直连接入(公网)的方式。 代理接入:通过选择已配置代理机的代理区域,使用代理接入的方式远程安装UniAgent。 直接接入(内网) 代理区域 当接入方式选择代理接入时,需选择代理区域。 代理区域是对代理机的分类管理;代理
补丁合规性报告详情摘要 补丁合规性扫描或修复后用户可单击合规性报告详情摘要查看实例上的补丁详情。 操作场景 通过Cloud Operations Center查看补丁合规性扫描以及修复的结果。 注意事项 补丁合规性报告只会保留最近的一次扫描或修复记录。 操作步骤 登录COC。 在左侧菜单栏中选择“资源运维”,单击“自动化运维”
填写变更方式 1、变更类型 常规变更(指非紧急、能通过正常程序化的申请、评估、批准、排序、计划、测试、实施和回顾的变更); 紧急变更(为了处理生产环境不可用、紧急满足业务需求而提出的计划外变更,或者来不及走正常流程进行评估审批的变更) 2、变更级别:A级>B级>C级>D级 3、变更场景:支持用户根据业务情况自定义配置