检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题定位出方案中 操作场景 问题单受理后,需要对该问题进行定位分析,并给出定位结果和解决方案。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进入问题详情页面,单击右上角“定位出方案”,跳转至填写问题原因及解决方案页面,填写信息后点击提交。
全旅程混沌工程方案 实践场景 某电商企业的新应用已经部署生产环境,计划正式启动接入和引流,其传统运维模式日常运维工作以被动救火为主,缺乏主动运维理念和工具能力;应用上线前无有效途径识别可用性问题,上线后可用性现状无法精确掌握,运维团队缺少故障应急能力和实战经验;希望通过混沌演练对
提交事件单解决方案 功能介绍 HandleCocIncident 处理事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num
实施及闭环变更单 操作场景 变更单审批后,按照变更方案在规定时间窗内实施变更。 操作步骤 登录COC。 在左侧菜单栏选择“变更管理 > 变更中心”,进入“变更中心”页面,待处理的变更单列表,点变更标题或操作列“处理”,进入变更详情,点“变更开始”。若变更方案关联的作业,需先执行作业;若是变更指导书,按照变更指导书步骤实施变更。
受理事件单 功能介绍 受理事件 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致。 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号,示
COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务的持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。
问题待现网实施 操作场景 解决该问题需要涉及变更实施操作。 前提条件 问题定位出解决方案详情页面,“是否需要变更”填写“需要变更”,问题单会走到待现网实施阶段。 操作步骤 登录COC。 在左侧菜单栏选择“故障管理 > 问题管理”,进入“待我处理”的问题列表页面。 点击问题单名称进
验证事件处理结果 功能介绍 验证事件单 URI POST /v1/external/incident/handle 备注:受理,提交解决方案,验证等操作URI一致 请求参数 表1 请求Body参数 参数 是否必选 参数类型 描述 incident_num 是 String 事件单号
问题流程 问题被创建后状态为“未受理”,未受理状态可对问题单受理、驳回或转发责任人。 问题受理后状态为“定位出方案中”,定位出方案中状态可对问题单填写问题定位结果信息、转发责任人、升降级和挂起。 问题单挂起后需要创建单人审核,审批通过后状态为“挂起”,挂起后问题单可手动解除挂起或到达设定的解除挂起时间自动解除挂起。
资源看板 操作场景 您可以在资源看板快速查看账号下购买的资源(例如弹性云服务器、弹性公网IP、云数据库等),以及资源当前的告警信息(在云监控服务CES配置后产生)。 资源看板 登录云运维中心。 进入COC“总览”后,可以查看对应的资源信息。 图1 资源信息 默认展示全部区域的资源
资源监控 操作场景 您可以在资源监控快速查看账号下购买资源(例如弹性云服务器、对象存储、云数据库等)的监控指标信息,如ECS的CPU使用率、磁盘读/写带宽,对象存储的存储对象总数、TPS等。 资源监控 登录云运维中心。 进入COC“总览”后,可以查看CES监控的指标信息。 图1 CES监控信息
概述 云运维中心支持对弹性云服务器 ECS、云数据库 RDS、Flexus应用服务器L实例、裸金属服务器 BMS等多种资源进行批量操作,具体操作包含批量开机、批量关机、批量重启、重装操作系统以及切换操作系统等场景。 支持场景 表1 资源运维支持的资源和场景 资源类型 批量开机 批量关机
审计与日志 审计 云审计服务(Cloud Trace Service,CTS),是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建和配置追踪器后,CT
待办中心用于记录和跟踪日常待办事务,并提供提醒功能。 在COC待办中心,您可以创建待办任务给指定人员处理,设置截止时间,填写待办任务的推荐方案,创建待办后可通过短信、邮件等方式通知责任人。 除了上述功能外,创建待办任务时还支持设置标签和添加附件。 待办任务创建成功后,责任人可以在待办中心受理和闭环待办任务。
ITSM、ITOM、专家服务相互协同,形成合力。 无需多平台间跳转,站内闭环,夯实一站式体验。 一体化解决方案 化零为整,原子化运维能力实现有机融合。 沉淀华为云运维专家经验,提供场景化运维解决方案。 安全生产、运维大脑、故障管理等优秀实践使能客户极简运维。 一朵云使用体验 构筑全场景资源管
给公司带来巨大的经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练的方式,可以在现网问题发生前识别系统的薄弱点(软件Bug、方案设计不足之处、故障恢复流程卡点等),及早发现系统可用性的问题进行解决,持续提升应用韧性,建立运维信心。对于无法避免的场景(硬件故障、服务器
理,用户可以在目标实例执行定义好的特定操作步骤。作业管理支持最多100个版本。 公共作业 公共作业是由云运维中心提供几种常见运维场景的解决方案,作业详情所有用户可见,公共作业不支持用户的增加、修改和删除。 自定义作业 自定义作业是由用户自定义创建并管理,作业包含自定义脚本、API
全方位变更管理 方案评审:支持变更方案标准化(Standard Operating Procedure,简称SOP),将变更方案明确并电子化,经评审后归档。支持规则和流程解耦,保证变更执行过程不走样,同时将变更方案沉淀。 变更审批:按照预设审批流程审批变更单,保障变更方案可靠性、时间合理性、流程合规性。
处理问题 操作场景 创建问题单后,问题责任人需受理、定位并提交问题解决方案。 受理问题 驳回问题 问题定位出方案中 问题待现网实施 升降级 挂起问题 待验证 父主题: 问题管理
补丁修复后合规性报告仍然为不合规如何处理? 单击修复后生成的合规性报告摘要 图1 合规性报告摘要 查看不合规的补丁状态,根据状态不同查看不同解决方案 表1 不同合规性状态的解决方案 不合规状态 解决方案 失败 查看生成此合规性报告的补丁工单日志,根据失败的日志解决此问题 已安装待重启 补丁已安装修复,待机器重启后生效,机器重启后扫描即可解决不合规问题