检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
中完成排班的设置。 在需要设置排班人员、获取排班人员时,您直接前往排班管理页面进行配置、查询。 已创建的排班可直接在流转规则、事件中心、自动化运维、通知管理、变更管理等运维服务中设置人员类参数时使用。 排班场景概述 排班管理中可以设置多种排班,一个排班场景即是一种排班的集合。创建
号,且为组织(organizations云服务中设置)中的管理员或者COC云服务的委托管理员时,你可以对组织内其它账号下的资源进行统一的自动化运维操作,避免多账号操作导致的人力浪费,也降低了人工操作导致的遗漏等风险。 视图是一组筛选器,用户可以自由配置筛选范围,用于在跨账号场景下访问华为云中的资源信息。
改进管理主要是故障处理过程识别到一些产品、运维或管理改进事项,可通过改进单进行跟踪闭环。运维改进事项如某应用未配置某个场景的告警规则,需补充告警规则及时发现软件产品异常。改进单来源包含事件、Warrroom、混沌演练、PRR评审。 图1 改进管理流程 父主题: 改进管理
混沌演练是什么? 混沌演练是通过主动在系统中模拟软件或硬件故障,并根据系统在各种压力下的表现行为确定优化策略的一种系统韧性保障手段。一个完整的混沌演练包括前期的故障模式分析,中期的故障注入和后期的复盘改进。 父主题: 韧性中心常见问题
云运维中心服务具备安全可靠的跨账号数据汇聚和资源运维能力,如果您的账号由组织管理,您可以在云运维中心对组织内所有成员账号进行统一的资源管理、自动化运维以及运维态势感知,而无需逐个登录到成员账号。 通过COC对组织成员账号进行跨账号管理需要执行以下操作(以A账号管理B账号为例): 如果
创建问题 操作场景 在使用软件产品过程中,发现产品功能缺陷、性能差等问题,您可以通过创建问题单进行跟踪。 问题管理支持设置通知提醒,需要在通知管理中配置通知规则,具体操作详情参考通知管理,通知类型需要选择“问题通知”。 前提条件 需要先在应用管理中创建您的应用。 创建问题 登录云运维中心。
概述 问题管理是在使用软件产品过程中,发现产品功能缺陷、性能差等问题,记录和解决应用中存在的根本原因问题。其主要目标是降低产品/服务现网故障数量,并提高服务的整体质量促进产品或应用质量的不断完善,防止问题的再次发生。问题管理包含问题单的创建、受理、驳回、转单、处理到闭环整个生命周
根据页面的运行安装命令进行手动安装UniAgent。 图4 “手动安装UniAgent”页面 步骤三:执行作业 在左侧导航栏选择“资源运维>自动化运维”,进入自动化运维页面。 在“日常运维”模块单击“作业管理”,进入作业管理页面。 单击“公共作业”页签,进入公共作业页面。 勾选“所有作业”,选择“ECS重启”,单击“执行”。
资源运维常见问题 补丁管理常见问题 自动化运维常见问题 批量操作常见问题 参数管理常见问题 资源运维权限和授权项说明
预案所属的应用 恢复时长 预期的故障恢复时长 版本号 版本号 摘要 描述应急预案主要信息 填写故障处理,应急预案类型可以选择“自动化预案”和“文档预案”。 若选择“自动化预案”,处理方式可以选择“脚本”和“作业”。 图3 故障处理 若选择脚本为处理方式,关联脚本可以选择“自定义脚本”和“公共脚本”。
自动执行 勾选是否自动执行。自动化预案、脚本、作业支持自动执行。 勾选“自动执行”后,显示“参数映射”,系统根据上方的触发条件及设置自动执行。 参数值、Region ID、和目标实例填写格式为${},需要通过该表达式解析对应的值,详细请参考自动化执行参数示例说明。 不勾选“自动执行”,单击左侧链接手动执行任务。
手动关联资源 设置“关联资源”。 表1 关联资源参数说明 参数 说明 示例 选择应用下的分组 在下拉列表中选择应用、组件和分组。 测试应用/测试组件/测试分组 资源类型 在下拉列表中选择云厂商、资源类型。 华为云/弹性云服务器ECS/云服务器 资源列表 请选择需要关联的资源。 - 单击“确定”。
统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 自动化变更率 变更管理 所有变更单中,自动化变更的占比 自动化变更数量/所有变更单数量*100% 天/月 百分比 变更趋势 变更管理 变更成功和失败的数量以及变更成功率的趋势变化
根据命名规则,自定义应用的名称。 测试应用 描述 可选参数。对应用进行描述。 - 子应用名称 仅应用结构类型选择大型应用时需要设置。 根据命名规则,自定义子应用的名称。 测试子应用 子应用描述 可选参数。对子应用进行描述。 - 组件名称 根据命名规则,自定义组件的名称。 测试组件 分组名称 根据命名规则,自定义分组的名称。
COC集成告警中心,支持将原始告警通过流转规则清洗后,在COC中创建新的集成告警。告警分配到排班或个人,明确告警责任人。支持手动清除、转事件单、自动化处理等操作。 Global WarRoom WarRoom是在发生重大紧急或群体故障,可召集故障分析成员、应用SRE等各方面专家资源组织恢复,提升协同交流、诊断定界和处理效率。
到1构建运维驾驶舱。 运维总览 资源总览 运维沙盘 人员与排班 人员管理 排班管理 资源管理与运维 资源管理 应用管理 补丁扫描与修复 自动化运维 脚本管理 作业模板与执行 定时运维 故障管理 配置和应用流转规则 标准化事件管理流程 集成告警 WarRoom机制 可用性分析 混沌演练
在左侧应用栏,选择需要修改的应用,单击。 设置“编辑应用”。 表1 编辑应用参数说明 参数 说明 示例 应用名称 根据命名规则,自定义应用的名称。 测试应用 描述 可选参数。对应用进行描述。 - 单击“确认”。 完成应用修改。 修改子应用 登录云运维中心。 在左侧导航栏选择“资源管理 > 应用资源管理”。
步骤二:创建应用 管理应用与云资源的关系,并为后续资源的监控、自动化运维等,提供统一、及时的资源环境管理服务。 步骤三:创建演练任务 针对资源预设演练方案,支持多攻击任务自由编排的故障注入组合。 步骤四:启动演练 按照已经创建的演练任务,自动化的故障注入。 准备工作 注册账号并实名认证。 在使
变更风控&作业可信 融合华为SRE安全生产最佳实践的管控模型,助力客户作业可信和稳定可靠。 全方位作业可信:构筑人员风险评估、高危命令拦截和自动化稽查能力,从事前、事中、事后逐层拦截变更风险,实现全方位运维作业可信。 AI加持风险评估:通过高危命令智能拦截算法,AI加持消减作业风险。
"inc_type_p_security_issues", "incident_title": "测试时间单号10001", "incident_description": "测试时间单号10001", "incident_source": "incident_source_manual"