已找到以下 269 条记录
AI智能搜索
产品选择
云运维中心 COC
没有找到结果,请重新输入
产品选择
云运维中心 COC
在搜索结果页开启AI智能搜索
开启
产品选择
没有找到结果,请重新输入
  • 演练任务 - 云运维中心 COC

    演练任务功能允许用户通过模拟软件或硬件故障来测试系统恢复能力。演练任务操作包括管理混沌演练任务和查看演练记录,以及创建演练任务流程。演练任务设置包括基础信息、攻击任务组添加、攻击任务选择、攻击场景选择等。此外,演练任务还涉及监控任务配置,以及演练后复盘改进,确保系统各种压力下的表现行为能够确定优化策略。

  • 验证事件 - 云运维中心 COC

    操作场景 事件单处理完成后,通过故障是否恢复或达到预计效果,验证关闭事件中填写验证结果,选择未解决可以驳回事件,驳回后需事件处理人重新定位并处理该故障。 验证事件 登录云运维中心。 左侧导航栏选择“故障管理 > 事件管理”。 “待处理”页签,选择需要处理事件单,单击事件标题。

  • 影响应用管理 - 云运维中心 COC

    影响应用管理 操作场景 故障发生时,若有应用受影响,用户可以WarRoom详情中添加影响应用。对于影响应用,可以通过应用诊断检查应用详情,通过执行预案快速恢复应用。 新增影响应用 WarRoom启动、故障定界和恢复阶段支持新增影响应用功能。 登录云运维中心。 左侧导航栏选择“故障管理

  • 概述 - 云运维中心 COC

    概述 发生群体性故障或重大故障时,为快速恢复业务正常运行,支撑运维、研发、运营联合作战,保障业务快速恢复而组建会议。可通过WarRoom添加故障恢复成员及时响应预案、通过发送故障进展及时知会关注故障的人员、通过应用诊断、响应预案等辅助应用快速恢复。 若需拉起WarRoom群组

  • 清除告警 - 云运维中心 COC

    于其他原因需要清除,可以通过清除告警功能将汇聚告警从当前告警页签清除,清除后汇聚告警可以历史告警页签中查看。 注意事项 只有责任人可以将当前告警进行清除。 告警数据留存期为31天,逾期将自动清除,包含历史告警页签数据。 操作步骤 登录云运维中心。 左侧导航栏选择“故障管理

  • 修改故障信息 - 云运维中心 COC

    修改故障信息 操作场景 WarRoom故障信息,主要是为了记录该故障发生时间、恢复时间,故障带来影响及故障原因,便于后续回溯防止故障再次发生。 WarRoom启动、故障定界和恢复、故障已恢复过程都可以修改故障信息。 修改故障信息 登录云运维中心。 左侧导航栏选择“故障管理 > WarRoom”。

  • 与会成员 - 云运维中心 COC

    与会成员主要是为了快速恢复故障,将参与故障恢复的人员拉入群组,或通过电话或短信及时通知故障恢复人员响应并处理故障。将与会人员加入群组后,可以设置管理员、恢复责任人、恢复成员。 与会成员默认管理员为创建WarRoom设置WarRoom管理员。 添加与会成员 登录云运维中心。 左侧导航栏选择“故障管理

  • 概述 - 云运维中心 COC

    能够维持正常功能和性能评估方式。韧性概念不仅仅局限于恢复能力,还包括预防问题、快速检测问题以及有效应对问题能力。 COC应用韧性评估基于华为最佳实践经验,定义了300+评估项,覆盖节点、集群、网络、容灾、容器、业务和数据等六种维度,针对以应用为粒度资源进行韧性评估,帮助

  • 标准化故障管理 - 云运维中心 COC

    择监控源,并根据相应监控源字段键,配置相应条件及满足条件值。 图6 触发规则 可在流转规则中配置对应事件或告警响应预案,可选择已有的脚本和作业作为预案。 图7 响应预案 分派规则部分,选择分派对象,最后单击下方“提交”,完成流转规则创建。 图8 分派规则 步骤

  • 同步资源 - 云运维中心 COC

    户所属所有Region下资源数据。 注意事项 触发同步资源后,需要等待同步任务执行完成,同步时间取决于同步资源数据总量,最大同步时间5分钟左右。 同步资源 登录云运维中心。 左侧导航栏选择“资源管理 > 应用资源管理”。 选择需要同步资源所在云厂商。 默认选择“华为云”。

  • 概述 - 云运维中心 COC

    传统ITIL(信息技术基础架构库)流程中面向基础设施资源管理方式,易造成各运维服务之间数据割裂、信息不一致等问题。通过云运维中心资源管理功能可以将华为云、友商云核心资源和IDC离线资源统一管理,为变更管理、批量运维等功能提供准确、及时、一致资源配置数据。 父主题: 资源管理

  • 服务韧性 - 云运维中心 COC

    COC服务提供了3级可靠性架构,通过AZ内(Availability Zone,可用区)实例容灾、多AZ容灾、数据定期备份技术方案,保障服务持久性和可靠性。 表1 COC服务可靠性架构 可靠性方案 简要说明 AZ内实例容灾 单AZ内,COC实例通过多实例方式实现实例容灾,快速剔除故障节点,保障COC实例持续提供服务。

  • 挂起问题 - 云运维中心 COC

    完成问题单挂起审批。若挂起审批通过,问题单状态为“挂起”;若挂起审批未通过,问题单状态为发起挂起时状态。 挂起恢复 挂起恢复需要问题创建人操作。 登录云运维中心。 左侧导航栏选择“故障管理 > 问题管理”。 “全部问题”页签,选择需要处理问题单,单击问题单标题。 单击右上方“挂起恢复”。 完成问题单挂起恢复。

  • 概述 - 云运维中心 COC

    人员管理为云运维中心提供了统一的人员数据管理。您可以人员管理页面管理当前华为云账号下用户,人员管理中用户从 统一身份认证服务(IAM) 同步,人员管理页面的数据作为云运维中心用户基础数据,供创建待办、定时运维、通知管理、事件中心等多个功能模块使用。 人员管理页面可以手动选择需要用户进行编辑、删除、请求订阅。

  • 概述 - 云运维中心 COC

    随着传统IT基础设施运维向云服务运维方式转变,传统运维手段面临服务间调用复杂、应用迭代速度快、海量运维对象、复杂系统非线性等挑战。业务停机都会给公司带来巨大经济损失和声誉影响。 在运维过程中引入混沌工程,通过定期进行演练方式,可以现网问题发生前识别系统薄弱点(软件Bug、方案设计

  • OS诊断 - 云运维中心 COC

    OS诊断 操作场景 OS诊断是基于华为云积累大量知识经验和特有的检测算法,通过采集少量GuestOS数据,帮您快速了解服务器整体运行状况并准确提供异常问题排查定位方法。 注意事项 OS诊断目标实例UniAgent状态需要为运行中,UniAgent相关操作请参考配置UniAgent。

  • 故障模式 - 云运维中心 COC

    故障模式是指应用在运行过程中可能出现特定类型问题或失效状态。构建丰富故障模式库,制定相应预防和恢复措施,有助于设计更加高可用应用系统。通过识别潜在故障,可以针对该故障进行日常演练,验证故障恢复措施和故障影响是否符合预期,为更好地应对各种挑战做好准备。您可以对应用可能发生故障点进行分析,通过描述故

  • 快捷混沌演练 - 云运维中心 COC

    根据命名规则,自定义演练任务名称。 期望恢复时长(分钟) 3 从故障发生到故障恢复预期时间 单击“添加一个新攻击任务,还可创建5个攻击任务”,进入添加攻击新攻击任务页面。 设置“添加新攻击任务”,设置完成后单击“下一步”,进入选择攻击场景页面。 图5 “添加新攻击任务”参数配置

  • WarRoom状态 - 云运维中心 COC

    操作场景 WarRoom启动后,处理故障过程中需查看、更新WarRoom状态,便于记录故障恢复时间节点,同时了解故障当前进展。WarRoom状态包含启动WarRoom、故障定界和恢复、故障已恢复和关闭。 WarRoom状态 登录云运维中心。 左侧导航栏选择“故障管理 > WarRoom”。

  • 运维概览 - 云运维中心 COC

    运维概览 操作场景 通过云运维中心查询、跟踪运维待办事项(事件单/汇聚告警/待办),查询账号下已纳管应用、资源等统计数据。 运维概览 登录云运维中心。 进入COC“总览”后,左上角可以查询到待处理事件、待处理告警、我待办统计数量,右侧可查看应用、资源等统计数据。 图1 运维事务跟踪