检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作人按照Runbook执行此步骤 确认人进行复合确认 确认人复核确认后,及时通报给引导员(注意:若一个步骤涉及多个确认人,为了方便引导员实时查看执行进展,确认人确认完毕后,将自己的完成状态登记在在线共享文档中) 如此循环,直到在引导员的引导下完成所有步骤的执行 演练结束后,操作人和确认人要及时记录操作过程中的问题,为演练复盘做准备。
为企业内部提供云技术方面的培训、咨询和支持,帮助各部门更好地理解和应用云技术。 管理云平台和资源: 负责管理云平台的日常运营,包括资源分配、成本控制、性能监控等。 推动云最佳实践: 负责推广云最佳实践,例如 云采用框架CAF和卓越架构技术框架WAF,帮助企业构建高效、可靠、安全的云基础设施和应用系统。
应用心跳检查脚本放在执行机 是 否 日志系统检查 运维团队 检查ELK日志平台,是否能承受大量应用启动时产生的大量日志 是 否 告警监控系统检查 运维团队 监控系统是否正常 是 是 磁盘无用信息清理 运维团队 生产环境检查磁盘使用情况,提前执行脚本批量清理磁盘 是 是 操作指导书、工具、终端和登陆平台准备
中间件层停服(消息消费完) 5~30 1、提前关停非核心业务,减少消息量 2、统一监控平台,减少检查时间 - - - 应用测试 15~60 1、测试用例自动化 2、只测试核心测试用例 数据层停服(停写检查) 5~10 1、统一监控平台,减少检查时间 - - - 流量切换 1~5 1、通过API接口调用或脚本批量操作,减少操作时间
财的管理:多账号环境下对资金、预算、成本、发票、折扣等进行统一管理; 物的管理:多账号环境下对计算、存储、网络、数据、应用等云资源进行统一运维、监控和管理; 权的管理:多账号环境下对云资源的访问权限进行统一管理,确保访问权限符合最小授权原则; 法的管理:多账号环境下对安全合规进行统一管
资源。 降低运维成本: 云服务商负责IT 基础设施的维护和管理,企业无需投入大量人力和资金进行IT基础设施的日常运维。而且云平台提供了智能监控系统和自动化运维系统可以大幅提升应用系统的运维效率,企业可以减少在应用系统运维领域的人力投入,进一步降低了运维人力成本。自动化运维也降低了人为错误的风险,从而减少纠错成本。
等。这些存储系统提供高可靠性、可扩展性和容错性,以支持大规模数据的存储和访问需求。 大数据计算: 大数据计算是对海量数据进行分布式、并行和实时处理的关键环节。主要的计算框架包括Hadoop、Spark、Flink等,它们支持分布式计算模型和任务调度。通过这些计算框架,可以进行数据
源使用,从而实现成本节约。 更有效的预算管理:财务人员将云支出分配到具体的预算类别中,使得制定和调整预算更加科学合理。同时,也可以更容易地监控实际支出 更透明的费用分配:对于多部门或多项目的公司,标签使得将成本直接关联到相应的部门或项目,确保了费用分配的公正性和透明度。这不仅有助
持续安全运营(Continuous security operation) 安全防护三分在于技术,七分在于运营。只有不断优化安全管理流程、持续安全运营、持续监控和评估云环境的合规性,才能保障业务系统的长期安全稳定运行。 木桶原则(Barrel Principle) 安全是一项系统工程,适用木桶原则
失会导致云资源的使用缺乏管控,成本失控,安全风险增加。由于缺乏专业的治理策略和措施,企业难以满足合规性要求,面临法律风险。此外,缺乏有效的监控和管理机制,无法及时发现和解决问题,影响业务稳定性。 关于如何建立一个功能完整的CCoE团队,请参考章节 云卓越中心 。 没有搭建Landing
修改两边的配置,使源端应用层指向源端和目标端的中间件层/数据层,目标端的应用层指向源端和目标端的中间件层/数据层,实现双写。注意:双写的数据一致性由应用逻辑保障; 实时对比源端和目标端数据一致性; 历史数据迁移至华为云数据层; 修改外部DNS域名解析地址,将外部流量从源端切换到华为云。 图1 不停服切换方案
Service 对象存储服务 OLAP Online Analytical Processing 在线分析处理 OLTP Online Transaction Processing 在线事务处理 Opex Operational expenditure 运营支出 PaC Policy
源。大型业务系统能够包含多个子系统。 IT管理系统:为了支撑业务系统的长期安全稳定运行所建立的IT支撑和管理系统,如安全运营中心、IAM和监控运维系统等。 子系统:大型业务系统或IT管理系统通常包含多个相互解耦且相互关联的子系统、功能模块或微服务,这些子系统相互协作,共同实现整体系统的功能。
成本:成本设计的目的是为了在保证应用性能、可用性、安全性的前提下,尽可能地降低部署和运维的成本。 可运维性:可运维性设计的目的是提高系统的可维护性(包括自动化部署、监控告警、日志分析、容量规划、故障排查等),保障系统在运行时的状态可视化,故障时的快速恢复。 其中安全性、成本和可运维性这三个设计要素是全局的
验标准。 交易类是核心数据,日志类是非核心数据 数据更新频率 针对不同的刷新周期,制定数据的迁移计划和校验计划。 日刷新/周刷新/月刷新/实时更新 任务执行区间 让数据迁移、数据校验和业务高峰期错开。 离线任务上班前和下班后执行 调研的方法主要是通过当前大数据平台获取,并辅助一些调研访谈进行补充和确认。
可靠;CSS云搜索引擎服务可以跨AZ集群部署,单AZ的故障不影响业务运行; RDS for MySQL采用主备部署方式,主备实例之间的数据实时同步,如果主实例出现故障,备实例可以快速升为主实例; Redis、Kafka、CSS云搜索、RDS for MySQL都支持把数据备份到OBS桶,应对数据误操作之后的风险;
GoReplay是一个用于复制、重放和操作HTTP流量的开源工具。它可以捕获实时流量,并将其发送到一个或多个目标服务器,从而实现流量的复制和重放。通过GoReplay,可以将实际的HTTP请求和响应流量复制到测试、开发或生产环境中,以便在这些环境中进行测试、监控和分析。在上云迁移过程中,我们可以使用GoRep
间的网络可以连通,华为云基于以下假设并根据各个账号的职责梳理各个账号下VPC之间的连通性矩阵,据此则可以在ER上设置对应的路由规则。 运维监控账号需要运维第三方云和本地DC中的资源; 安全运营账号需要到公网获取系统补丁包; 数据平台需要获取第三方云和本地DC的数据; DevOps
同时,统一的网络管理还能提高数据传输的效率,保障各部门之间的信息交流畅通无阻。 集中运维管理:借助AOM和COC等服务所提供的多账号统一监控和运维管理功能,所有业务单元的云资源的运维工作可以交给中心IT部门负责。通过建立标准化的运维流程和规范,对云资源的性能监测、故障处理、升级
应用架构和数据架构。 CTO、云架构师 技术 运维视角 基于云平台和云服务的特点构建完善的云上IT运维体系,针对IT基础设施和应用系统进行监控、告警、故障定位和故障修复,保障IT基础设施和应用系统的长期稳定运行。 CTO、IT运维专家、应用运维专家 技术 安全视角 基于云平台和云