检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
实时监控容灾状态,了解容灾运行状态。 支持应用级数据校验,比较AZ间数据同步差异,监控及PO指标。 典型确定性故障场景下自动容灾或切换,无需人工接入,业务不受影响,满足RPO/RTO指标。 典型亚健康故障场景,支持业务降级或主动切换,业务不持续受损。 相关云服务和工具 多活高可用服务 MAS
此外也可以使用DevOps模式,由开发工程师直接运维系统,而保留一个小而精干的卓越运营使能团队,用于负责组织整体的卓越运营流程改进和相应的流程工具落地。 无论如何设立组织,应该确保具有一个整体的流程,在流程中的每个团队和成员都有自己明确的责任。 同时可以使用明确的方式(如收集运营/运维数据)分析团队工作
生时,能够迅速、有序地采取行动,最大限度地减少损失,并尽快恢复正常运营。 风险等级 高 关键策略 建立事件响应计划,包括定义事件级别、响应流程和恢复策略。对服务可用性有影响或者租户可感知的安全事件划分为5个等级,S1/S2/S3/S4/S5。 实施持续的监控,包括云环境的日志、网
提供丰富的故障模式库,通过混沌实验编排攻击目标、攻击策略进行故障注入,支持添加背景流量和资源监控,同时在故障注入能力的基础上,通过体系化的流程和规范来创建故障演练,从而验证和提升系统可靠性和技术团队应急响应能力。 父主题: 卓越运营云服务介绍
针对常见问题现象,提供标准化的应急恢复指导,以便在出现问题后,可以有序的完成恢复操作,避免操作失误。 风险等级 高 关键策略 需要覆盖常用典型场景。 应急恢复需要有标准的操作流程和动作,确保在事件发生时,相关干系人都能够明确自身职责和所需要采取的措施。 每个恢复操作动作必须明确无歧义,可指导操作人员。 相关云服务和工具
恰当的密钥管理方式,强密码算法也无法保证系统的安全。密钥的安全管理包括密钥的生成、传输、使用、存储、更新、备份与恢复、销毁等完整的生命周期流程。 风险等级 高 关键策略 生成密钥: 分层管理密钥。最少把密钥分为两层,即:根密钥和工作密钥,根密钥为工作密钥提供加密保护。 使用安全的
COST05-01 分析业务趋势和优化收益 风险等级 高 关键策略 云成本是一个综合工程,也是一个定期审核、回顾和执行的流程,除了考虑优化带来的收益以外,还需要考虑相关成本,例如,因为优化带来的人员和时间成本。 为了降低整体成本,优化的工作量必须与潜在的节省额成比例。优化可以从应用占成本的比例考虑。
太多的消息堆积在队列中会造成内存负载过高,为了释放内存,RabbitMQ 会把消息转存到磁盘,转存过程会耗费大量时间,造成消息处理速度下降或直接阻塞生产流程。因此队列中堆积过多的消息容易对 broker 产生负面效应。除此之外,如果节点崩溃后重启,过多的数据会使得重建索引需要消耗大量时间,集群模式下的节点间同步数据也会非常耗时。
容错能力。 VPC Endpoint 在 VPC 与华为云服务之间建立连接,而无需将数据暴露于互联网;提供性能更加强大、更加灵活的网络。 接入网络 (用户<->PoP) DNS 提供高可用,高扩展的权威DNS服务和DNS管理服务,将最终用户路由到互联网应用程序的可靠且经济高效的方法。
该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库的分层部署架构。 该应用系统在华为云一个Region两个AZ中各部署一套,提供同城容灾能力。 接入层(外部GSLB):通过外部GSLB进行域名解析与流量负载均衡,在单个AZ故障时自动将业务流量切换到另一AZ。 应用层(负载均衡器、应用软
关键策略 蓝军从第三方角度发掘各类脆弱点,并向业务所依赖的各种软硬件注入故障,不断验证业务系统的可靠性;而红军则需要按照预先定义的故障响应和应急流程进行处置。 演练结束后,建议针对故障中的发现、响应、恢复三个阶段的时长和操作内容进行复盘,并梳理改进点进行优化,提升业务系统的稳定性。 父主题:
用以帮助企业利用华为云平台基础设施达到高可用、面向各种故障场景进行韧性设计,并具备一定的灾备能力;同时通过规范化变更、部署及应急恢复等处理流程,减少业务中断时长,提升可用性。 安全性支柱: 旨在确保业务的安全、可信、合规,通过一系列华为云架构的最佳实践保护工作负载免受各种安全威胁
双DC专线冗余:用户数据中心与华为云VPC之间采用两条DC专线互通;其中两条物理专线接入同区域的两个华为云专线接入点,并通过BGP路由协议接入同一个VPC,用户可设置虚拟接口的优先级以决定业务的主备链路。具体的方案参见“用户通过双专线双接入点BGP协议访问VPC”。 双VPN冗余:用户数据中心与华为云
自动化是沉淀运维经验,建立标准运维最重要的一环,通过自动化,可以避免人为错误,标准化流程并提高效率。 即使在部分自动化流程中依然需要人工干预,例如决策点。在决策点前的自动化流程依然可以确认人员权限,向人员提供必要的上下文和信息,以便做出明智的决策,比之纯手工流程,最大程度避免了错误。 通过可观测性进行持续改进 可
涵盖安全运营、安全架构、安全合规等不同领域的专业人员,以确保综合性的安全管理。 制定安全政策和流程:制定详细的安全政策和流程,明确安全管理的标准和规范。团队成员应遵守这些政策和流程,确保安全管理的一致性和有效性。 建立应急响应计划:开发和测试应急响应计划,以应对安全事件和紧急情
您是否按照成本优化的需求,规划了相应的组织机构和流程? 1. 规划企业组织,将组织结构,流程和成本管理相匹配 2. 规划IT治理体系,提高管理效率 3. 明确团队责任,建立和维护成本意识文化 4. 指定云资源管理策略和相应的权限管理机制 COST02 您是否有预算规划管理机制? 1.建立云预算与预测流程 2.精细化预算管理和跟踪
业务挖掘分析难:日志数据无法直接写入DLI,需投递到Kafka后,再被DLI消费,链路长,且成本高 解决方案: 业务价值: 端侧日志全面采集接入,自定义域名上报:集成LTS提供的多端SDK,全面采集端侧日志,接入LTS,且支持上报服务端域名自定义,在用户面保持了业务一致性与合规性,降低了问题定位复杂度,提升了运维效率
践应该得到广泛地传播,对已有事故的分析,应该得到记录,确保相关根因都得到充分理解,尤其重要的是制定有效的标准化流程/自动化工具来降低事故再次发生的可能性和影响,这些流程和自动化工具,也需要广而告之,以向团队解释清楚缘由。 父主题: OPS01 建立持续改进的团队文化和标准化的运维体系
和验证成本,应用的复杂性和优化变更的难易程度。同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可以启动流程,对它们进行评估,以优化您的工作负载成本。 父主题: COST05 优化指定策略和目标
用户输入HQL,Hive将HQL进行词法解析,语法解析,之后生成执行计划,并对执行计划进行优化,最后提交任务给YARN去执行。所以Hive的调优分为以下几个部分: 接入层:主要包括用户的连接性能,如网络速度、认证、连接并发数。 HiveServer:以SQL的优化为主,执行计划是SQL优化的主要手段,通过