检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
演练结束后需要对恢复过程进行回溯,并优化应急预案。 相关云服务和工具 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES12 应急恢复处理
RES03-01 集群跨AZ部署 RES03-02 跨AZ数据同步 RES03-03 对接容灾仲裁,支持自动切换 RES03-04 支持容灾管理 父主题: 高可用设计
的可用性和可靠性。 相关云服务和工具 MAS多活高可用服务灾难演练:支持同城跨AZ灾备/双活、两地三中心及异地多活等场景下的业务高可用容灾管理、工作流编排及演练切换功能。 父主题: RES11 可靠性测试
、调查等。 优先级与分级:根据事件的严重性和紧急程度,定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)、UEBA(用户和实体行为分析)等工具,对网络、系统、应用程序和用户活动进行实时监控。 智能警报:当检测到符合预定义触发条件的事件时,自
Service,以下简称OBS)创建存储桶,然后将原始数据同步保存至OBS,以保存更长时间。 资源分组:资源分组支持用户从业务角度集中管理其业务涉及到的弹性云服务器、云硬盘、弹性IP、带宽、数据库等资源。从而按业务来管理不同类型的资源、告警规则、告警记录,可以迅速提升运维效率。 站点监控:站点监控用于模拟真实用户对远
流量过载时支持功能逐步降级。 被依赖项本身的功能受损时,提供缺省处理,以便应用系统仍可继续正常运行;由于缺省处理可能与实际配置有差异,此时需要告警以便通知系统管理员解决问题。 父主题: RES08 依赖减少与降级
弹性扩展、便捷管理等特点,适用于互联网应用、工业数据采集等场景。 GeminiDB Mongo接口:GeminiDB Mongo 接口是一款基于华为自研的计算存储分离架构,兼容MongoDB生态的云原生NoSQL数据库。具有企业级性能、灵活弹性、高可靠、可视化管理等特点,广泛应用于游戏应用等场景。
加解密算法、异常处理、IO操作、文件上传、序列化、输出格式化等。 对于在Web应用场景使用的语言如Java、Python,还要考虑安全会话管理、防SQL注入、防跨站脚本攻击XSS、防跨站请求伪造CSRF等编码规范。 对于C/C++语言,要考虑缓冲区溢出漏洞、命令注入、危险函数、内
问题和检查项 问题 检查项/最佳实践 PERF01 如何确立流程与规范? 全生命周期性能管理 应用性能编程规范 PERF02 如何进行性能规划? 定义性能目标 容量规划 PERF03 如何进行性能建模? 选择合适类型的计算云服务 选择合适规格的虚拟机和容器节点 使用弹性伸缩 选择合适类型的网络云服务
成本的平衡。 相关服务和工具 华为云支持您按照组织规划的方式分配成本。随着云服务的使用,规划的组织方式也会随着云服务的费用生成,体现在账单管理、成本分析等可视化工具的数据中。 您还可以使用成本单元,综合多种条件(产品类型、账单类型、关联账号、企业项目、成本标签),自定义规则,将成
应和疲于应付的工作状态,效率低下,人为失误多,故障处理难度大。标准化运维体系是对有效经验总结后,运维活动例行化的高效管理。通过对运维活动的标准化、流程化和工具化管理,实现从无序向有序演进,达到运维操作团队运作“最佳秩序”,简化运维交付工作,降低技能依赖,提高运维效率,降低运作成本。
KPI指标应该随着阶段的演变而演变,以建立不断成功,不断进步的心态,而不是一次性推动成熟。在实施过程中,更多应该将错误视为学习和改进流程的机会,这将减少不成熟的团队和管理团队对成本优化的恐惧心理。指标自身也需要不断优化,一开始可以从比较保守的目标开始推动,避免IT成本迅速下降造成的业务风险。而后不断迭代预算分配、IT
运维定位简单,可用性高,但由于资源共享利用率低,所需的成本也越高。 分区数量越少,每个分区的资源多,更容易适合对资源要求较高的大客户,运维管理简单,且资源利用率越高,所需的成本低。 确定分区映射算法。存在以下一些映射算法供参考: 原始除模:即使用分区键对分区数量取模,该算法分布均
集群HA 配合共享云硬盘,可以构建AZ内集群或HA关键应用。一块共享云硬盘最多可同时挂载至16台BMS。并需要搭建共享文件系统或类似的集群管理系统,例如Windows MSCS集群、Veritas VCS集群和CFS集群等。 详见“共享云硬盘及使用方法”。 负载均衡 配合弹性负载
应用系统对外或对内通信都依赖于网络,一旦网络异常将会导致业务中断,因此网络架构的高可用及容灾能力至关重要。在进行网络设计时,需要充分考虑应用系统对内和对外的网络连接、IP地址管理和域名解析等。 华为云中网络高可用主要涉及三个场景: 公有云网络:构建应用系统相关的公网网络连接的高可用,可减少由于网络连接中断而导致的业务中断。
预置命令执行策略,动态识别并拦截高危命令(包括删库、修改关键信息、查看敏感信息等),中断数据库运维会话。同时自动生成数据库授权工单,发送给管理员进行二次审批授权。 相关云服务和工具 数据库安全服务 DBSS 云堡垒机 CBH 父主题: SEC07 通用数据安全
job形式下发到Lite资源池集群。详细步骤可参考最佳实践文档。 训练显存优化实践 pytorch的内存池基本管理策略 pytorch的内存池以block为粒度来进行管理,block池分为小内存池与大内存池,block是pytorch向device驱动申请内存的粒度,整存整取。用
AOS随机故障注入、生产环境故障演练等能力。 云运维中心 COC:支持混沌演练,为用户提供一站式的自动化演练能力,覆盖从风险识别、应急预案管理、故障注入到复盘改进的端到端的演练流程。 父主题: RES11 可靠性测试
Apache、Java、MySQL等第三方组件,开源的Zabbix是常见选择。 相关云服务和工具 云监控服务 CES 应用运维管理 AOM 应用性能管理 APM 父主题: RES07 监控告警
、BMS)基于快照的备份和恢复能力,SFS Turbo文件系统备份,云服务器部署的MySQL或SAP HANA等数据库备份,以及云上同步和管理线下备份软件OceanStor BCManager和VMware虚拟机的备份数据。CBR支持一次性备份和周期性备份两种配置方式。目前备份时