检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES09 故障重试 当应用系统部署在云中,虽然云具有一定的高可用和故障自动恢复能力,但对外仍会导致短时间的故障,需要应用系统能针对这种短时间故障进行适配处理,主要是采用重试机制。 云中故障需要重试的典型场景有: 实例主备切换时可能会导致连接中断,如DCS、RDS实例由于某些原因
注册信息的途径。 用户修改隐私偏好的设置和选项要便于用户发现和使用。 对于收集、处理、存储个人数据的系统,应提供数据主体限制其个人数据处理机制。 对于收集、处理、存储个人数据的系统,应提供数据主体提供的个人数据导出的机制。 父主题: SEC08 数据隐私保护
RDS for PostgreSQL:PostgreSQL是一个开源对象云数据库管理系统,并侧重于可扩展性和标准的符合性。RDS for PostgreSQL适用于网站业务、位置应用系统、复杂数据对象处理等场景。 RDS for SQL Server:Microsoft SQL
过载控制 系统内组件资源有限,在遇到突发流量时可能会造成资源耗尽,而导致业务受损。 RES13 过载保护 父主题: 韧性支柱
动切换或通过容灾管理工具实现自动化容灾切换,减少灾难发生时的人工操作。 对于已部署的应用系统改造为跨AZ实例的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其跨AZ高可用能力,即在一个AZ故障的情况下,是
定义响应的优先级,确保重要事件得到优先处理。 持续监控:利用SIEM(安全信息和事件管理)、UEBA(用户和实体行为分析)等工具,对网络、系统、应用程序和用户活动进行实时监控。 智能警报:当检测到符合预定义触发条件的事件时,自动生成警报,并根据事件的优先级进行分类。 隔离与控制:
参考案例 通过AOM助力系统运维能力提升,降低运维成本与难度 基于LTS采集多类端侧日志,问题全链路追踪分析和业务运营分析 LTS助力某公司高效完成日常业务运维与等保合规 父主题: 卓越运营支柱
anager的内存,每个TaskManager的slot数量,规划适当的CPU核数和内存大小。 在规划内存时,要预留一定量的内存空间作为操作系统的buffer cache,一般预留20%。 从HDFS中读入数据时,要考虑block解压缩后的数据膨胀。 规划一定的磁盘作为缓存空间,包括缓存数据与日志。
柱,真正将云架构关注点融入到架构设计过程中。 云架构审视 随着业务需求和技术发展的变化,系统的架构也需要不断演进和优化。通过对照卓越架构技术框架的最佳实践,架构师对工作负载的架构进行全面、系统的评估,确保架构符合最新的需求、规范,符合最新的云上最佳实践。架构审视是一个持续的过程,
裸金属服务(Bare Metal Server,BMS)是一款兼具弹性云服务器和物理机性能的计算类服务,为企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
故障全面检测 高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
RES14 配置防差错 配置防差错是针对配置过程中因人输入了错误的配置数据导致系统和业务受损或失效场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
PERF05 性能优化 性能优化工作中,需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含
RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性,广泛应用于秒杀、流控、系统解耦等场景。 RocketMQ版:低延迟、弹性高可靠、高吞吐、动态扩展、便捷多样的消息中间件服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响 应急恢复处理 应用在故障情况下的应急恢复能力
适用电商、金融场景。 RabbitMQ:兼容开源RabbitMQ,支持广播、事务消息、消息路由、死信队列、优先级队列等,适用于秒杀、流控、系统解耦等场景。 详细版本对比可参考官方文档。 相关云服务和工具: 分布式消息服务Kafka版 分布式消息服务RocketMQ版 分布式消息服务RabbitMQ版
RES02 备份 对于应用系统中的重要数据,需要提供备份功能,以便在病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。
等保合规要求日志长时间存储,运维部门较多,人员不足,自建ELK成本高 解决方案: 业务价值: 全量日志接入:汽车APP、软件开发、流量平台等170个业务系统接入云日志服务,全面覆盖业务、应用、中间件和基础设施。 分钟级问题定界:秒级日志查询和分钟级日志监控,可配置告警和多渠道通知,90%问题感知与定位分析控制在30分钟。