检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务。 2.观测性能指标实践 性能监控有助于实时了解业务和系统的负载情况以及资源使用情况,结合告警规则的设置,云服务可自动对负载异常部分进行告警,以便更好地使用和维护云数据库系统。以GeminiDB 为例,您可以通过管理控制台,直观地查看GeminiDB Redis的各项监控指标。
故障全面检测 高可用性系统必须具有完善的故障检测能力,以确保能够快速发现那些可能导致故障的事件、显示正在发展的故障、激活的故障,以及潜在的故障的事件。在几乎所有情况下,故障检测能力都是故障恢复的前提。 RES06 故障检测 RES07 监控告警 父主题: 韧性支柱
RES12 应急恢复处理 应用系统无论如何精心设计,仍可能会出现无法恢复的故障,当此类故障发生后,需要进行应急恢复处理。 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05
RES14 配置防差错 配置防差错是针对配置过程中因人输入了错误的配置数据导致系统和业务受损或失效场景下通过产品设计降低或避免配置错误产生的影响。 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更
ECS弹性云服务器 弹性云服务器(Elastic Cloud Server,ECS)是由CPU、内存、操作系统、云硬盘组成的基础的计算组件。弹性云服务器创建成功后,就可以像使用自己的本地PC或物理服务器一样,在云上使用弹性云服务器。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
裸金属服务(Bare Metal Server,BMS)是一款兼具弹性云服务器和物理机性能的计算类服务,为企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
PERF05 性能优化 性能优化工作中,需警惕“过早优化”的问题。我们的基本指导策略还是首先让系统运行起来,再考虑怎么让它变得更快。一般只有在我们证实某部分代码的确存在一个性能瓶颈的时候,才应进行优化。除非用专门的工具分析瓶颈,否则很有可能是在浪费自己的时间。另外,性能优化的隐含
RabbitMq版:完全兼容开源RabbitMQ,提供即开即用、消息特性丰富、灵活路由、高可用、监控和告警等特性,广泛应用于秒杀、流控、系统解耦等场景。 RocketMQ版:低延迟、弹性高可靠、高吞吐、动态扩展、便捷多样的消息中间件服务。 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
恢复能力 备份 应用数据被破坏的情况下的恢复能力 容灾 在Region/AZ/IDC或其他云站点发生灾难的情况下的恢复能力 监控告警 应用系统故障后的检测和告警能力 弹性扩缩容 应用容量不足时的自动恢复能力 变更防差错 变更对应用业务中断的影响 应急恢复处理 应用在故障情况下的应急恢复能力
尽量使用Map Join减少Shuffle的次数,大幅提升性能 不同SQL语句,完成同一个功能,生成Map Reduce的数量越少越好 Hive系统默认是典型的配置场景,结合业务实际情况,可以做一些参数的调整,如文件块的大小,Map个数与Reduce的个数,压缩算法等。 合理的使用分区
COST01-01 规划企业组织,将组织结构,流程和成本管理相匹配 COST01-02 规划IT治理体系,提高管理效率 COST01-03 明确团队责任,建立和维护成本意识文化 COST01-04 指定云资源管理策略和相应的权限管理机制 父主题: 成本优化支柱
如何整体考虑云安全治理策略? 建立安全管理队 建立安全基线 梳理资产清单 分隔工作负载 实施威胁建模分析 识别并验证安全措施 SEC02 如何管理人机接口和机机接口的身份认证? 对账号进行保护 安全的登录机制 安全管理及使用凭证 一体化身份管理 SEC03 如何管理人员和机器的权限? 定义权限访问要求
RES02 备份 对于应用系统中的重要数据,需要提供备份功能,以便在病毒入侵、人为误删除、软硬件故障等场景,能够快速将数据恢复到备份点。 由于容灾通常对数据采用实时复制且没有多备份点,在主数据被误删或误改的情况下,错误数据会同步到备端,从而无法达到数据备份的效果,因此通常不能使用容灾来代替备份。
规划企业组织,将组织结构,流程和成本管理相匹配 2. 规划IT治理体系,提高管理效率 3. 明确团队责任,建立和维护成本意识文化 4. 指定云资源管理策略和相应的权限管理机制 COST02 您是否有预算规划管理机制? 1.建立云预算与预测流程 2.精细化预算管理和跟踪 COST03 您是否将成本分配到组织单元?
适用电商、金融场景。 RabbitMQ:兼容开源RabbitMQ,支持广播、事务消息、消息路由、死信队列、优先级队列等,适用于秒杀、流控、系统解耦等场景。 详细版本对比可参考官方文档。 相关云服务和工具: 分布式消息服务Kafka版 分布式消息服务RocketMQ版 分布式消息服务RabbitMQ版
性能数据采集 收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶
SEC05 运行环境安全 SEC05-01 云服务安全配置 SEC05-02 实施漏洞管理 SEC05-03 减少资源的攻击面 SEC05-04 密钥安全管理 SEC05-05 证书安全管理 SEC05-06 使用托管云服务 父主题: 基础设施安全
分钟,则每年故障中断时长为45分钟。 变更中断:假定应用支持金丝雀部署或蓝绿部署,并自动完成,软件更新不中断业务。 按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CC
ELB采用集群化部署,支持多可用区的同城多活容灾,无缝实时切换。 ELB支持后端服务器多AZ部署,当某个AZ出现故障时,ELB仍可将流量转发到其他AZ的后端ECS处理,提高应用系统容灾能力。 监控告警 配合CES服务,支持对ELB的连接数、带宽、错误响应等进行监控和告警。详见“监控指标说明”。 父主题: ELB弹性负载均衡
可能造成执行排队时延升高,甚至出现报错。建议最大实例数和业务实际最大并发数保持一致。 预留实例数 预留实例是将函数实例的创建和释放交由用户管理,当您为某一函数创建了预留实例,函数工作流收到此函数的调用请求时,会优先将请求转发给您的预留实例,当请求的峰值超过预留实例处理能力时,剩余