检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源的性能和容量进行监视和报告,确保您的业务稳定可靠运行 应用监控 应用监控基于应用资源管理对资源实行从应用、业务组件、到环境的分层监控,每一层对应的观测指标均不同。在应用层,主要监控业务层、应用层、中间件层以及基础设施层告警信息,同时通过绑定当前应用的仪表盘,以图表的形式展示指标源、日志源以及系统图表信息。主要关注:WAITING
多个华为云账号整合到创建的组织中,并可以在组织中设置治理策略。 应用身份管理服务 OneAccess:为云提供的应用身份管理服务,具备集中式的身份管理、认证和授权能力,保证企业用户根据权限访问受信任的云端和本地应用系统,并对异常访问行为进行有效防范。 资源治理中心 RGC:提供搭
量指标。 恢复: 应用层调整批量业务,避免业务高峰期进行备份等业务; 应用层进行重试,以应对暂时性故障,如网络拥塞;应用故障重试处理可参考“故障重试”。 应用层进行过载保护,保障优先业务的运行。 OBS对象上传/下载失败 检测:对象上传/下载失败。 恢复: 应用层进行重试,以应对
出现问题后尽快恢复业务 应用系统出现故障后,需要能尽快发现,尽快响应。 风险等级 高 关键策略 可以通过以下途径实现故障的快速发现: 监控:应用系统需要提供业务监控信息,以便实时了解系统运行状态;维护团队需要有专人观测,并在发现故障发生时,需要及时响应。 告警:应用系统在检测到故障后需
BMS实例不可用或运行异常 检测:配置ELB弹性负载均衡器的后端服务器健康检查,以便定期检查后端服务器的运行状态。健康检查应检查关键功能是否能正确响应。 恢复:针对每个应用层,配置多个BMS实例,通过ELB弹性负载均衡器进行健康检查,当检测到某个BMS实例不可用时,ELB弹性负载均衡器停止向该实例发送业务请求。
S、配置审计Config 运维监控账号 统一监控和运维各个成员账号下的资源和应用,统一进行告警管理、事件处理和变更管理,并提供运维安全保障措施 运维团队 应用运维管理AOM、COC、云日志服务LTS、应用性能管理APM、云堡垒机CBH等 安全云脑SecMaster、云审计服务CTS、配置审计Config
概述 本章节介绍常用云服务的可靠性功能与故障模式,以便应用系统能充分利用云服务提供的可靠性能力,提升应用系统的可靠性,并能针对云服务的常见故障模式,进行故障恢复处理,以便最大限度减少故障,并能从故障中恢复。 父主题: 云服务可靠性介绍
安全性支柱 概述 基本概念 设计原则 问题和检查项 云安全治理策略 基础设施安全 应用安全 数据安全与隐私保护 安全运营 参考架构 安全性云服务介绍 更多参考文档
明确定义哪些人员或机器应当有权访问哪个组件,选择用于进行身份验证和授权的适当身份类型和方法。 风险等级 高 关键策略 使用IAM角色来定义应用程序和组件对资源的访问权限。通过构建最低权限访问模型,确保只授予必要的权限。根据用户的角色和职责分配权限,确保用户只能访问其工作所需的资源。
API及命令调用需要设计为可重试 在进行重试处理时,API及命令调用会重复发送,服务方会多次重复执行,需要保证重复执行多次的结果不变。 风险等级 高 关键策略 应用系统在设计时,应使操作具有幂等性,也就是允许一个操作连续执行两次或多次时,应该与单次调用产生的结果相同,从而保证重试安全;若不支持操作的幂
RTO与RPO 灾难场景通常采用RTO和RPO目标定义: 恢复时间目标RTO:指灾难发生后应用不可用的最长时间。RTO决定了应用容灾整体架构,是采用数据备份,还是冷备、温备、热备。 恢复点目标RPO:指灾难发生后应用数据丢失的最大时间。RPO决定了数据备份频率或复制方式,是在线备份还是离线备份,是同步复制还是异步复制。
详见“共享云硬盘及使用方法”。 负载均衡 配合弹性负载均衡ELB服务,可以实现多BMS实例的负载均衡。 健康检查 通过弹性负载均衡ELB服务,可对BMS实例进行健康检查。详见“修改健康检查配置”。 跨AZ容灾 配合ELB服务,可以实现跨AZ的故障切换。 监控告警 配合CES服务,支持对B
RES14-01 变更防呆检查 防呆是一种预防矫正的行为约束手段,运用防止错误发生的限制方法,让操作者不需要花费注意力、也不需要经验与专业知识,凭借直觉即可准确无误地完成的操作。 风险等级 高 关键策略 通过以下约束和检查,可减少配置差错: 角色约束:通过权限控制设计预防对不同角
RES15-02 自动化检查 在部署或升级过程中集成基本测试功能,实现自动化检查,无需人工参与。 风险等级 高 关键策略 在部署或升级过程中集成基本测试功能,在部署或升级完成后自动进行检查和测试,以验证新部署的代码功能是否正确。 在部署或升级过程中集成故障注入测试功能,在部署或升
RES05-01 网络连接高可用 应用系统对外提供服务时,需要确保对外网络连接的高可用,避免单个网络连接中断而导致业务不可用。 风险等级 高 关键策略 网络链路冗余:网络连接需要支持多路径,以实现高可用能力,以避免在一条网络路径中断的情况下,业务能切换到其他路径继续通信。 网络链
基础设施即代码(IaC)是指使用代码而不是手动流程来管控基础设施的能力。 应用程序环境都需要许多基础设施组件,例如操作系统、数据库连接和存储。 开发人员必须定期设置、更新和维护基础设施,以开发、测试和部署应用程序。 手动管理基础设施既耗时又容易出错,尤其是在大规模管理应用程序时。 风险等级 高 关键策略 使用声明
流量过滤。使用防火墙、ACL控制内部和外部网络之间的访问流量以及内部网络中敏感区域的输入及输出流量,并对所有网络流量进行检查,阻止与已制定安全标准不相符的流量,以避免系统组件受到来自不可信网络的非授权访问。 使用应用负载均衡时,七层负载均衡更换为安全的证书。 启用VPC流量日志。VPC流日志功能可以记录虚拟
和云上运维效率。COC产品介绍: 统一资源管理 应用管理:提供应用和资源关联关系建模能力,满足用户云上资源的集中式管理要求,降低管理成本。 资源管理:同步并纳管用户在云平台上使用的资源实例,构筑资源运维能力底座。 配置管理:提供应用和资源视角的管理能力,以及参数配置集中式看护、全生命周期管理的能力。
对于有状态ECS实例,或BMS实例,建议从应用层实现跨AZ容灾,支持跨AZ自动切换或通过容灾管理工具实现自动化容灾切换,减少灾难发生时的人工操作。 对于已部署的应用系统改造为跨AZ实例的实施步骤: 确定应用系统的关键组件;所谓关键组件是指一旦故障,会导致整个应用系统或其中的关键功能受损。 针对关键组件,检查其跨AZ
漏洞扫描和识别:利用华为云云服务对系统、应用程序进行定期扫描,以发现潜在的漏洞和安全弱点。 自动化扫描漏洞:使用自动化漏洞扫描工具对运行环境进行定期扫描,以发现潜在的漏洞和安全风险。 漏洞修复和补丁管理:制定漏洞修复计划,及时修复已确认的漏洞,并管理安全补丁的发布和应用过程。 在关键节点处检测和