检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
gion双活容灾,在出现Region级故障时可以自动切换在异地恢复业务。 监控告警 进行站点运行状态检查,在发生故障时告警;针对CCE、DCS、kafka、RDS、DDS等实例负载状态进行监控,在资源过载时需要告警。 弹性扩缩容 CCE集群支持工作负载的自动弹性伸缩。 变更防差错
过载保护 当系统流量超过一定阈值后,导致系统处于过载状态时,可能会导致部分请求失败,失败触发业务重试,会进一步增加系统的负荷,形成恶性循环,导致业务成功率远远低于系统的设计容量,甚至整体不可用。因此应用应该设计过载保护机制,使得在过载状态下依然可以保证一定比例设计容量的处理能力。 通过
可视化设计。 安全云脑 SecMaster:安全云脑支持对云上资产全面自动盘点,也可灵活纳管云外各种资产,点清所有资产,并呈现资产实时安全状态。 配置审计 Config 标签管理服务 TMS 父主题: SEC01 云安全治理策略
新不中断业务。 按照以上评估,每年应用系统不可用的时长是45分钟,满足可用设计目标要求。 电子商务类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE;后端数据库基于不同业务类型可采用不同数据库,通常采用RDS for MySQL;同时通常还会使用
概念表 概念 解释 韧性 (Resilience) 系统从故障中保持在已知运行状态(甚至降级)的能力。在遭遇故障后快速恢复核心功能和数据,且在业务需要的时间窗内恢复到有效运行状态。 可靠性 (Reliability) 产品在规定的条件下和规定的时间内完成规定功能的能力。它的概率度量称为可靠度。
健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测
&value错误的资源,然后从费用最高的资源开始逐步治理。建议利用云厂商提供的工具或者自建工具,通过自动化规则的方式,在资源创建的时候,就判断标签是否规范。另外一个更好的方式通过权限管理,识别资源创建人和组织,自动为资源打上标签。 定期审查和优化规范:变化不可避免,良好的标签管理
RES05-04 预留IP资源以便扩展及高可用 云上网络需要满足可扩展以及高可用需求,以便在云上资源弹性伸缩或业务扩展时,有足够网络资源支撑业务发展。 风险等级 高 关键策略 云上网络规划设计应满足以下原则: 针对每个Region,根据业务需要规划不同的VPC,每个VPC使用独立
OPS04 自动化构建和部署流程 OPS05 运维准备和变更管理 OPS06 可观测性体系 OPS07 进行故障分析和管理 OPS08 度量运营状态和持续改进 参考案例 卓越运营云服务介绍 更多参考文档
会导致分区间的数据不均衡。 Kafka扩容了Broker节点,新增的节点没有分配分区,会导致节点间的数据不均衡。 业务使用过程中随着集群状态的变化,多少会发生一些Leader副本的切换或迁移,会导致个别Broker节点上的数据更多,从而导致节点间的数据不均衡 使用数据压缩 在客
长为24小时。 按照以上评估,每年应用系统不可用的时长是36小时,满足可用设计目标要求。 内部工具类应用典型架构为前端无状态应用层+后端数据库,其中前端无状态应用可采用ECS或CCE(以ECS为例),后端数据库基于不同业务类型可采用不同数据库,通常为RDS for MySQL;为满足对应的可用性目标,建议方案如下:
包括身份认证、访问控制、网络安全等关键配置。 定期与实时检查:设置定期自动检查计划,并提供实时检查功能,以便在需要时立即评估云服务的安全状态。 风险评估:对检查结果进行风险评估,识别不同级别的风险资源,如致命、高危、中危、低危和提示。 相关云服务和工具 华为云服务的安全特性:在
性能测试 性能测试是一种软件测试形式,通过性能测试工具模拟正常、峰值及异常负载等状态下对系统的各项性能指标进行测试的活动,它关注运行系统在特定负载下的性能,可帮助你评估系统负载在各种方案中的功能,涉及系统在负载下的响应时间、吞吐量、资源利用率和稳定性,以帮助确保系统性能满足基线要
一定的环境下系统能够达到的峰值指标。 压力测试:指在一定的软件、硬件及网络环境下,模拟大量的虚拟用户向测试环境产生负载,使测试环境处于极限状态下并长时间连续运行,以测试硬件设备或云服务在高负载情况下是否能够稳定工作。压力测试强调在极端情况下系统的稳定性。 容量测试:指在一定的软件
位。 相关云服务和工具 应用性能管理 APM:支持调用链追踪,能够针对应用的调用情况,对调用进行全方面的监控,可视化地还原业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链
配置校验:通过配置生效机制设计确保在配置生效前进行必要的校验,避免错误配置生效。 删除保护:在删除资源时增加保护机制,防止误删,如:删除前运行状态检查保护,资源锁定防止误删除,回收站机制等。 父主题: RES14 配置防差错
性能数据采集 收集性能数据是收集指标和日志的过程,这些指标和日志提供有关工作负载性能的信息。 此数据包括数值,称为指标。 指标描述系统在特定时间点的状态。 它还包括包含组织成记录的不同类型的数据的日志。 通过收集性能数据,可以监视和分析工作负载的性能。 可以使用此信息来识别性能瓶颈、解决问
SEC09-02 安全事件记录及分析 在发生安全事件之前,可以考虑构建取证能力来支持安全事件调查工作。记录攻击和异常行为并对其分析:应在关键网络节点处(例如内外网的交界处、ELB流量转发处等)检测、防止或限制网络攻击行为;应采取技术措施对采集的安全日志进行持续监控和分析,实现对网
最大程度避免了错误。 通过可观测性进行持续改进 可观测性是指通过观察系统的外部输出,推断其内部状态的能力。一般来说,云上应用的可观测性通常使用三种核心手段,一:指标,指标是系统状态的定量度量,例如 TPS、请求延迟、调用量等。二: 日志:日志是系统事件的人可读记录,例如应用程序
reserved。allocated对应host上的tensor实际申请了但是没释放的内存(注意:是在host上申请释放,不代表device状态)。active对应host上还未释放的内存+还在被别的流占用的内存。 举例,一个tensor在streamA上申请了,让供streamB