检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用层进行过载保护,保障优先业务的运行。 生产消息失败 检测:生产消息失败 恢复: 应用层进行重试,以应对暂时性故障;应用故障重试处理可参考“故障重试”。 当多次重试后仍无法写入成功,可将数据写入本地缓存,待服务可用后再写入实例。 当实例由于过载导致网络限制时,可参考“CPU /内存/带宽使用率过高”的处理。
故障模式分析 面向所有故障进行检测 支持亚健康检测 RES07 您如何监控应用系统资源? 定义关键指标与阈值并监控 日志统计监控 监控到异常后发送消息通知 监控数据存储和分析 端到端跟踪请求消息 RES08 您如何减少依赖影响? 减少强依赖项 依赖采用松耦合 减少被依赖项故障的影响
APM:支持调用链追踪,能够针对应用的调用情况,对调用进行全方面的监控,可视化地还原业务的执行路线和状态,协助性能及故障快速定位。 在查询后的调用链列表中,单击待查看的调用链的链接,查看该调用链基本信息。 调用链详情页面可以查看调用链的完整链路信息,包含本地方法堆栈和相关远程调用的调用关系。
过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
相关云服务和工具 弹性负载均衡器 ELB:支持健康检查,会定期向后端服务器发送请求以测试其运行状态,并根据健康检查来判断后端服务器是否可用,当判断为异常后就不会将流量分发给该异常后端服务器。 云容器引擎 CCE:支持容器健康检查,容器运行过程中,可根据用户需要,定时检查容器健康状况。若不配置健
同时,在每次回顾和审核时,持续改进流程,例如,通过降低测试和变更的成本从而提升整体的优化频率。最后,在云厂商新的服务、资源类型和配置推出后,也可以启动流程,对它们进行评估,以优化您的工作负载成本。 父主题: COST05 优化指定策略和目标
统代码的原因,就是不知道它的影响范围,担心产生某种程度上的蝴蝶效应,影响了其它模块而造成线上系统的问题,有了开发者测试之后,只要在改完代码后运行一下测试就知道改动对整个系统的影响了,从而可以让我们放心的重构和演进代码。 同时,应该有一个适用于您软件的开发者测试标准,如代码覆盖率和分支覆盖率。
拟机故障自动恢复功能,在其所在物理服务器故障的情况下,可以自动在其他物理服务器上重启;对于部署在这种ECS中的工作负载,需要支持虚拟机重启后业务自动恢复的功能,并能容忍虚拟机HA期间业务处理性能短暂下降或中断。 对已部署的应用系统,改造为支持高可用能力的实施步骤: 确定应用系统的
每1~2个月更新一次软件。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用有状态虚拟机+有状态数据库的分层部署架构。
在规划内存时,要预留一定量的内存空间作为操作系统的buffer cache,一般预留20%。 从HDFS中读入数据时,要考虑block解压缩后的数据膨胀。 规划一定的磁盘作为缓存空间,包括缓存数据、日志、Shuffle数据。 调优原则 提高cpu使用率同时减少额外性能开销。 提高内存使用率。
过程中出现问题时自动回滚。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复;定期进行演练,及时发现问题。 根据以上方案,典型部署架构如下: 该架构的主要特点包括:
每1~2个月更新一次软件。 应急恢复处理 制定应急处理机制,指定应急恢复人员,以便在突发事件后能快速决策和恢复;并提供常见应用、数据库问题以及升级部署失败的相关解决方案,以便在出现问题后可以及时恢复。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统采用无状态应用+有状态数据库的分层部署架构。
对该容器的访问。 启动探针:startupProbe,用于探测应用程序容器什么时候启动了。 如果配置了这类探测器,就可以控制容器在启动成功后再进行存活性和就绪检查, 确保这些存活、就绪探针不会影响应用程序的启动。 这可以用于对启动慢的容器进行存活性检测,避免它们在启动运行之前就被终止。
务故障。当配置自动扩容时,需要确保自动扩容到最大时的规则不超过配额限制。 在系统中也可配置资源使用超过一定限额后进行预警,避免配额超过限制后导致业务受影响。 相关云服务和工具 使用华为云“我的配额”,可以查询每个云服务不同资源类型的总配额限制和已用配额,可根据业务的需要申请扩大对
修改新用户的默认密码。使用IAM创建新用户时,可通过邮件发送一次性登陆链接给新用户,新用户使用链接进行登陆时需要设置密码,另外在管理员自定义新用户的密码时可选择强制用户在激活后修改默认密码。 集中的身份管控: 使用单点登录:考虑使用单点登录解决方案,集中管理用户的身份认证信息,简化用户登录流程,提高安全性和用户体验。
通过执行彻底地跟踪、告警和分析,可以较快地确定导致威胁的原因。 确保日志存储时长满足需求。主机和云服务的日志数据上报至云日志服务(LTS)后,在默认存储事件过期后会被自动删除。因此,需要用户根据业务需求配置存储时长。对于需要长期存储的日志数据,应在 LTS中配置日志转储。 对于大
构的影响,需要匹配企业管理模型,帮助企业以多层级组织的方式管理人、财、物,所有资源都可以找到责任团队。企业根据组织结构合理规划IT治理架构后,可将成本分配到业务团队,让各业务团队为使用的云服务成本负责。 相关服务和工具 对于大型企业或集团公司,推荐优先使用企业组织+多账号的方式,
这种文化上的高压导致整个组织和运维流程的僵化,以及系统不能持续迭代更新之后的代码、架构腐化,最终导致无法运维的系统。 故而,文化上,惩前毖后,应重在总结经验,明确改进责任主体组织,不责怪个人。 在总结经验上,应该将相关经验进行标准化的沉淀,即将经验总结成自动化工具,流程以及建立相
测试计划:覆盖测试计划、测试设计、测试用例、测试执行和测试评估等全流程,旨在帮助企业协同、高效、可信的开展测试活动,保障产品高质量上市。 制品仓库:用于管理源代码编译后的构建产物,支持Maven、Npm等常见制品包类型。可以与本地构建工具和云上的持续集成、持续部署无缝对接,同时支持制品包版本管理、细粒度权限
变更防差错 软件更新采用离线更新,安装和重启应用需要停机,根据runbook进行应用的部署与回滚。 应急恢复处理 指定应用系统责任人,在突发事件后能找到相关责任人进行恢复处理。 根据以上方案,典型部署架构如下: 该架构的主要特点包括: 应用系统部署在单Region单AZ。 为了保证数据