检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
快速定位问题:运维知识库系统配备了强大的搜索功能,用户可以根据关键词进行搜索,系统会自动匹配相关的知识,并提供相应的解决方案。用户只需通过简单的操作,就能快速定位问题,并找到解决方案,节省了大量的时间和精力。 知识分享和交流:运维知识库系统还支持用户之间的知识分享和交流。用户可以
RDS自动备份,在数据故障时使用最新备份数据恢复,可以满足可用性目标要求。 容灾 不支持容灾部署,在站点故障的情况下,重新进行应用部署与备份数据恢复。 监控告警 进行简单的监控,检查应用系统是否能正常返回消息。 弹性扩缩容 提供常见故障处理runbook,以便在容量不足等场景可以手工扩容。 变更防差错 软件
们的处理时间,在给定时间范围内,随机分散到不同时间,以解决这个问题。 空间换时间 通过使用更多的存储空间,以节省执行时间。 空间换时间包括简单地预先存储结果,或者存储经常被访问的数据以方便计算;另一种空间换时间则包括选择特定的算法,如HASH算法就是一种典型的空间换时间的算法。另
日志大小等指标 自定义监控 自定义监控展示用户所有自主定义上报的监控指标。用户可以针对自己关心的业务指标进行监控,将采集的监控数据通过使用简单的 API 请求上报至监控服务进行处理和展示 中间件监控 提供快捷安装配置各类型中间件插件的功能,并提供开箱即用的专属监控大盘,目前支持的中间件插件有以下几种:
何层次上进行,包括在一条内存总线上的cycle by cycle的比较,到最终发送到网络上结果的比较。 时间检测:时间检测是故障检测的一种简单形式。如果一个事件预期应在某个时间段内发生,而却没有在该时间段发生,就检测到了一个故障。时间检测的一种特殊方法通常称为心跳方法。它采用以某
“单点故障”,它们的区别主要是I类故障可能涉及到安全性问题,或者I类故障是所有/大部分功能丧失。II类故障指主要功能受影响。III类故障可简单理解为需要尽快修复的故障。 通常来说,当一个故障不能被检测出来时,会认为这是一个故障“隐患”,相应的故障严酷度级别上升一级。 标识系统中的所有组件及功能模块
其他物理服务器中自动恢复,恢复过程中与ECS的通信会中断,需要重试。 实例由于过载导致无法及时响应,需要重试。 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试 RES09-03 重试需要避免造成流量压力 父主题: 故障快速恢复
如果只有单个或少量消费者,并且消费速度很快,那么建议 QoS 设置的大一点,使得客户端保持忙碌状态。 如果客户端的消息处理速度和带宽保持不变,简单的用公式RTT / 单条消息处理时间就可以估算出应该设置多大的 QoS 值。 如果消费者数量较多并且消息处理速度较快,那么建议 QoS 设置的小一点。
端到端跟踪请求消息 RES08 您如何减少依赖影响? 减少强依赖项 依赖采用松耦合 减少被依赖项故障的影响 RES09 您如何进行重试? API以及命令调用需要设计为可重试 客户端需要根据综合评估是否需要重试 重试需要避免造成流量压力 RES10 您如何进行故障隔离? 应用控制平面与数据平面隔离
序异常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测容器是否正常,类似于执行ps命令检查进程是否存在。如果容器的存活检查失败,集群会对该容器执行重启操作;若容器的存活检查成功则不执行任何操作。 就绪探针:readiness
长导致整体查询性能下降的情况比较常见。这些算子是整个查询的瓶颈算子。通用的优化手段是EXPLAIN ANALYZE/PERFORMANCE命令查看执行过程的瓶颈算子,然后进行针对性优化。 8.GaussDB(for MySQL)读写分离最佳实践 读写分离是指通过一个读写分离的连接