检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
故障。 备用检测:冗余系统中,主备用模块的故障都需要检测,避免静默故障。 有特殊寿命器件:应及时监控有特殊寿命(如本地硬盘)要求的期间健康状态,通过提前预警采取维护错误,避免故障的突然发生造成严重影响。 检测速度:需要根据业务综合要求,确定合适的检测速度。 检测影响:故障定时检测
健康检查是指容器运行过程中,根据用户需要,定时检查容器健康状况。若不配置健康检查,如果容器内应用程序异常,Pod将无法感知,也不会自动重启去恢复。最终导致虽然Pod状态显示正常,但Pod中的应用程序异常的情况。 Kubernetes提供了三种健康检查的探针: 存活探针:livenessProbe,用于检测
上线之前,通过功能相应接口,开发者和测试人员需要多次检测以保证模块功能的正确性。功能检测可以使用传统日志跟踪技术、调用链技术来进行检测,如华为云APM。 业务检测:模拟用户的业务操作过程,获得完成业务的操作过程性能数据和操作结果数据;业务检测使用拨测技术来完成检测,由于拨测需要占
况。 接入层指标的观测 Manger的服务->Hive服务状态页面可以查看到相关的HiveServer的连接数,HQL的执行成功的统计信息。 HiveMetaStore指标的观测 在Manager的服务->Hive服务状态页面,查看HiveMetaStore当前的请求连接数量以及关键API性能。
上云提供网络安全防护的基础服务。 WAF:保护网站等Web应用程序免受常见Web攻击,保障业务持续稳定运行,满足合规和监管要求。 AAD:华为云DDoS防护提供全球化服务,以应对DDoS攻击挑战,可提供毫秒级攻击响应、多维度行为分析及机器学习、防御策略自动调优,精确识别各种复杂D
OPS07 是否进行故障分析与管理? 1. 创建可操作的告警 2. 创新监控看板 3. 支持事件管理 4. 支持故障恢复流程 OPS08 是否有运营状态度量和持续改进机制? 1. 使用度量指标衡量运营目标 2. 进行事故复盘和改进 3. 知识管理 父主题: 卓越运营支柱
reserved。allocated对应host上的tensor实际申请了但是没释放的内存(注意:是在host上申请释放,不代表device状态)。active对应host上还未释放的内存+还在被别的流占用的内存。 举例,一个tensor在streamA上申请了,让供streamB
单节点实例通过多实例实现高可用:当云服务只支持单节点发放,则需要应用层来实现多个节点之间的主备或负载均衡,如ECS实例,用户可以通过构建ELB+多ECS实例,来实现无状态业务在多实例之间的负载均衡和自动切换,或从应用层实现两个ECS实例的主备等。 硬件依赖实例从应用层实现高可用:当ECS使用本地硬盘、直通F
会导致分区间的数据不均衡。 Kafka扩容了Broker节点,新增的节点没有分配分区,会导致节点间的数据不均衡。 业务使用过程中随着集群状态的变化,多少会发生一些Leader副本的切换或迁移,会导致个别Broker节点上的数据更多,从而导致节点间的数据不均衡 使用数据压缩 在客
对性能有一定的影响。 如何正确选择 QoS 值 如果只有单个或少量消费者,并且消费速度很快,那么建议 QoS 设置的大一点,使得客户端保持忙碌状态。 如果客户端的消息处理速度和带宽保持不变,简单的用公式RTT / 单条消息处理时间就可以估算出应该设置多大的 QoS 值。 如果消费者数量较多并且消息处理速度较快,那么建议
务器时间来获取所需的成功响应。 风险等级 高 关键策略 请求超时,可能是链路闪断或其他临时性故障导致消息丢失,可以进行重试。 根据错误响应码进行有针对性的重试;对于临时性故障,如错误码指示为系统繁忙时,可等待一段时间后重试,否则无需重试。 请求SDK中内置了消息重试时,客户端无需重复重试。