检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
例外场景:NPD无法检测所有PV(数据盘)丢失,导致VG(存储池)丢失的场景;此时依赖kubelet自动隔离该节点,其检测到VG(存储池)丢失并更新nodestatus.allocatable中对应资源为0,避免依赖存储池的Pod调度到该节点上。无法检测单个PV损坏;此时依赖R
CCE节点故障检测 插件介绍 CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。n
CCE节点故障检测插件版本发布记录 表1 CCE节点故障检测插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.19.16 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 v1.31 支持CCE v1.31集群 0.8.10 1.19
容器镜像签名验证插件(原名swr-cosign)提供镜像验签功能,可以对镜像文件进行数字签名验证,以确保镜像文件的完整性和真实性,有效地防止软件被篡改或植入恶意代码,保障用户的安全。 约束与限制 使用镜像验签功能依赖容器镜像仓库企业版,请先创建一个企业版仓库。 安装插件 登录CCE控制台
配置节点故障检测策略 节点故障检查功能依赖node-problem-detector(简称:npd),npd是一款集群节点监控插件,插件实例会运行在每个节点上。本文介绍如何开启节点故障检测能力。 前提条件 集群中已安装CCE节点故障检测插件。 开启节点故障检测 登录CCE控制台,单击集群名称进入集群。
现健康检查协议等。 图4 GRPC检查 公共参数说明 表1 公共参数说明 参数 参数说明 检测周期(periodSeconds) 探针检测周期,单位为秒。 例如,设置为30,表示每30秒检测一次。 延迟时间(initialDelaySeconds) 延迟检查时间,单位为秒,此设置与业务程序正常启动时间相关。
Volcano调度器 插件介绍 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要的而 Kubernetes 当下缺失的一系列特性。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic
Volcano调度器 插件简介 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管
Volcano是一款构建于Kubernetes之上的增强型高性能计算任务批量处理系统。作为一个面向高性能计算场景的平台,它弥补了Kubernetes在机器学习、深度学习、HPC、大数据计算等场景下的基本能力缺失,其中包括gang-schedule的调度能力、计算任务队列管理、task-topology
CCE AI套件(Ascend NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
根据业务需求和策略,经济地自动调整弹性计算资源的管理服务。 服务治理:深度集成应用服务网格,提供开箱即用的应用服务网格流量治理能力,用户无需修改代码,即可实现灰度发布、流量治理和流量监控能力。 容器运维:深度集成容器智能分析,可实时监控应用及资源,支持采集、管理、分析日志,采集各项指标及事件并提供一键开启的告警能力。
持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略
常工作,但是JVM进程却是一直运行的,对于这种应用本身业务出了问题的情况,Kubernetes提供了Liveness Probe机制,通过检测容器响应是否正常来决定是否重启,这是一种很好的健康检查机制。 毫无疑问,每个Pod最好都定义Liveness Probe,否则Kubernetes无法感知Pod是否正常运行。
以及集群下的其它服务被攻击的风险。 启用企业主机安全服务(HSS) 企业主机安全服务(HSS)拥有主机管理、风险预防、入侵检测、高级防御、安全运营、网页防篡改功能,能够全面识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为。推荐启用HSS服务保护用户CCE集群下的
现快速高效地处理推理和图像识别等工作。 功能 描述 参考文档 NPU调度 NPU调度可以指定Pod申请NPU的数量,为工作负载提供NPU资源。 NPU调度 Volcano调度 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学
AI加速型:AI加速型节点实例,搭载高性能、低功耗的海思Ascend 310 AI处理器,实现快速高效地处理推理和图像识别等工作,适用于图像识别、视频处理、推理计算以及机器学习等场景。 通用型(节点规格为4U8G) 系统盘类型 高IO:后端存储介质为SAS类型。 超高IO:后端存储介质为SSD类型。
AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。 “AI加速型”节点迁移后会
使用ASM实现灰度发布和蓝绿发布 应用服务网格(Application Service Mesh,简称ASM)是基于开源Istio推出的服务网格平台,它深度、无缝对接了企业级Kubernetes集群服务云容器引擎(CCE),在易用性、可靠性、可视化等方面进行了一系列增强,可为客户提供开箱即用的上手体验。