检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
GPU)插件和Volcano调度器插件。 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,开启“GPU虚拟化”。 集群默认驱动:集群中GPU节点默认使用的GPU驱动版本。如果选择“自定义驱动链接地址”,则需填写Nvidia驱动的下载链接,详情请参见获取驱动链接-公网地址。
使用TLS类型的密钥证书场景 登录CCE控制台,单击集群名称进入集群。 选择左侧导航栏的“配置与密钥”,在右侧选择“密钥”页签,找到Ingress使用的密钥,单击“更新”。 修改密钥中的证书文件,单击“确定”更新密钥配置。CCE会将该证书自动同步到ELB侧。 使用ELB服务中的证书场景 登录CCE控制台,单击集群名称进入集群。
原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开发、构建、训练、部署四个环节,可全面支持企业用户的机器学习、深度学习完整使用过程。 如下图所示: 通过Kubeflow 1.0,用户可以使用Jupyte
4.41)支持使用量监控。 极速文件存储类型的PVC支持使用量监控(包括子目录场景,但子目录PVC采集到的使用量和容量与SFS Turbo实例的使用量和容量一致)。 挂载到普通容器的PVC支持采集使用量及inodes数据,挂载至安全容器PVC不支持。 指标说明 PVC视图暴露的指标如下:
Pod”页面查看。该页面提供了指定集群下所有Pod的综合信息,以及单个Pod的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“Pod”页签。 Pod列表页面呈现了所有Pod的综合信息
云原生混部以节点池粒度进行管理,您需要在节点池打开混部开关并进行混部配置。默认的混部配置,会启用混部所有能力并设置默认参数。您可以对默认的混部配置进行修改。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“节点管理”,单击节点池的“更多 > 混部配置”。 如果Volcano插件未开启在
指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI套件(NVIDIA GPU),且插件的metrics API正常工作。您可以登录GPU节点,执行以下命令进行检查:
GPU)(2.7.5及以上版本)、Volcano调度器及CCE集群弹性引擎(1.28.78或1.29.41及以上版本)。 步骤一:节点池配置 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“节点管理”。 单击“创建节点池”,创建一个GPU虚拟化规格的节点池,操作详情请参见创建节点池。
ace下的Pod知道对方的IP,而Kubernetes依赖的底层网络没有提供Namespace之间的网络隔离的话,那这两个Pod就可以互相访问。 父主题: Pod、Label和Namespace
NoSchedule 已运行在该节点的Pod不会被驱逐。 未运行的Pod不会被调度到该节点。 Pod可以在这个节点上一直运行。 通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级配置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明 参数名 参数描述 污点键
Map<String,String> 插件注解,由key/value组成 安装:固定值为{"addon.install/type":"install"} 升级:固定值为{"addon.upgrade/type":"upgrade"} updateTimestamp String 更新时间 creationTimestamp
负载均衡器配置:监听器配置 客户端连接空闲超时时间 客户端连接空闲超时时间,在超过keepalive_timeout时长一直没有请求, 负载均衡会暂时中断当前连接,直到下一次请求时重新建立新的连接。 参数名 取值范围 默认值 是否允许修改 作用范围 k8s annotation:
指标用来标识容器每秒使用CPU核心数。关于Prometheus指标的更多信息,请参见metric_type。 步骤一:安装云原生监控插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”。 在“插件中心”页面右侧找到云原生监控插件,单击“安装”。 建议您关注以
CPU调度 CPU管理策略 增强型CPU管理策略 父主题: 调度
28.7-r0及以上版本 v1.29集群:v1.29.3-r0及以上版本 其他更高版本的集群 您需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 约束与限制 在CCE Standard集群中,当Service服务亲和类型配置成节点级别(即externalT
当Pod使用节点网络(hostNetwork)时,使用出口网络保障功能无法生效。 操作步骤 下面介绍如何开启或关闭出口网络带宽保障。 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“节点管理”,在需要开启出口网络带宽保障的节点池中,单击“更多 > 混部配置”。
v1.21 v1.23 v1.25 支持插件实例AZ反亲和配置 默认污点容忍时长修改为60s 0.6.2 1.3.3 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群 CronHPA调整Deployment实例数,新增skip场景 0.6.2 1.3.2
如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建两个yaml文件,用于创建PersistentVolume(PV
工作负载”页面查看。该页面提供了指定集群下所有工作负载的综合信息,以及单个工作负载的详细监控数据,包括CPU/内存使用率、网络流入/流出速率等。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“工作负载”页签。 工作负载列表页面呈现了所有工作负载的综