检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群如何重置或重装? CCE中的集群不能重置或重装,如确定集群无法使用,请提交工单或删除后重新购买集群。 CCE集群中的节点重置功能已上线,详情请参见重置节点。 父主题: 集群运行
节点池的可用节点。 约束与限制 对于包周期(包年/包月)预付费的节点池不能直接删除,请先移除节点池下全部的节点。 删除节点会导致与节点关联的本地持久存储卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。删除节点时使用了本地持久存储卷的Pod会从删除的节点上驱逐
Toolkit的基础镜像构建应用容器镜像。GPU驱动和CUDA Toolkit版本需要配套才可以正常使用GPU资源。 您可以使用nvidia-smi命令查看的节点上驱动信息,确定Nvidia驱动与CUDA Toolkit版本的配套关系,如下图,驱动版本为470.141.03, 对应支持的CUDA Toolkit最大版本为11
致数据丢失等异常情况。 请确保节点上Pod不要挂载/var/lib/kubelet/pods/目录,否则可能会导致使用了临时存储卷的Pod无法正常删除。 通过控制台使用本地临时卷 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“工作负载”,在右侧选择“无状态负载”页签。
前评估集群规模。 如需了解更多信息,请参见容器网络模型对比。 集群网段 集群中网络地址可分为节点网络、容器网络、服务网络三块,在规划网络地址时需要从如下方面考虑: 三个网段不能重叠,否则会导致冲突。且集群所在VPC下所有子网(包括扩展网段子网)不能和容器网段、服务网段冲突。 保证每个网段有足够的IP地址可用。
配置参数 参数名称 描述 示例 安全组策略名称 输入安全组策略名称。 请输入1-63个字符,以小写字母开头,由小写字母、数字、连接符(-)组成,且不能以连接符(-)结尾。 security-group 关联安全组 选中的安全组将绑定到选中的工作负载的弹性网卡/辅助弹性网卡上,在下拉框中最多可以选择5条,安全组必选,不可缺省。
是运行一种角色Pod,整个作业是无法正常执行的,而默认调度器对于Pod调度是逐个进行的,对于Kubeflow作业TFJob的Ps和Worker是不感知的。在集群高负载(资源不足)的情况下,会出现多个作业各自分配到部分资源运行一部分Pod,而又无法正执行完成的状况,从而造成资源浪费
inpack)。 配置建议如下: 负载感知重调度策略配置推荐 高负载节点驱逐pod的阈值信息targetThreshold:cpu为75、memory为70。 低负载节点承接pod的阈值信息thresholds:cpu为30、memory为30。 负载感知调度的真实负载阈值应介于重调度高负载节点与低负载节点阈值之间
除资源。 更多计费相关信息请参见计费模式概述。 集群名称 cce-test 自定义新建集群的名称。 企业项目 default 企业项目是一种云资源管理方式,企业项目管理服务提供统一的云资源按项目管理,以及项目内的资源管理、成员管理。了解更多企业项目相关信息,请查看企业管理。 该参
要组件的日志信息。 控制面审计日志:显示默认日志组(k8s-log-{集群ID})下默认日志流audit-{集群ID})中的所有日志数据,用于查看集群控制面审计日志信息。 全局日志查询:支持查看所有日志组日志流下的日志信息。可通过选择日志流查看所选日志流中的日志信息,默认会选择集
配资源已小于当前需被调度的Pod的Request,则该Pod就不会被调度到此节点。 如果不配置Request值,调度器就无法感知节点上资源的使用情况,进而无法将每个Pod调度到合适的节点上,可能会导致某个节点上调度了大量的Pod,资源使用过高导致节点故障,进而影响到实际业务。建议
使用ICAgent采集日志 在工作负载中可以单独配置日志采集策略,此策略需要使用ICAgent。 在CCE中创建工作负载时,在配置容器信息时可以设置容器日志。 单击添加日志策略。 以nginx为例,不同工作负载根据实际情况配置。 图1 添加日志策略 存储类型有“主机路径”和“容器路径”两种类型可供选择:
请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式) 约束限制: GET方法不做校验 取值范围: application/json application/json;charset=utf-8 application/x-pem-file
Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法满足Pod间亲和性规则,抢占规则和亲和性规则产生矛盾。 在这种情况下,调度程序无法保证pending状态的Pod可以被调度。推荐的解决方案是仅针对同等或更高优先级的Pod设置Pod
请求Header参数 参数 是否必选 参数类型 描述 Content-Type 是 String 参数解释: 消息体的类型(格式) 约束限制: GET方法不做校验 取值范围: application/json application/json;charset=utf-8 application/x-pem-file
否则会导致一个节点上调度了多个Pod,Pod启动时端口冲突无法创建。例如上面例子中的nginx,如果服务数为2,并部署在只有1个节点的集群上,就会有一个Pod无法创建,查询Pod日志会发现是由于端口占用导致nginx无法启动。 请避免在同一个节点上调度多个使用主机网络的Pod,否
您需将MinIO服务对外提供访问,否则将无法在集群外下载备份文件,可选择将Service修改为NodePort类型或使用其他类型的公网访问服务。 无论使用何种方法进行部署,安装MinIO的服务器需要有足够的存储空间,且均需要绑定EIP并在安全组中开放MinIO的服务端口,否则将无法上传(下载)备份文件。
个curl应用来进行测试,启用新的pod并通过进入容器内部curl当前这个service的域名,查看是否能正确解析域名。当然,有的场景下是无法curl通的,这与接下来的Dns的查找原理与配置有关。 使用CCE提供的托管式Kubernetes创建Pod,Pod的域名解析参数采用了一
lts:topics:* 操作日志主题信息 lts:groups:* 操作日志组信息 aom:metric:* 操作指标信息(AOM) aom:cmdbSubApplication:* 操作子应用信息(AOM) aom:cmdbResources:* 操作资源信息(AOM) aom:cmdbEnvironment:*
lts:topics:* 操作日志主题信息 lts:groups:* 操作日志组信息 aom:metric:* 操作指标信息(AOM) aom:cmdbSubApplication:* 操作子应用信息(AOM) aom:cmdbResources:* 操作资源信息(AOM) aom:cmdbEnvironment:*