检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
该容器需使用GPU资源的10%。 关于如何在集群中使用GPU,请参见使用Kubernetes默认GPU调度。 NPU配额(可选) 使用NPU芯片的数量,必须为整数,且必须安装CCE AI套件(Ascend NPU)插件后才能使用。 关于如何在集群中使用NPU,请参见NPU调度。 特权容器(可选)
其中,最重要最常用的是如下四个ClusterRole。 view:拥有查看命名空间资源的权限 edit:拥有修改命名空间资源的权限 admin:拥有命名空间全部权限 cluster-admin:拥有集群的全部权限 使用kubectl describe clusterrole命令能够查看到各个规则的具体权限。 通常情况
删除按需计费的集群 处于休眠状态的集群无法直接删除,请将集群唤醒后重试。 登录CCE控制台,在左侧导航栏中选择“集群管理”。 找到需要删除的集群,查看集群的更多操作,并单击“删除集群”。 图1 删除集群 在弹出的“删除集群”窗口中,根据系统提示,勾选删除集群时需要释放的资源。 删除集群节点,可支持以下操作选项:
在打开节池混部开关时,会校验您之前是否启用了kubelet混部超卖配置,若已启用请在开启提示中确认将kubelet混部超卖自动迁移到云原生混部,具体迁移说明可查看kubelet超卖迁移至云原生混部超卖说明。 您可以对以下混部配置进行配置: 参数 默认行为 参数说明 CPU 弹性限流 开启 开启CPU
配置项名称,可自定义。 data 配置项的数据,需填写键值对形式。 创建配置项。 kubectl create -f cce-configmap.yaml 查看已创建的配置项。 kubectl get cm NAME DATA AGE cce-configmap
全地将节点上所有符合节点排水规则的Pod驱逐,后续新建的Pod都不会再调度到该节点,该排水时间取决于Pod情况,如时间过长,可返回节点列表查看事件。 确认退订弹窗后将跳转到订单页面,您可确认退订类别和金额后完成退订操作。 退订处理预计需要5-10分钟,在此期间,节点将处于不可用状态。
配额累计使用量包含CCE系统默认创建的资源,如default命名空间下系统默认创建的kubernetes服务(该服务可通过后端kubectl工具查看)等,故建议命名空间下的资源配额略大于实际期望值以去除系统默认创建资源的影响。 在Kubernetes中,外部用户及内部组件频繁的数据更新
问题。 如何设置安全组? 如何加固CCE集群的节点VPC安全组规则? 使用多控制节点模式,创建集群时将控制节点数设置为3。 可靠性 多控制节点模式开启后将创建三个控制节点,在单个控制节点发生故障后集群可以继续使用,不影响业务功能。商用场景建议选择多控制节点模式集群。 如何确认已创建的集群是否为多控制节点模式?
该检查通过尝试建立SSH连接,检查CCE是否能通过SSH方式连接至您的Master节点。 6 安全组检查异常处理 检查Node节点安全组规则中,协议端口为ICMP:全部,源地址为Master节点安全组的规则是否被删除。 7 残留待迁移节点检查异常处理 检查节点是否需要迁移。 8 K8s废弃资源检查异常处理
若节点在CCE集群移除后重装操作系统失败,请手动完成失败节点的操作系统重装,并在重装后登录节点执行清理脚本完成CCE组件清理,具体步骤参见重装操作系统失败如何处理。 移除节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。移除节点时使用了本地持久存
确认”。 联系组创建并确认后,单击图标启用联系组,实现联系组和告警规则集的绑定。 告警规则集最多支持绑定5个联系组。 查看告警列表 您可以在“告警列表”页面查看最近发送的历史记录。 登录CCE控制台。 在集群列表页面,单击目标集群名称进入详情页。 在左侧导航栏选择“告警中心”,选择“告警列表”页签。
当前实例所有容器CPU限制值之和 ≥ 当前实例所有容器CPU申请值之和,节点的实际可用分配CPU量请在“资源管理 > 节点管理”中对应节点的“可分配资源”列下查看“CPU: ** Core”。 内存配额:内存资源默认单位为字节,或者也可以使用带单位后缀的整数来表达,例如100Mi。但需要注意单位大小写。
使用量等资源指标是动态变化的,如何做到准确的估算? 在计算成本时的Pod使用量取值为Pod申请量(Request)和实际使用量(used)中的最大值。基于普罗监控数据,可以清晰识别分钟级别的应用资源,进行成本计算。 节点中没有被分配的空闲成本,是如何处理的? 节点中的空闲成本不会
reason: connection failure 或: curl: (7) Failed to connect to 192.168.10.36 port 900: Connection refused 在集群中访问ELB地址时出现无法访问的场景较为常见,这是由于Kubernetes在创建
节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/
由于网络原因,官方镜像可能无法拉取,导致工作负载出现ImagePullBackOff或FailedPullImage错误,请您自行添加合适的镜像代理。 查看所有命名空间下的Pod是否都处于运行状态。 kubectl get pod -A 如果创建资源时出现非预期问题,请参见常见问题进行处理。 常见问题
true”,就可以从逻辑概念表示该节点是用来部署QA(测试)环境使用。 图1 添加节点标签 标签添加成功后,再次进入该界面,在节点数据下可查看到已经添加的标签。 父主题: 管理节点
久卷存储配置ReadWriteOnce,文件存储及对象存储配置ReadWriteMany 回收策略 当与此PV绑定的PVC被删除以后,PV如何被处理的策略 参数名 取值范围 默认值 是否允许修改 作用范围 persistentVolumeReclaimPolicy 两种策略:Retain
d/v0.10.2/helm-2to3_0.10.2_linux_amd64.tar.gz Installed plugin: 2to3 查看已安装的插件,确认插件已安装。 # helm plugin list NAME VERSION DESCRIPTION
metrics.alpha.kubernetes.io/custom-endpoints: '[{"api":"","path":"","port":"","names":""}]' pod.alpha.kubernetes.io/initialized: "true"