检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NoSchedule 解决方案 问题场景一:该节点为集群升级过程中跳过的节点。 配置Kubectl命令,具体请参见通过kubectl连接集群。 查看对应节点kubelet版本,以下为正常回显: 图1 kubelet版本 若该节点的VERSION与其他节点不同,则该节点为升级过程中跳过的
31版本的增强 参考链接 新增特性及特性增强 StatefulSet起始序号(GA) 在Kubernetes 1.31中,StatefulSetStartOrdinal特性进阶至GA。默认情况下,StatefulSet中Pod的序号是从0开始,该特性引入后允许用户自定义Pod的起始序号。详细使用方式请参考起始序号。
get node命令查询 force: true timeout: 0 nodeName:表示待排水的节点,参数值为Kubernetes中的节点名称,而不是控制台上的节点名称。 Kubernetes中的节点名称可以使用kubectl get node命令查询。 force:是
仅华为云/华为账号,或者拥有CCE Administrator权限或CCE FullAccess权限的IAM用户可进行告警中心所有操作。CCE ReadOnlyAccess权限的IAM用户可以查看所有资源信息,但是无法进行任何操作。 开启告警中心 CCE Standard集群和CCE Turbo集群均支持开启告警中心。
创建工作负载? 问题背景 kubelet启动参数中默认将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。
您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。 在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。
etes 1.21及以上版本的集群中会默认开启。 社区1.20 ReleaseNotes API优先级和公平性已达到测试状态,默认启用。这允许kube-apiserver按优先级对传入请求进行分类。更多信息,请参见API Priority and Fairness。 修复 exec
如何判断集群的存储插件模式 登录CCE控制台。 在控制台左侧栏目树中,单击“插件中心”。 在右侧的插件管理列表中,单击“插件实例”页签。 在插件实例页面下,选择右上方的集群后,可以看到创建该集群时默认安装的存储插件。 CSI和Flexvolume存储插件的区别 表1 CSI与Flexvolume
、管理应用版本并发布应用到软件仓库。对于使用者而言,使用Helm后不用需要编写复杂的应用部署文件,可以以简单的方式在Kubernetes上查找、安装、升级、回滚、卸载应用程序。 Helm和Kubernetes之间的关系可以如下类比: Helm <–> Kubernetes Apt
合理配置用户的集群访问权限 CCE支持账号创建多个IAM用户。通过创建不同的用户组,并授予不同用户组不同的访问权限,然后在创建用户时将用户加入对应权限的用户组中,即可完成控制不同用户具备不同的区域(region)、是否只读的权限。同时也支持为用户或者用户组配置命名空间级别
检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml 请检查Up
是否被用户挂载。 低于v1.23.16-r0、v1.25.11-r0、v1.27.8-r0、1.28.6-r0、v1.29.2-r0版本的集群:CCE默认创建链接/var/lib/kubelet -> /mnt/paas/kubernetes/kubelet,检查是否被用户修改。
claimName: cce-sfs-demo 表1 关键参数说明 前置路径 参数 描述 spec replicas 实例数。 metadata name 新建工作负载的名称。 spec.template.spec.containers image 新建工作负载使用的镜像。
BalancerPolicyTemplate 资源用来进行优先级策略定义,如果用户需要自定义应用扩缩容优先级策略,则需要针对其内容进行修改。 如果存在多个BalancerPolicyTemplate资源,扩缩策略执行结果将受到这些资源对象的共同作用。因此,如果用户不存在默认扩缩容优先级策略的应用场景,可以执行如下命令对默认优先级策略进行删除。
tes事件”,然后单击“确定”。 图3 创建日志策略 创建完成后,您可直接在“日志中心”页面查看日志。选择日志策略配置的日志流名称,即可查看上报到云日志服务(LTS)的事件。 图4 查看事件 Kubernetes事件上报应用运维管理(AOM) 自1.3.2版本起,云原生日志采集插
docker exec crictl exec 无 查看容器详情 docker inspect crictl inspect ctr -n k8s.io c info 查看容器日志 docker logs crictl logs 无 查看容器的资源使用情况 docker stats crictl
基于GPU监控指标的工作负载弹性伸缩配置 集群中包含GPU节点时,可通过GPU指标查看节点GPU资源的使用情况,例如GPU利用率、显存使用量等。在获取GPU监控指标后,用户可根据应用的GPU指标配置弹性伸缩策略,在业务波动时自适应调整应用的副本数量。 前提条件 目标集群已创建,且
persistentVolumeClaim: claimName: cce-obs-demo 表1 关键参数说明 参数 描述 replicas 实例数。 name 新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName
全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态