检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:实例无法写入数据 Pod事件 Pod所在的节点文件系统损坏,新建的Pod无法成功在/var/lib/kubelet/device-plugins/.xxxxx写入数据,Pod通常会出现以下类似事件: Message: Pod Update Plugin resources
排查其他可能原因。 排查项一:节点是否存在资源压力 排查项二:是否在实例上设置了tolerations 排查项三:是否满足停止驱逐实例的条件 排查项四:容器与节点上的“资源分配量”是否一致 排查项五:工作负载实例不断失败并重新部署 排查项一:节点是否存在资源压力 当满足硬性或软性
目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE AI套件(NVIDIA GPU)插件。 单击该插件的“升级”按钮,查看插件目标版本及驱动版本。
persistentVolumeClaim: claimName: cce-obs-demo 表1 关键参数说明 参数 描述 replicas 实例数。 name 新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName
claimName: cce-sfs-demo 表1 关键参数说明 前置路径 参数 描述 spec replicas 实例数。 metadata name 新建工作负载的名称。 spec.template.spec.containers image 新建工作负载使用的镜像。
模板管理 上传模板 获取模板列表 获取模板实例列表 更新模板 创建模板实例 删除模板 更新指定模板实例 获取模板 删除指定模板实例 下载模板 获取指定模板实例 获取模板Values 查询指定模板实例历史记录 获取用户模板配额 父主题: API
检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml 请检查Up
约束与限制 一个安全组关联的实例数量建议不超过1000个,否则可能引起安全组性能下降。更多关于安全组的限制请参考安全组限制。 不支持指定Master节点的安全组,同时请谨慎修改集群Master节点的安全组规则,详情请参见集群安全组规则配置。 操作步骤 登录CCE控制台,在左侧导航栏中选择“集群管理”。
复制节点池 通过CCE控制台可以方便地复制现有节点池的配置,从而创建新的节点池。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多 > 复制”。 图1 复制节点池 在弹出的“复制节点池”窗口中,可以看到复制的节
SIGSEGV 11 Core 试图访问无权限的内存位置 SIGPIPE 13 Term 管道断开信号 SIGALRM 14 Term 时钟定时信号 SIGTERM 15 Term 进程结束信号,通常是程序自行正常退出 SIGUSR1 10 Term 用户在应用程序中自行定义的信号 SIGUSR2
件系统卡死问题 IPVS缺陷导致节点上升级CoreDNS后出现概率性解析超时 节点ARP表项超过限制 EulerOS 2.9内核缺陷导致虚拟机卡住 父主题: 节点
创建或升级实例失败,提示rendered manifests contain a resource that already exists 问题现象 创建或升级实例失败,提示“Create release by helm failed:rendered manifests contain
test updateStrategy: type: RollingUpdate 表1 关键参数说明 参数 描述 replicas 实例数。 name 新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName
io/client-go中的generated clients。 已从apiserver_request_total中删除“client”标签。 参考链接 关于Kubernetes 1.19与其他版本的性能对比和功能演进的更多信息,请参考: Kubernetes v1.19.0 Release
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
Sock文件。该文件影响Euler操作系统下的容器运行时启动。 解决方案 问题场景:节点使用的docker为定制的Euler-docker而非社区的docker 登录相关节点。 执行rpm -qa | grep docker | grep euleros命令,如果结果不为空,说明节点上使用的docker为Euler-docker。
修改节点内核参数 由于默认的Linux内核参数不一定符合所有用户场景,用户可通过修改节点上的/etc/sysctl.conf配置文件来更改内核参数。 修改节点系统参数的命令仅在使用公共镜像时有效,使用私有镜像时本文中提供的命令仅供参考。 节点重启后需执行sysctl -p用于刷新参数值。
支持修改公网IP:节点上的公网IP可以在ECS控制台更换。 修改节点私网IP后如何恢复 节点私网IP修改后,会导致节点不可用。这时您需要将节点的私网IP修改回原来使用的IP。 在CCE控制台,查看节点详情,找到该节点之前使用的IP和子网。 图1 节点私网IP地址和所在子网 登录ECS控制台,找到节点,
name”有映射关系,必须保持一致。 执行如下命令创建Pod。 kubectl create -f sfs-deployment-example.yaml 创建完成后,登录CCE控制台,在左侧导航栏中选择“存储管理 > 文件存储卷”。单击PVC名称,在PVC详情页面可查看文件存储服务和PVC的绑定关系。 父主题:
name”有映射关系,必须保持一致。 执行如下命令创建Pod。 kubectl create -f evs-deployment-example.yaml 创建完成后,登录CCE控制台,在左侧导航栏中选择“存储管理 > 云硬盘存储卷”。单击PVC名称,在PVC详情页面可查看云硬盘和PVC的绑定关系。 父主题: