检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
您可以根据GPU/NPU卡的信息,通过kubectl命令行操作筛选Pod,以便在GPU/NPU卡故障时能够及时将Pod驱逐。 前提条件 已创建CCE集群,且配置了kubectl命令行工具。详细操作可参考通过kubectl连接集群。
执行以下命令,启动Docker服务。 systemctl enable docker # 设置Docker服务在系统启动时自动启动 systemctl start docker # 启动Docker服务 检查安装结果。
在高级配置中选择“升级策略”,设置缩容时间窗,即terminationGracePeriodSeconds参数,指定容器停止前命令执行的等待时间。缩容时间窗时间设置需大于“生命周期”的停止前处理时间,建议在容器停止前命令执行时间的基础上加30s。
建议挂载在空目录下,若目录不为空,请确保目录下无影响容器启动的文件,否则文件会被替换,导致容器启动异常,工作负载创建失败。 须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入挂载路径的子路径。
docker ps |grep hostaliases-pod docker exec -ti 容器ID /bin/sh 父主题: 容器
执行如下命令: chown root.root $FILE 父主题: 容器设置
解决方案 问题场景一:ntpd运行异常 请登录该节点,执行systemctl status ntpd命令查询ntpd服务运行状态。若回显状态异常,请执行systemctl restart ntpd命令后重新查询状态。
例如上面升级的新版镜像有问题,可以执行kubectl rollout undo命令进行回滚。
图1 登录容器 在弹出窗口中选择要登录的容器以及命令,然后单击“确定”。 图2 选择登录的容器与命令 页面会自动跳转到CloudShell,并初始化启动kubectl,然后自动执行kubectl exec命令登录到容器。
容器场景下,开启这个参数可以避免NAT过的TCP连接带宽受限。
迁移方案 表1 迁移方案及适用场景对比 方案类型 适用场景 注意事项 使用docker命令将镜像迁移至SWR 待迁移的镜像数量较少 依赖磁盘存储,需要及时进行本地镜像的清理,而且落盘形成多余的时间开销,难以胜任生产场景中大量镜像的迁移。
创建节点时可通过postInstall文件注入的方式开启kubelet的鉴权模式(设置kubelet的启动参数:--authorization-node=Webhook),步骤如下: 创建clusterrolebinding,执行命令: kubectl create clusterrolebinding
在运行应用程序之前,通过ping hostname命令确保DNS服务器已启动并正在运行。如果主机名是新的,则需要等待一段时间才能访问DNS服务器。
kubectl create -f deployment.yaml 命令行终端显示如下类似信息: deployment.apps/mysql created 在工作负载运行的节点上查询创建的docker容器。
tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点: docker load -i .
在“容器配置”中,选择“数据存储”,添加“已有存储卷声明(PVC)”,使用2创建的PVC替换工作负载使用的存储卷声明。 迁移后,请保持容器内的挂载路径和子路径与之前挂载SFS1.0时一致。 替换完成后,可扩容工作负载实例数。
排查项三:检查容器DNS配置 在容器中执行cat /etc/resolv.conf命令,查看DNS配置。
解决方案 CCE节点默认关闭swap交换区,请您确认手动开启交换区的原因,并确定关闭影响; 若确定无影响后请执行swapoff -a命令关闭交换区之后重新检查。 父主题: 升级前检查异常问题排查
输入多几次这个命令查看它是如何被关闭又被启动的: kubectl get pod memory-demo-2 --namespace=mem-example 这个输出显示了容器被关闭,被启动,又被关闭,又被启动的过程: $ kubectl get pod memory-demo-2
通过kubectl describe pod <pod-name>命令查询Pod最新事件为: Warning NodeNotReady 17s node-controller Node is not ready 问题原因 节点关机后,系统会自动给节点添加污点,比如: node.kubernetes.io