检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关闭,并可以优雅地终止该节点的Pod。在此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes
到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: 过滤容器id docker ps –a | grep nvidia 查看日志 docker logs 容器id 业务上报nvidia版本和cuda版本不匹配?
/sys/fs/cgroup/cpuset/kubepods/pod{pod uid}/{容器id}/cpuset.cpus {pod uid}为Pod UID,可在已通过kubectl连接集群的机器上使用以下命令获取: kubectl get po {pod name} -n {namespace} -ojsonpath='{
如果节点中的vdb盘被删除,可参考此章节内容恢复节点。 排查项十:排查Docker服务是否正常 执行以下命令确认docker服务是否正在运行: systemctl status docker 若执行失败或服务状态非active,请确认docker运行失败原因,必要时可提交工单联系技术支持。 执行以下命令检查当前节点上所有容器数量:
(nvidia.com/gpu),不支持监控CCE提供的GPU虚拟化资源。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI 套件 (NVIDIA GPU)和云原生监控插件。 CCE AI 套件 (NVIDIA GPU)是在容器
插件规格。 登录CoreDNS Pod所在节点,查看以下文件内容: cat /sys/fs/cgroup/cpu/kubepods/pod<pod_uid>/<coredns容器id>/cpu.stat <pod uid>为CoreDNS的Pod UID,可通过以下命令获取: kubectl
ingressClassResource: name: ccedemo #同一个集群中不同套Ingress Controller名称必须唯一,且不能设置为nginx和cce controllerValue: "k8s.io/ingress-nginx-demo"
生命周期。 创建pod。 kubectl create -f hostaliases-pod.yaml 命令行终端显示如下信息表明pod已创建。 pod/hostaliases-pod created 查看pod状态。 kubectl get pod hostaliases-pod pod
资源争抢问题 TensorFlow的作业包含Ps和Worker两种不同的角色,这两种角色的Pod要配合起来完成整个作业,如果只是运行一种角色Pod,整个作业是无法正常执行的,而默认调度器对于Pod调度是逐个进行的,对于Kubeflow作业TFJob的Ps和Worker是不感知的。在集
/opt/launcher.py|84| Command ran successfully sleep for ever. 可以看到单个GPU的训练性能为69.68 images/sec。 父主题: 在CCE集群中部署使用Kubeflow
name: coredump-path 使用kubectl创建Pod。 kubectl create -f pod.yaml 配置验证 Pod创建后,进入到容器内,触发当前shell终端的段错误。 $ kubectl get pod NAME
创建cloudeye-exporter-deployment.yaml文件,内容如下: kind: Deployment apiVersion: apps/v1 metadata: name: cloudeye-exporter namespace: default spec:
问题现象 工作负载的状态为“已停止”。 问题原因: 工作负载的yaml的中metadata.enable字段为false,导致工作负载被停止,Pod被删除导致工作负载处于已停止状态,如下图所示: 解决方案 将enable字段删除或者将false修改为true。 父主题: 工作负载异常问题排查
创建节点相关实践 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 选择合适的节点数据盘大小 节点日常管理实践 存储扩容 通过Core Dump文件定位容器问题 容器与节点时区同步 将节点容器引擎从Docker迁移到Containerd
相关文档 集群相关 CCE集群选型建议 集群网络地址段规划实践 集群网络模型选择及各模型区别 通过CCE搭建IPv4/IPv6双栈集群 使用共享VPC创建CCE Turbo集群 将K8s集群迁移到CCE 预防集群过载的配置建议 CCE集群高可用推荐配置 通过kubectl对接多个集群 集群视角的成本可视化最佳实践
(停止维护)Kubernetes 1.9及之前版本说明 云容器引擎(CCE)严格遵循社区一致性认证。本文介绍CCE发布Kubernetes 1.9及之前版本所做的变更说明。 表1 v1.9及之前版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.9.10-r2 主要特性:
工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:Pod一直处于Terminating状态 工作负载异常:实例驱逐异常(Evicted) 容器异常退出状态码 如何让多个Pod均匀部署到各个节点上? 如何驱逐节点上的所有Pod? 网络管理 集群安全组规则配置 工作负载网络异常时,如何定位排查?
Container执行完后,主容器才会启动。由于一个Pod里的存储卷是共享的,所以Init Container里产生的数据可以被主容器使用到。 Init Container可以在多种K8s资源里被使用到如Deployment、DaemonSet、Job等,但归根结底都是在Pod启动时,在主容器启动前执行,做初始化工作。
您可以在CCE上部署或迁移各种类型的网站和服务,满足您的业务所需。 将自建K8S集群迁移到CCE Jenkins安装部署及对接SWR和CCE集群 使用Kubeflow和Volcano实现典型AI训练任务 kubeflow华为云CCE虚机搭建运行分布式tf报告 通过CCE搭建IPv4/IPv6双栈集群
关闭,并可以优雅地终止该节点的Pod。在此更新之前,当节点关闭时,其Pod没有遵循预期的终止生命周期,这导致了工作负载问题。现在kubelet可以通过systemd检测即将关闭的系统,并通知正在运行的Pod,使它们优雅地终止。 具有多个容器的Pod现在可以使用kubectl.kubernetes