检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器 Kubernetes 使用Kubectl命令操作集群 Pod、Label和Namespace Pod:Kubernetes中的最小调度对象 存活探针(Liveness Probe) Label:组织Pod的利器 Namespace:资源分组 Pod的编排与调度 无状态负载(Deployment)
GPU)插件版本为2.0.10及以上、Volcano调度器插件版本为1.10.5及以上。 开启Kubernetes默认GPU调度模式兼容 登录CCE控制台,单击集群名称进入集群,在左侧选择“插件中心”。 在右侧找到CCE AI 套件 (NVIDIA GPU)插件,单击“安装”。 如已安装该插件,单击“编辑”。
timeoutSeconds 字段。相反,探测将无限期运行,甚至超过其配置的截止日期,直到返回结果。 若用户未配置,默认值为1秒。升级后此字段生效,如果探测时间超过1秒,可能会导致应用健康检查失败并频繁重启。 升级前检查您使用了exec probe的应用的probe timeouts是否合理。 CCE的v1
您需要打开其后端服务器的ICMP协议安全组规则。关于使用UDP协议健康检查的详细说明,请参见使用UDP协议有什么注意事项?。 操作步骤 登录CCE控制台,单击服务列表中的“网络 > 虚拟私有云 VPC”,在网络控制台单击“访问控制 > 安全组”。 在界面右侧的安全组列表中找到集
如果扩展网段没添加过集群节点,那扩展网段的ECS不能访问集群内Pod;扩展网段添加集群节点后,扩展网段的ECS可以访问集群内Pod。 操作步骤 登录VPC控制台,在左侧导航栏选择“虚拟私有云 > 我的VPC”,在集群所属VPC的“操作”区域, 单击编辑网段“编辑网段”,单击“添加IPv4扩展网段”。
node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。 解决方案 登录节点。 重新创建PV和VG,但是创建时报错: root@host1:~# pvcreate /dev/vdb Device /dev/vdb
时,容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet的删除行为,导致kubelet在定期回收镜像过程中出现失败。 解决方法 登录节点上执行以下命令,过滤出告警提示的容器,确认是否处于exited状态。其中{containerId}需要替换为告警中提到的容器ID。 节点使用docker运行时:
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 父主题: GPU虚拟化
分区的配置信息 表8 metadata 参数 参数类型 描述 name String 分区名称 creationTimestamp String 创建时间 表9 spec 参数 参数类型 描述 hostNetwork hostNetwork object 分区子网 containerNetwork
如果grafana实例出现同样的问题,也可能是由于上述原因引起。 解决方案 查看集群中插件遗留的存储卷对应的云硬盘可用区,并在集群中添加该可用区的节点。 登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“容器存储”,切换至“存储卷”页签,单击PVC(名为pvc-prometheus-s
其一一删除。具体操作如下: 进入流水和明细账单页面。 选择“明细账单”,在如下图所示位置单击鼠标左键,复制资源ID。 图1 复制资源ID 登录CCE控制台,选择集群所在的区域,在筛选条件中选择“集群ID”,并输入2中复制的资源ID即可查找到该资源。 图2 查找资源 单击集群右上角
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
/mnt/paas/runtime /var/lib/docker none defaults,rbind 0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。
自己的action和plugin。 图1 Volcano Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调
分区的配置信息 表8 metadata 参数 参数类型 描述 name String 分区名称 creationTimestamp String 创建时间 表9 spec 参数 参数类型 描述 hostNetwork hostNetwork object 分区子网 containerNetwork
容器的通信,当前支持多种容器网络模型,不同模型有不同的工作机制。 服务网络:服务(Service)是用来解决访问容器的Kubernetes对象,每个Service都有一个固定的IP地址。 在创建集群时,您需要为各个网络选择合适的网段,确保各网段之间不存在冲突,每个网段下有足够的I
详情请参见创建密钥。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 通过控制台使用 登录CCE控制台,单击集群名称进入集群。 动态创建存储卷声明和存储卷。 在左侧导航栏选择“存储”,在右侧选择“存储卷声明”页签。单击右上角“创建存储卷声明
内容由用户决定。资源创建完成后,可在容器工作负载中作为文件或者环境变量使用。 约束与限制 静态Pod中不可使用Secret。 操作步骤 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“配置与密钥”,选择“密钥”页签,在右上角单击“创建密钥”。 填写参数。 表1 基本信息说明
间下以有状态工作负载进行部署。 您可以创建一个公网LoadBalancer类型Service,这样就可以从外部访问Prometheus。 登录CCE控制台,选择一个已安装Prometheus的集群,单击集群名称进入集群,在左侧导航栏中选择“服务”。 单击右上角“YAML创建”,创
nameservers 无 无 允许 - 搜索域 参数名 取值范围 默认值 是否允许修改 作用范围 dnsConfig.searches 无 无 允许 - 可选对象 参数名 取值范围 默认值 是否允许修改 作用范围 dnsConfig.options 无 无 允许 - 父主题: Pod