检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
容器 Kubernetes 使用Kubectl命令操作集群 Pod、Label和Namespace Pod:Kubernetes中的最小调度对象 存活探针(Liveness Probe) Label:组织Pod的利器 Namespace:资源分组 Pod的编排与调度 无状态负载(Deployment)
timeoutSeconds 字段。相反,探测将无限期运行,甚至超过其配置的截止日期,直到返回结果。 若用户未配置,默认值为1秒。升级后此字段生效,如果探测时间超过1秒,可能会导致应用健康检查失败并频繁重启。 升级前检查您使用了exec probe的应用的probe timeouts是否合理。 CCE的v1
时,容器运行时会因为容器镜像仍处于被引用的状态而拦截kubelet的删除行为,导致kubelet在定期回收镜像过程中出现失败。 解决方法 登录节点上执行以下命令,过滤出告警提示的容器,确认是否处于exited状态。其中{containerId}需要替换为告警中提到的容器ID。 节点使用docker运行时:
影响集群内部域名解析。 解决方案 您可在明确差异配置后,单独升级CoreDNS插件。 配置Kubectl命令,具体请参见通过kubectl连接集群。 获取当前生效的Corefile。 kubectl get cm -nkube-system coredns -o jsonpath='{
如下配置示例适用于Kubernetes 1.13及以下版本的集群。 操作步骤 登录SFS控制台,创建一个文件存储,记录文件存储的ID、共享路径和容量。 请参见通过kubectl连接集群,使用kubectl连接集群。 新建两个yaml文件,用于创建PersistentVolume(PV
使用其他方式申请显存,例如调用cudaMalloc()等。 受GPU虚拟化技术的限制,容器内应用程序初始化时,通过nvidia-smi监测工具监测到的实时算力可能超过容器可用的算力上限。 父主题: GPU虚拟化
如果grafana实例出现同样的问题,也可能是由于上述原因引起。 解决方案 查看集群中插件遗留的存储卷对应的云硬盘可用区,并在集群中添加该可用区的节点。 登录CCE控制台,单击集群名称进入集群。 在左侧列表中选择“容器存储”,切换至“存储卷”页签,单击PVC(名为pvc-prometheus-s
分区的配置信息 表8 metadata 参数 参数类型 描述 name String 分区名称 creationTimestamp String 创建时间 表9 spec 参数 参数类型 描述 hostNetwork hostNetwork object 分区子网 containerNetwork
分区的配置信息 表8 metadata 参数 参数类型 描述 name String 分区名称 creationTimestamp String 创建时间 表9 spec 参数 参数类型 描述 hostNetwork hostNetwork object 分区子网 containerNetwork
其一一删除。具体操作如下: 进入流水和明细账单页面。 选择“明细账单”,在如下图所示位置单击鼠标左键,复制资源ID。 图1 复制资源ID 登录CCE控制台,选择集群所在的区域,在筛选条件中选择“集群ID”,并输入2中复制的资源ID即可查找到该资源。 图2 查找资源 单击集群右上角
容器的通信,当前支持多种容器网络模型,不同模型有不同的工作机制。 服务网络:服务(Service)是用来解决访问容器的Kubernetes对象,每个Service都有一个固定的IP地址。 在创建集群时,您需要为各个网络选择合适的网段,确保各网段之间不存在冲突,每个网段下有足够的I
包,并且软件包版本需要保持配套: 驱动GPU工作的硬件驱动程序,如Tesla系列驱动。 上层应用程序所需要的库,如CUDA Toolkit工具包。 在容器使用场景下,GPU驱动是安装在节点上的,而CUDA Toolkit一般会在应用程序的容器镜像构建时预安装,或者可直接使用Nvidia官方已预装CUDA
/mnt/paas/runtime /var/lib/docker none defaults,rbind 0 0 ... 解决方案 如何确认是否共享磁盘 根据检查信息,登录相应节点。 执行lsblk命令,查看/mnt/paas挂载了vgpaas-share分区,若存在则是共享磁盘场景,若不存在,则是非共享磁盘场景。
自己的action和plugin。 图1 Volcano Scheduler工作流 Volcano Scheduler的工作流程如下: 客户端提交的Job被调度器识别到并缓存起来。 周期性开启会话,一个调度周期开始。 将没有被调度的Job发送到会话的待调度队列中。 遍历所有的待调
内容由用户决定。资源创建完成后,可在容器工作负载中作为文件或者环境变量使用。 约束与限制 静态Pod中不可使用Secret。 操作步骤 登录CCE控制台,单击集群名称进入集群。 在左侧导航栏中选择“配置与密钥”,选择“密钥”页签,在右上角单击“创建密钥”。 填写参数。 表1 基本信息说明
版本。 如果需要稳定升级GPU节点驱动,推荐使用通过节点池升级节点的GPU驱动版本。 前提条件 需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。 操作步骤 如果您需要使用指定的NVIDIA驱动版本,可以在节点安装新版本GPU驱动,操作步骤如下: 对节点下线
nameservers 无 无 允许 - 搜索域 参数名 取值范围 默认值 是否允许修改 作用范围 dnsConfig.searches 无 无 允许 - 可选对象 参数名 取值范围 默认值 是否允许修改 作用范围 dnsConfig.options 无 无 允许 - 父主题: Pod
如何轻松切换新版节点池? 您需要将集群升级到1.21.11-r0、1.23.9-r0、1.25.4-r0及以上版本,然后根据以下步骤触发新节点池升级流程。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”,在弹出框中单击“立即升级”即可完成升级。
解决方案: 情况一:通过更新节点池接口,更新customSecurityGroups字段中指定的安全组。详情请参见更新指定节点池。 情况二:您需要登录CCE控制台,在集群的“配置中心”页面修改“节点默认安全组”。新增的节点安全组需要满足集群端口通信规则,详情请参见集群安全组规则配置。 父主题:
2,详情请参见购买Standard/Turbo集群。 两个集群中均已安装NGINX Ingress控制器。 已安装和配置kubectl分别连接两个集群,详情请参见通过kubectl对接多个集群。 步骤1:创建工作负载,并通过Ingress对外暴露服务 在cluster-1集群中部署应用,并测试访问。