检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何配置Pod使用GPU节点的加速能力? 问题描述 我已经购买了GPU节点,但运行速度还是很慢,请问如何配置Pod使用GPU节点的加速能力。 解答 方案1: 建议您将集群中GPU节点的不可调度的污点去掉,以便GPU插件驱动能够正常安装,同时您需要安装高版本的GPU驱动。 如果您的
是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围: 账号的项目ID 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID,获取方式请参见如何获取接口URI中参数。 约束限制: 不涉及 取值范围:
如何使容器重启后所在容器IP仍保持不变? 单节点场景 如果集群下仅有1个节点时,要使容器重启后所在容器IP保持不变,需在工作负载中配置主机网络,在工作负载的yaml中的spec.spec.下加入hostNetwork: true字段。 多节点场景 如果集群下有多个节点时,除进行以
冻结或不可用的集群删除后如何清除残留资源 处于非运行状态(例如冻结、不可用状态)中的集群,由于无法获取集群中的PVC、Service、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC
/dev/nvidia* #再次确认是否有程序正在使用GPU卡设备 节点安装指定NVIDIA驱动版本。 从NVIDIA官方网站中下载指定的驱动版本,如何选择GPU节点驱动版本请参见选择GPU节点驱动版本。 记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下:
default 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 标签 密钥附带的标签 参数名 取值范围 默认值 是否允许修改 作用范围 labels
9”操作系统为例,系统盘“/dev/vda”原有容量50GB,只有一个分区“/dev/vda1”。将系统盘容量扩大至100GB,本示例将新增的50GB划分至已有的“/dev/vda1”分区内。 在EVS控制台对系统盘进行扩容。详情请参见扩容云硬盘容量。 在EVS控制台扩容成功后,仅扩大了云硬
异构资源配置 GPU配置 GPU虚拟化:CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU
例如下图,开发环境/联调环境/测试环境分别创建了命名空间。 图1 不同环境创建对应命名空间 按照应用划分命名空间 对于同个环境中,应用数量较多的情况,建议进一步按照工作负载类型划分命名空间。例如下图中,按照APP1和APP2划分不同命名空间,将不同工作负载在逻辑上当做一个工作负载组进行管理。且同一个命名
如何避免非GPU/NPU负载调度到GPU/NPU节点? 问题现象 当集群中存在GPU/NPU节点和普通节点混合使用的场景时,普通工作负载也可以调度到GPU/NPU节点上,可能出现GPU/NPU资源未充分利用的情况。 问题原因 由于GPU/NPU节点同样提供CPU、内存资源,在一般
CCE节点NTP时间不同步如何解决? 问题现象 节点上的ntpd在长时间无法连接ntpserver等特殊场景下,可能导致偏移量过大,无法自动恢复。 问题检测 CCE节点故障检测插件(npd)中已包含节点时间同步检查项,您可以在集群中安装该插件进行检测。详情请参见CCE节点故障检测。
激活成功 给集群所使用资源打标签。 集群所使用资源包括集群Master节点、节点,存储资源(EVS、SFS、OBS等),网络资源(ELB、EIP等)。其中节点会默认添加CCE-Cluster-ID标签。 给集群添加标签。 在CCE控制台进入集群信息页面,在资源标签处给集群打标签。
如何解决VPC网段与容器网络冲突的问题? 在集群创建页面,若“容器网段”配置与“VPC网段”冲突,界面会提示“该网段与VPC网段有冲突,请重新选择”,重新调整“容器网段”即可。 图1 网段冲突提示 父主题: 网络异常问题排查
CCE集群中的节点无法远程登录,如何排查解决? CCE创建节点成功后,无法ssh远程登录。ssh回显提示“所选的用户密钥未在远程主机上注册”,即root用户不能直接登录到节点。 出现上述问题的原因是CCE创建的节点安装了cloudinit,有默认的linux用户,并且该密钥也是用于linux。
容器使用SCSI类型云硬盘偶现IO卡住如何解决? 问题描述 容器使用SCSI类型的云硬盘存储,在CentOS节点上创建和删除容器触发磁盘频繁挂载卸载的场景,有概率会出现系统盘读写瞬时冲高,然后系统卡住的问题,影响节点正常工作。 出现该问题时,可在dmesg日志中观察到: Attached
如果工作负载不需要使用集群内的CoreDNS,如何设置? 如何解读和修改Resolv.conf? 域名解析失败,如何处理? 更多 节点类 集群状态为“可用”,节点状态为“不可用”,如何处理? 无法远程登录节点,怎么办? 如何解决yum update升级操作系统导致容器网络不可用问题? 如何重置CCE集群中节点的密码?
纳管节点时失败,报错“安装节点失败”如何解决? 问题描述 节点纳管失败报错安装节点失败。 问题原因 登录节点,查看/var/paas/sys/log/baseagent/baseagent.log安装日志,发现如下报错: 查看节点LVM设置,发现/dev/vdb没有创建LVM逻辑卷。
docker审计日志量过大影响磁盘IO如何解决? 问题描述 部分集群版本的存量节点docker审计日志量较大,由于操作系统内核缺陷,会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0
default 支持初始化时配置,不支持后续修改 - 命名空间为资源的隔离维度,一旦指定后不允许修改 配置建议: 建议按照业务、部门等归属合理划分命名空间,避免将大量资源堆叠在default命名空间下 配置项标签 配置项附带的标签 参数名 取值范围 默认值 是否允许修改 作用范围 labels
创建CCE Turbo集群时如何设置IPv6服务网段 问题背景 当您需要创建一个IPv4/IPv6双栈的CCE Turbo集群时,需要设置IPv6服务网段,该网段默认值为fc00::/112,包含了65536个IPv6服务地址。如果您需要自定义服务网段,您可参考本文进行设置。 IPv6介绍