检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
/proc/xgpu/{GPU卡序号}/meminfo,注意替换命令中的{GPU卡序号}为步骤2获取的GPU卡序号,观测GPU虚拟化的可用显存。 比较步骤2和步骤3的可用显存。 由于GPU厂商的驱动程序,本身就会占用一定量的物理显存,量级在300MB左右,这属于正常现象。例如Tesla T4配套510
采用容器隧道网络的CCE集群,节点OS镜像使用了EulerOS 2.8(ARM场景)或EulerOS 2.9。 2. 节点OS镜像使用了Ubuntu。 EulerOS 2.5 和CentOS 7.6的集群节点不受该漏洞影响。 漏洞修复方案 容器内进程使用非root用户启动的进程可以通过
勾选需要加入安全组的服务器,单击“确定”。您也可以通过服务器的名称、ID、私有IP地址、状态、企业项目或标签进行筛选。 通过修改左下角的单页最大显示条数,您可至多一次性添加20台服务器至安全组中。 加入新的安全组后,节点仍保留原安全组。如需移除,请单击原安全组的“管理实例”按钮,并勾选其中的节点服务器进行移除。
容器CPU受限:Pod的每个容器在不同的时间段的CPU受限时间所占的比例。 容器网络丢包率:Pod的每个的容器在不同的时间段接收丢失的数据包总量占接收的数据包总量的比例。 其他指标 Pod 历史状态:Pod在不同时间段所处的状态。 容器历史状态:Pod的每个容器在不同的时间段所处的状态。 父主题:
若nameserver设置为10.247.x.x说明DNS对接到集群的CoreDNS,需要确保集群CoreDNS工作负载运行正常。如果是其他IP地址,则表示采用云上DNS或者用户自建的DNS,请您自行确保解析正常。 更多域名解析异常的排查思路,请参见CCE集群中域名解析失败。 父主题: 网络异常问题排查
定调度节点的负载等)无法提供服务。 重置节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。重置节点时使用了本地持久存储卷的Pod会从重置的节点上驱逐,并重新创建Pod,Pod会一直处于pending状态,因为Pod使用的PVC带有
文件存储卷概述 CCE支持将弹性文件存储(SFS)创建的存储卷挂载到容器的某一路径下,以满足数据持久化需求,SFS存储卷适用于多读多写的持久化存储,适用场景包括:媒体处理、内容管理、大数据分析和分析工作负载程序等。 图1 CCE挂载文件存储卷 使用说明 符合标准文件协议:用户可以
健康检查的目标端口 spec.ports添加健康检查的目标端口,由协议、端口号组成,如:TCP:80 参数名 取值范围 默认值 是否允许修改 作用范围 target_service_port 无 无 允许 CCE Standard/CCE Turbo 健康检查端口 重新指定的健康检查端口,不指定时默认使用业务端口。
oers.d/sudoerspaas文件,以获取sudo权限,更新节点上属主和属组为root的组件(例如docker、kubelet等)与相关配置文件。请登录节点执行如下命令,排查文件的可修改性。 lsattr -l /etc/sudoers.d/sudoerspaas /etc/sudoers
容器resource资源 CPU配额 申请:容器需要使用的最小CPU值 限制:允许容器使用的CPU最大值 参数名 取值范围 默认值 是否允许修改 作用范围 cpu 0.01-2000 0.25 允许 - 内存配额 申请:容器需要使用的内存最小值 限制:允许容器使用的内存最大值 参数名 取值范围 默认值
的总字节数。 网络总流入速率:负载的所有Pod的容器在不同的时间段的每秒钟接收的总字节数。 网络发送丢包率:负载的所有Pod的容器在不同的时间段的发送丢失的数据包总量占发送的数据包总量的比例。 网络接收丢包率:负载的所有Pod的容器在不同的时间段的接收丢失的数据包总量占接收的数据包总量的比例。
等待Pod调度到其他节点后,排查文件系统异常的原因,并进行恢复或规避。 执行以下命令,取消节点不可调度标记。 kubectl uncordon <node-name> 异常Pod清理 本服务kubelet的GC回收机制与社区保持一致,在清除Pod的Owner(例如Deployment)后,异常Pod也会随之清理。
更新ELB Ingress的HTTPS证书 当您面临ELB Ingress的HTTPS证书即将到期或已经过期的情况时,您可以参考本文指导更新HTTPS证书,以免对您的服务造成不必要的中断。 更新ELB Ingress证书场景 更新证书场景 说明 使用ELB服务中的证书 更新HTTPS证
CCE创建的节点是否支持按需转包周期? 当前在CCE中购买节点时支持“按需计费”和“包年/包月”(按周期)计费。 约束与限制 按需节点池中的节点转成包年/包月时,需要将集群升级到v1.19.16-r40、v1.21.11-r0、v1.23.0-r0、v1.25.4-r0及以上版本。
100G为例,建议单容器的日志标准输出速率不超过512KB/s,节点上所有容器总体日志标准速率建议不超过5MB/s。若确实存在大量日志输出场景,可考虑以下方式优化: 避免日志输出过多的容器调度在同一个节点。例如给此类应用配置Pod间反亲和,或减少单节点的Pod数量上限。 考虑单独
会被终止。 Guaranteed类型的Pod:系统用完了全部内存、且没有Burstable与BestEffort容器可以终止时,该类型的Pod会被终止。 如果Pod进程因使用超过预先设定的限制值而非Node资源紧张情况,系统倾向于在其原来所在的机器上重启该容器。 如果资源充足,可将QoS
期)两种计费方式。按需计费的购买的节点可以转成按周期计费的节点。 约束与限制 按需节点池中的节点转成包年/包月时,需要将集群升级到v1.19.16-r40、v1.21.11-r0、v1.23.0-r0、v1.25.4-r0及以上版本。 当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。
从Pod访问公网 从Pod访问公网的实现方式 从Pod中访问公网地址的实现方式会因集群网络模式的不同而不同,具体请参见表1。 表1 从Pod访问公网的实现方式 实现方式 容器隧道网络 VPC网络 云原生2.0网络 给容器所在节点绑定公网IP 支持 支持 不支持 给Pod绑定弹性公网IP
Resource的调度算法。volcano-scheduler观察每个Job请求的主导资源,并将其作为对集群资源使用的一种度量,根据Job的主导资源,计算Job的share值,在调度的过程中,具有较低share值的Job将具有更高的调度优先级。这样能够满足更多的作业,不会因为一个
CCE集群纳管节点时的常见问题及排查方法? 概述 本文主要介绍纳管/添加已有的ECS实例到CCE集群的常见问题。 纳管时,会将所选弹性云服务器的操作系统重置为CCE提供的标准镜像,以确保节点的稳定性,请选择操作系统及重置后的登录方式。 所选弹性云服务器挂载的系统盘、数据盘都会在纳管时被格式化,请确保信息已备份。