检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点 负载均衡支持设置名称 4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend
能生效。否则不会自动安装NPU驱动,需要手动重新安装。 若已在节点池的“安装后执行脚本”设置了NPU驱动安装命令,且开启了“驱动选择”功能并选择了对应机型的NPU驱动,节点池扩容会导致前端设置的安装命令和npu-driver-installer Pod 同时在新增节点上安装驱动,
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
echo "blacklist openvswitch" >>/etc/modprobe.d/blacklist.conf 然后重启节点,使上述设置生效。 相关链接 https://github.com/torvalds/linux/commit/cefa91b2332d7009bc0
表示节点上调度的Pod过多,超出可调度的最大实例数。 创建节点时,在“高级配置”中可选择设置“最大实例数”参数,设置节点上可以正常运行的容器 Pod 的数目上限。该数值的默认值随节点规格浮动,您也可以手动设置。 图1 最大实例数 您可以在“节点管理”页面,查看节点的“Pod(已分配/可用
制器实例。 当NGINX Ingress控制器插件为2.5.4及以上时,集群中支持同时安装多套NGINX Ingress控制器,该参数值需设置为安装控制器时指定的自定义控制器名称,表示该Ingress由此控制器进行管理。 通过API接口创建Ingress时必须增加该参数。 host
基于客户端源IP限速值要小于总限速值。请求速率超过设置的限速后,新建连接请求将被丢弃,并会返回给客户端503状态码。 burst:可选参数,限速缓冲区大小,支持的取值范围为0~100000。限速burst允许段时间内超过设置的平均速率,以应对突发请求。例如,如果限速值是5,但是
ostNetwork)的Pod时,亲和级别支持配置为节点级别。 VPC网络模式下,当某容器A通过NodePort类型服务发布时,且服务亲和设置为节点级别(即externalTrafficPolicy为local),部署在同节点的容器B将无法通过节点IP+NodePort访问容器A。
d具有特定的节点选择器,且集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 删除过程中,系统会把当前节点池中的节点均设置为不可调度状态。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多
policyName字段值为enhanced-static代表策略设置成功。 优先使用CPU号将10000作为基数,本例中10001即代表容器使用的亲和CPU号为1,0-7代表该Pod中容器可以使用的CPU集合。 查看容器的cpuset.preferred_cpus的cgroup设置,输出内容即为优先使用的CPU号。
该问题常见于文件存储挂载模式为hard的场景,在hard模式下,所有访问挂载点的进程都会Hang住,直到访问成功。使用soft模式挂载可以避免该情况,具体请参见设置挂载参数。 父主题: 工作负载异常问题排查
10操作系统,采用如下命令查看内核版本: uname -a 若查询结果在3.15-6.8之间,则受该漏洞影响。 漏洞消减方案 建议容器工作负载设置seccomp,示例如下: 针对Huawei Cloud EulerOS 2.0、Ubuntu 22.04、EulerOS 2.9、EulerOS
插件版本为2.7.40及以上时,支持部署dcgm-exporter组件。dcgm-exporter组件保持社区能力,暂不支持共享模式和GPU虚拟化。 设置插件支持的“参数配置”。 表1 GPU插件参数配置 参数 参数说明 集群默认驱动 集群下全部GPU节点将使用相同的驱动,请选择合适的GPU
9及以下版本集群建议配置;1.17.17及以上版本当前已在操作系统镜像中将kernel.pid_max调整为4194304,无需配置。 您可以设置节点池安装前执行脚本,在节点池中新创建节点时通过脚本配置kernel.pid_max大小。 在创建节点池时,在“高级配置 > 安装后执行脚本”中添加如下命令。
选择“自定义规格”时,您可根据需求调整插件实例数和资源配额。实例数为1时插件不具备高可用能力,当插件实例所在节点异常时可能导致插件功能无法正常使用,请谨慎选择。 设置插件支持的“参数配置”。 表1 swr-cosign插件参数配置 参数 参数说明 KMS密钥 选择一个密钥,仅支持 EC_P256、EC_P384、SM2
403 Forbidden 请求被拒绝访问。 返回该状态码,表明请求能够到达服务端,且服务端能够理解用户请求,但是拒绝做更多的事情,因为该请求被设置为拒绝访问,建议直接修改该请求,不要重试该请求。 404 NotFound 所请求的资源不存在。 建议直接修改该请求,不要重试该请求。 405
请在云原生监控插件中开启“上报至AOM服务”开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE AI套件(NVIDIA GPU)。 步骤二:采集DCGM指标信息 默认情况
app: nginx # 选择标签为app:nginx的Pod clusterIP: None # 必须设置为None,表示Headless Service 执行如下命令创建Headless Service。 # kubectl create -f
存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
通过seccomp限制攻击者对宿主机内核的系统调用权限,具体请参见使用Seccomp限制容器的系统调用。 CCE新创建节点已经解决该漏洞。 您可以先创建新的节点,然后将老节点设置为不可调度,待老节点上应用都调度到新节点上后,删掉老节点或重置老节点。 相关链接 https://github.com/openconta