检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Node节点安全组 若不含有该规则请为Node安全组添加该放通规则,协议端口选择“基本协议/ICMP”,端口号为“全部”,源地址选择“安全组”并设置为Master安全组,描述信息为"Created by CCE,please don't modify! Used by the master
13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点 负载均衡支持设置名称 4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend
单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”。 在弹出的“节点池扩缩容”窗口中,设置扩缩容参数。 扩缩容:选择“扩容节点”或“缩容节点”。 扩容/缩容规格:使用选择的规格扩容或缩容节点。 计费模式:仅扩容节点时需选择。 包年包月
13版本集群说明 Kubernetes版本(CCE增强版) 版本说明 v1.13.10-r0 主要特性: CCE集群支持添加ARM节点 负载均衡支持设置名称 4层负载均衡支持健康检查,7层负载均衡支持健康检查/分配策略/会话保持 CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
10操作系统,采用如下命令查看内核版本: uname -a 若查询结果在3.15-6.8之间,则受该漏洞影响。 漏洞消减方案 建议容器工作负载设置seccomp,示例如下: 针对Huawei Cloud EulerOS 2.0、Ubuntu 22.04、EulerOS 2.9、EulerOS
nodePublishSecretRef为对象存储卷挂载使用的访问密钥(AK/SK),您需要使用AK/SK创建一个Secret,在创建PV时使用。详细说明请参见对象存储卷挂载设置自定义访问密钥(AK/SK)。 创建PVC。 apiVersion: v1 kind: PersistentVolumeClaim metadata:
修改Volcano调度配置。 在nodeorder插件中,添加arguments参数,配置leastrequested.weight为0,即资源分配最少的节点优先级设置为0。 新增binpack插件,并指定xGPU自定义资源(volcano.sh/gpu-core.percentage和volcano.sh/gpu-mem
“替换所有级”对应的结果为:library/nginx -> dev-container/nginx。 触发模式:选择“手动”。 带宽:设置执行该条同步规则时的最大网络带宽,“-1”表示无限制。 创建完成后,选中后单击“复制”即可完成同步。 专线打通场景 配置VPC终端节点。
d具有特定的节点选择器,且集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 删除过程中,系统会把当前节点池中的节点均设置为不可调度状态。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多
h1144.eulerosv2r9.aarch64 问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_
该问题常见于文件存储挂载模式为hard的场景,在hard模式下,所有访问挂载点的进程都会Hang住,直到访问成功。使用soft模式挂载可以避免该情况,具体请参见设置挂载参数。 父主题: 工作负载异常问题排查
插件版本为2.7.40及以上时,支持部署dcgm-exporter组件。dcgm-exporter组件保持社区能力,暂不支持共享模式和GPU虚拟化。 设置插件支持的“参数配置”。 表1 GPU插件参数配置 参数 参数说明 集群默认驱动 集群下全部GPU节点将使用相同的驱动,请选择合适的GPU
用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心业务占用,整体资源不足时,如果有新的核心业务提交部署请
选择“自定义规格”时,您可根据需求调整插件实例数和资源配额。实例数为1时插件不具备高可用能力,当插件实例所在节点异常时可能导致插件功能无法正常使用,请谨慎选择。 设置插件支持的“参数配置”。 表1 swr-cosign插件参数配置 参数 参数说明 KMS密钥 选择一个密钥,仅支持 EC_P256、EC_P384、SM2
9及以下版本集群建议配置;1.17.17及以上版本当前已在操作系统镜像中将kernel.pid_max调整为4194304,无需配置。 您可以设置节点池安装前执行脚本,在节点池中新创建节点时通过脚本配置kernel.pid_max大小。 在创建节点池时,在“高级配置 > 安装后执行脚本”中添加如下命令。
存资源被普通工作负载占用的情况,导致GPU/NPU资源闲置。 解决方案 在使用GPU/NPU节点时,可以为其添加污点,并通过工作负载容忍度设置,避免非GPU/NPU工作负载调度到GPU/NPU节点上。 GPU/NPU工作负载:添加指定污点的容忍度,可以调度至GPU/NPU节点。
自定义亲和策略:填写期望插件部署的节点标签实现更灵活的调度策略,若不填写将根据集群默认调度策略进行随机调度。 配置建议: 使用默认配置 同时设置多条自定义亲和策略时,需要保证集群中存在同时满足所有亲和策略的节点,否则插件实例将无法运行。 容忍策略 节点异常时等待指定时间再驱逐插件volcano容器实例,提高插件可用性
化资源的无状态负载,并将GPU申请量设为大于集群现有GPU资源上限。例如:集群中有16GiB显存的资源,假设每个Pod占用1GiB显存,则设置Pod数量为17个,合计17GiB显存。 在等待一小段时间后,可以在节点池详情页面中,可观察到GPU节点的扩容。 父主题: GPU调度
how to fix it, please visit the web page mentioned above. 设置ca.crt的环境变量。将ca.crt的路径设置到CURL_CA_BUNDLE环境变量中,这将指示curl命令使用该证书文件作为信任锚点。 export CURL_CA_BUNDLE