检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
docker容器引擎的节点上运行,请使用containerd容器引擎。详细原因请参见组件说明。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。
单击右上角“创建存储卷PV”,并设置以下参数。 存储卷类型:选择“文件存储”。 文件存储:选择数据迁移后的通用文件系统(SFS 3.0)存储卷。 PV名称:自定义PV名称。 访问模式:选择“ReadWriteMany”。 回收策略:请按需设置。 Delete:删除动作会将Per
您可以选择Delete或Retain,用于指定删除PVC时底层存储的回收策略,详情请参见PV回收策略。 a:创建方式选择“已有存储卷 PV”时可设置。 b:创建方式选择“新建存储卷 PV”时可设置。 单击“创建”,将同时为您创建存储卷声明及存储卷。 您可以在左侧导航栏中选择“存储”,在“存储卷声明”和“存储卷
emptyDir: {} emptyDir实际是将Volume的内容写在Pod所在节点的磁盘上,另外emptyDir也可以设置存储介质为内存,如下所示,medium设置为Memory。 volumes: - name: html emptyDir: medium:
Everest版本为2.4.4及以上支持使用通用型SSD V2和极速型SSD V2。通用型SSD V2支持自定义设置IOPS和吞吐量,极速型SSD V2支持自定义设置IOPS,设置范围参见云硬盘性能数据表。 容量(GiB) 申请的存储卷容量大小。 计费模式 集群版本为v1.23.14-r0、v1
能生效。否则不会自动安装NPU驱动,需要手动重新安装。 若已在节点池的“安装后执行脚本”设置了NPU驱动安装命令,且开启了“驱动选择”功能并选择了对应机型的NPU驱动,节点池扩容会导致前端设置的安装命令和npu-driver-installer Pod 同时在新增节点上安装驱动,
单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“扩缩容”。 在弹出的“节点池扩缩容”窗口中,设置扩缩容参数。 扩缩容:选择“扩容节点”或“缩容节点”。 扩容/缩容规格:使用选择的规格扩容或缩容节点。 计费模式:仅扩容节点时需选择。 包年包月
96feb0a425d6 | grep oom 创建工作负载时,设置的限制资源若小于实际所需资源,会触发系统OOM,并导致容器异常退出。 排查项五:工作负载的容器规格设置较小导致 工作负载的容器规格设置较小导致,若创建工作负载时,设置的限制资源少于实际所需资源,会导致启动容器失败。 排查项
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
针对故障和潜在风险,给出风险等级并提供修复建议 使用场景 运维对集群做变更前的集群状况检测,可随时主动触发健康诊断 支持运维的定时巡检,可设置定时执行时间,定期检查集群风险 集群诊断健康提炼了运维专家提供的高频故障案例,分别从如下方面进行检查: 维度 检查项 运维层面 集群运维能力
10操作系统,采用如下命令查看内核版本: uname -a 若查询结果在3.15-6.8之间,则受该漏洞影响。 漏洞消减方案 建议容器工作负载设置seccomp,示例如下: 针对Huawei Cloud EulerOS 2.0、Ubuntu 22.04、EulerOS 2.9、EulerOS
修改Volcano调度配置。 在nodeorder插件中,添加arguments参数,配置leastrequested.weight为0,即资源分配最少的节点优先级设置为0。 新增binpack插件,并指定xGPU自定义资源(volcano.sh/gpu-core.percentage和volcano.sh/gpu-mem
d具有特定的节点选择器,且集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 删除过程中,系统会把当前节点池中的节点均设置为不可调度状态。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多
nodePublishSecretRef为对象存储卷挂载使用的访问密钥(AK/SK),您需要使用AK/SK创建一个Secret,在创建PV时使用。详细说明请参见对象存储卷挂载设置自定义访问密钥(AK/SK)。 创建PVC。 apiVersion: v1 kind: PersistentVolumeClaim metadata:
请在云原生监控插件中开启“上报至AOM服务”开关。对于上报至AOM服务的GPU指标属于自定义指标,将进行按需收费,详情请参见价格详情。 设置插件支持的其他参数配置,单击“安装”。参数配置详情请参见CCE AI套件(NVIDIA GPU)。 步骤二:采集DCGM指标信息 默认情况
matchLabels 否 matchLabels object 参数解释: evs盘的匹配字段。 约束限制: storageType设置为system(系统盘)时,无需设置此字段。 取值范围: 支持DataVolume中的size、volumeType、iops、throughput、met
向公众暴露服务。 NodePort:通过每个节点上的 IP 和静态端口(NodePort)暴露服务。 为了让节点端口可用,Kubernetes 设置了集群 IP 地址,这等同于您请求 type: ClusterIP 的服务。 LoadBalancer:使用云提供商的负载均衡器向外部暴露
policyName字段值为enhanced-static代表策略设置成功。 优先使用CPU号将10000作为基数,本例中10001即代表容器使用的亲和CPU号为1,0-7代表该Pod中容器可以使用的CPU集合。 查看容器的cpuset.preferred_cpus的cgroup设置,输出内容即为优先使用的CPU号。
插件版本为2.7.40及以上时,支持部署dcgm-exporter组件。dcgm-exporter组件保持社区能力,暂不支持共享模式和GPU虚拟化。 设置插件支持的“参数配置”。 表1 GPU插件参数配置 参数 参数说明 集群默认驱动 集群下全部GPU节点将使用相同的驱动,请选择合适的GPU
h1144.eulerosv2r9.aarch64 问题根因 EulerOS 4.18版本内核存在调度相关问题,使用CPU cgroup场景下,设置cfs bandwidth,并触发CPU带宽管控,会概率性触发warn级别告警打印,该流程会持有调度的rq锁,跟其他进程发生死锁(x86_