检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
默认值:default-scheduler disable_mount_path_v1 否 Bool 默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 disable_nvidia_gsp 否 Bool 默认值:true
工作负载或具体实例的事件名称、事件类型、发生次数、Kubernetes事件、首次和最近发生的时间。 事件保存时间为1小时,1小时后自动清除数据。 父主题: 工作负载
本文以本地持久卷举例,修复本地临时卷时,使用相应的卷组即可。 本文提供的指导仅能恢复误卸载磁盘后存储池页面显示“不可用”状态,修复后可重新导入持久卷或临时卷,但无法恢复原有数据。 问题现象 当用户错误卸载存储池的磁盘时,会导致该节点存储池状态不可用。 问题定位 使用kubectl命令查看nodelocalvolumes资源:
需要手动删除回收。PVC删除后PV资源状态为“已释放(Released)”,不能直接再次被PVC绑定使用。 如果数据安全性要求较高,建议使用Retain以免误删数据。 定义完之后,使用kubectl create命令创建。 # kubectl create -f sas.yaml
此处设置的回收策略对SFS Turbo类型的存储无影响,因此删除集群或删除PVC时不会回收包周期的SFS Turbo资源。 如果数据安全性要求较高,建议使用Retain以免误删数据。 定义完之后,使用kubectl create命令创建。 # kubectl create -f sas.yaml
Prometheus格式的指标中找到;可以通过http://localhost:9153/metrics获取prometheus格式的监控数据。 proxy、forward:任何不在Kubernetes集群域内的查询都将转发到预定义的解析器(/etc/resolv.conf);本
23 v1.25 v1.27 修复部分问题 2.1.51 v1.19 v1.21 v1.23 v1.25 v1.27 支持Huawei Cloud EulerOS 2.0系统 2.1.50 v1.19 v1.21 v1.23 v1.25 v1.27 - 2.1.46 v1.19 v1
记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版本执行:/usr/local/nvidia/bin/nvidia-smi
zone),可在指定可用区调度时使用。 kubernetes.io/hostname:节点的hostname,可在指定节点调度时使用。 cce.cloud.com/cce-nodepool:节点所属的节点池,可在指定节点池调度时使用。 本示例中,必须满足的规则表示调度的节点必须包含一个键名
确保在多种类型资源共存的环境下,尽可能满足分配的公平原则。 配置建议: DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 组调度 将一组Pod看做一个整体进行资源分配。观察Job下的Pod已调度数量是否满足了最小运行数量,当J
低系统性能。为此,volcano提供了NUMA亲和性调度能力,尽可能把Pod调度到需要跨NUMA节点最少的工作节点上,这种调度策略能够降低数据传输开销,优化资源利用率,从而增强系统的整体性能。 更多资料请查看社区NUMA亲和性插件指导链接:https://github.com/v
”。例如:/foo/bar会匹配/foo/bar/。 关于Ingress路径匹配示例,请参见示例。 表2 elb.autocreate字段数据结构说明 参数 是否必填 参数类型 描述 name 否 String 自动创建的负载均衡的名称。 取值范围:只能由中文、英文字母、数字、下