检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调度工作负载 工作负载调度策略概述 设置指定节点调度(nodeSelector) 设置节点亲和调度(nodeAffinity) 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 父主题: 工作负载
Chart包,这非常繁琐且容易出错。 部分用户希望能够设置默认的StorageClassName,所有应用都使用默认存储类型,在YAML中不用指定StorageClassName也能按创建默认类型存储。 解决方案 本文介绍在CCE中自定义StorageClass的方法,并介绍设置默认StorageClass
annotation已被移除,如需要改为设置priorityClassName。 beta.kubernetes.io/os和beta.kubernetes.io/arch在1.14版本中已经废弃,计划在1.18版本中移除。 禁止通过--node-labels设置kubernetes.io和k8s
annotation已被移除,如需要改为设置priorityClassName。 beta.kubernetes.io/os和beta.kubernetes.io/arch在1.14版本中已经废弃,计划在1.18版本中移除。 禁止通过--node-labels设置kubernetes.io和k8s
用户在集群中运行的业务丰富多样,包括核心业务、非核心业务,在线业务、离线业务等,根据业务的重要程度和SLA要求,可以对不同业务类型设置相应的高优先级。比如对核心业务和在线业务设置高优先级,可以保证该类业务优先获取集群资源。当集群资源被非核心业务占用,整体资源不足时,如果有新的核心业务提交部署请
o调度器。 公平调度介绍 在实际业务中,经常会遇到将集群稀缺资源分配给多个用户的情况,每个用户获得资源的权利都相同,但是需求数却可能不同,如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法(max-min fairness sh
存储 存储扩容 跨账号挂载对象存储 通过StorageClass动态创建SFS Turbo子目录 1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 自定义StorageClass 使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度
附录 状态码 错误码 获取项目ID 获取账号ID 创建集群时指定要安装的插件 如何获取接口URI中参数 创建VPC和子网 创建密钥对 节点规格(flavor)说明 创建节点时password字段加盐加密的方法 节点可创建的最大Pod数量说明 节点操作系统 默认数据盘空间分配说明 节点磁盘挂载
在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(batch_size),共训练100次(step),记录每
为1时插件不具备高可用能力,当插件实例所在节点异常时可能导致插件功能无法正常使用,请谨慎选择。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。
使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 使用通用文件存储(SFS 3.0)自动收集异常退出的JVM转储文件 存储迁移实践 1.15集群如何从Flexvolume存储类型迁移到CSI Everest存储类型 父主题: 存储
drain 192.168.1.xx --ignore-daemonsets=true --delete-emptydir-data 参数详情请参见如何驱逐节点上的所有Pod。 预期效果: node/192.168.1.xx drained 如果有DaemonSet工作负载使用了GPU卡,
参数解释 默认取值 大规格 其他规格 初始缓冲区大小(Buffer_Chunk_Size) 设置初始缓冲区大小以读取文件。 256k 128k 缓冲区最大限制值(Buffer_Max_Size) 设置每个受监视文件的缓冲区大小限制。当需要增加缓冲区时,此值用于限制内存缓冲区可以增加多少
取值范围 默认值 是否允许修改 作用范围 eviction-soft 无 无 允许 CCE Standard/CCE Turbo 满足设置的阈值且持续时间超过设置的驱逐宽限期(evictionSoftGracePeriod)后才会驱逐节点上的 Pod,可配阈值范围与硬驱逐相同 驱逐宽限期
为无IPv4私网IP地址的ELB绑定一个私网IP。 登录CCE控制台,单击目标ELB名称。 在基本信息页面,单击“IPv4私有IP”旁的“绑定”。 设置子网及IPv4地址,并单击“确定”。 父主题: 升级前检查异常问题排查
对象存储(OBS) 对象存储概述 通过静态存储卷使用已有对象存储 通过动态存储卷使用对象存储 设置对象存储挂载参数 对象存储卷挂载设置自定义访问密钥(AK/SK) 跨区域使用OBS桶 父主题: 存储
Token由于token不支持设置过期时间、不支持自动刷新,并且由于存放在secret中,pod被删除后token仍然存在secret中,一旦泄露可能导致安全风险。1.23版本以及以上版本CCE集群推荐使用Bound Servcie Account Token,该方式支持设置过期时间,并且和p
修复伸缩组资源不足时无法正常修复节点池数量问题 1.23.0 1.23.17 v1.23 适配NPU和安全容器 节点伸缩策略支持不设置步长 bug修复,自动移除已删除的节点池 设置优先调度 注册EmptyDir调度策略 修复停用节点伸缩策略时,低于缩容阈值的节点未触发缩容的问题 修改自定义规格的内存申请与限制
若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路 GPU插件安装 父主题: 工作负载异常问题排查
d具有特定的节点选择器,且集群中的其他节点均不符合标准,则工作负载实例可能仍处于无法安排的状态。 删除过程中,系统会把当前节点池中的节点均设置为不可调度状态。 操作步骤 登录CCE控制台。 单击集群名称进入集群,在左侧选择“节点管理”,在右侧选择“节点池”页签。 单击节点池名称后的“更多