检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
上方的“创建自定义策略”。 配置自定义策略参数。详情请参见创建自定义策略。 策略名称:设置为CCE Subscribe Operator。 策略配置方式:选择“JSON视图”。 策略内容:设置策略内容如下。 { "Version": "1.1", "Statement":
requests: storage: 1Gi # 存储容量,单位为Gi,对OBS桶来说,此处仅为校验需要(不能为空和0),设置的大小不起作用,此处设定为固定值1Gi 表1 关键参数说明 参数 描述 volume.beta.kubernetes.io/storage-class
在“网络信息”中单击“节点默认安全组”后的“编辑”按钮。 图1 节点默认安全组 选择一个已有的安全组,并确认安全组规则满足集群要求后,单击“确定”。 请确认选择的安全组设置了正确的端口规则,否则将无法成功创建节点。安全组需要满足的端口规则根据集群类别存在差异,详情请参见集群安全组规则配置。 新安全组只对新创建
CPU 500m、内存1000Mi,每1000条伸缩策略配置CPU 100m、内存500Mi。 设置插件实例的部署策略。 调度策略对于DaemonSet类型的插件实例不会生效。 设置多可用区部署或节点亲和策略时,需保证集群中存在满足调度策略的节点且拥有足够的资源,否则插件实例将无法运行。
配置其他工作负载参数后,单击“创建工作负载”。 等待工作负载正常运行后,您可登录容器执行以下语句,查看该密钥是否已被设置为工作负载的环境变量。 printenv username 如输出与Secret中的内容一致,则说明该密钥已被设置为工作负载的环境变量。 使用kubectl方式 请参见通过kubectl连接集群配置kubectl命令。
场景二 pod的内存的limit设置较小,实际使用率超过limit,导致容器触发了OOMkill。 解决方法: 扩大工作负载内存的limit设置。 示例 本例将创建一个Pod尝试分配超过其限制的内存,如下这个Pod的配置文档,它申请50M的内存, 内存限制设置为100M。 memory-request-limit-2
参照表1设置命名空间参数。 表1 命名空间基本信息 参数 参数说明 名称 新建命名空间的名称,命名必须唯一。 描述 输入对命名空间的描述信息。 配额管理 资源配额可以限制命名空间下的资源使用,进而支持以命名空间为粒度的资源划分。 须知: 建议根据需要在命名空间中设置资源配额,避免因资源过载导致集群或节点异常。
扩缩容优先级策略。 若要使用扩容调度优先级策略,需要将工作负载的spec.schedulerName设置成volcano或者将集群默认调度器设置成volcano。目前对于没有设置资源Requests和Limits属性的工作负载,扩容优先级功能不生效。 以使用默认优先级策略为例,调度器在调度工作负载时会按照包周期节点
23集群:v1.23.9-r0及以上版本 v1.25集群:v1.25.4-r0及以上版本 通过kubectl命令行设置 您可以通过对工作负载添加annotations来设置是否开启Pod延时启动功能,如下所示。 apiVersion: apps/v1 kind: Deployment
节点进程 ID数量上限kernel.pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件 若属
重新调度,因此需要检查Pod对污点的容忍策略。 解决方案 通过查询Pod或者工作负载的yaml,查看容忍策略。一般情况下,工作负载的容忍度设置由以下字段组成: tolerations: - key: "key1" operator: "Equal" value: "value1"
力配置,您可以在此开启装箱策略、基于优先级的调度与抢占、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,为您节约成本。 设置集群默认调度器 默认调度器 (default-scheduler) Kubernetes调度器可以发现集群中新创建且尚未被调度到节点上的P
的规则,详情请参见使用RBAC鉴权。 ClusterRole:ClusterRole是一个集群级别的资源,可设置集群的访问权限。 Role:Role用于在某个命名空间内设置访问权限。当创建Role时,必须指定该Role所属的命名空间。 图2 自定义权限 单击“确定”。 父主题: API&kubectl
自定义扩容规则:单击“添加规则”,在弹出的添加规则窗口中设置参数。您可以设置多条节点弹性策略,最多可以添加1条CPU使用率指标规则、1条内存使用率指标规则,且规则总数小于等于10条。 规则类型可选择“指标触发”或“周期触发”,两种类型区别如下: 表1 自定义规则类型 规则类型 参数设置 指标触发 触发条件:请选
选择自定义指标 示例中以cce_gpu_memory_utilization(GPU显存使用率)作为伸缩指标,其余HPA参数的设置请根据实际需求进行设置,详情请参见创建HPA策略。 返回“策略”页面,查看HPA策略已创建成功。 图5 HPA策略创建成功 父主题: GPU调度
天内任意时间段的操作事件。 您可以参考云审计服务应用示例,来学习如何查询具体的事件。 在事件列表页面,您还可以导出操作记录文件、刷新列表、设置列表展示信息等。 在搜索框中输入任意关键字,按下Enter键,可以在事件列表搜索符合条件的数据。 单击“导出”按钮,云审计服务会将查询结果以
手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格进行伸缩。当选择的节点规格资源不足或配额不足时,会导致扩容失败。 设置优先级 关于如何设置节点池规格优先级详情请参见配置集群弹性伸缩策略。 父主题: 节点弹性伸缩
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
节点优先级配置:您可以自行定义节点升级的优先级顺序。如不设置该优先级,系统将根据默认策略生成优先级顺序执行升级。 添加节点池优先级:自定义节点池升级的优先级顺序。如不设置,默认策略为节点数量少的节点池优先升级。 添加节点优先级:自定义节点池内节点升级的优先级顺序。如不设置,默认策略为负载较轻(根据节点P
将工作负载部署到特定节点池 在配置工作负载时,您可以通过工作负载“调度策略”来设置工作负载与节点的亲和性,强制将该工作负载部署到特定节点池上,从而实现该工作负载仅在该节点池中的节点上运行的目的。如果您需要更好地控制工作负载实例的调度位置,您可以使用设置节点亲和调度(nodeAffinity)章节中关于工作负载与节点的亲和或反亲和策略相关说明。