检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
_priority_job后,将high_priority_job部署到节点上。在Cluster Autoscaler新扩容节点后,volcano-scheduler再将med_priority_job调度到新节点上。 根据上述结果,在启用优先级抢占调度时,建议您开启节点弹性,以
metadata: name: tfjob-simple namespace: kubeflow spec: tfReplicaSpecs: Worker: replicas: 2 restartPolicy: OnFailure template:
上面示例表示这个Pod容忍标签为key1=value1,效果为NoSchedule的污点,所以这个Pod能够调度到对应的节点上。 同样还可以按如下方式写,表示当节点有key1这个污点时,可以调度到节点。 tolerations: - key: "key1" operator: "Exists"
A驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。 通过节点池升级存量节点的NVIDIA驱动,本质上是在重启节点的过程中重
coredns到自建DNS网络是否正常,工作负载到自建DNS的网络是否正常,如不正常: 请打通到自建DNS网络 请确保DNS的UDP53端口放行,需要对Pod网段安全组&ACL放通如下策略: 节点网段到节点网段 节点网段到容器网段 容器网段到节点网段 容器网段到容器网段 父主题:
成本。 设置集群默认调度器 默认调度器 (default-scheduler) Kubernetes调度器可以发现集群中新创建且尚未被调度到节点上的Pod,并负责将未调度的Pod指派到一个合适的节点上运行。在同一个集群中可以使用多个不同的调度器,kube-scheduler调度器
"*****", "driver_init_image_version" : "2.1.30", "ecsEndpoint" : "*****", "everest_image_version" : "2.1.30",
通过Kubectl命令行创建Nginx Ingress 本节以Nginx工作负载为例,说明kubectl命令添加Nginx Ingress的方法。 关于CCE v1.23集群中Ingress API版本升级的说明 CCE从v1.23版本集群开始,将Ingress切换到networking
服务加入Istio后,如何获取客户端真实源IP? 问题现象 服务启用Istio后,访问日志中无法获取到客户端源IP。 解决方案 本文以绑定ELB类型Service的nginx应用为例,详细步骤如下: ELB侧开启获取客户端IP 独享型ELB默认开启源地址透传功能,无需手动开启。
冻结或不可用的集群删除后如何清除残留资源 处于非运行状态(例如冻结、不可用状态)中的集群,由于无法获取集群中的PVC、Service、Ingress等资源,因此删除集群之后可能会残留网络及存储等资源,您需要前往资源所属服务手动删除。 弹性负载均衡资源 前往弹性负载均衡控制台。 通过集群使用的VPC
参数说明 多可用区部署 优先模式:优先将插件的Deployment实例调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 均分模式:插件Deployment实例均匀调度到当前集群下各可用区,增加新的可用区后建议扩容插件实例以实现跨可用区高可用
工作负载异常:Pod一直处于Terminating状态 工作负载异常:实例驱逐异常(Evicted) 容器异常退出状态码 如何让多个Pod均匀部署到各个节点上? 如何驱逐节点上的所有Pod? 网络管理 集群安全组规则配置 工作负载网络异常时,如何定位排查? 为什么访问部署的应用时浏览器返回404错误码?
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
多个Ingress使用同一个ELB对外端口的配置说明 在同一个集群中,多个Ingress可以使用同一个监听器(即使用同一个负载均衡器的同一个端口)。如果两个Ingress设置了不同的监听器配置,则实际生效的监听器配置将以最早创建的Ingress(以下简称为“首路由”)配置为准。关
如何上传我的镜像到CCE中使用? 镜像的管理是由容器镜像服务(SoftWare Repository)提供的,当前容器镜像服务提供如下上传镜像的方法: 客户端上传镜像 页面上传镜像 如您需要将Harbor镜像仓库平滑地迁移到容器镜像服务,请参考跨云Harbor同步镜像至华为云SWR。
动与CCE其他GPU组件兼容(例如监控组件等)。 如果您使用不在GPU驱动支持列表内的GPU驱动版本,可能引发GPU驱动与操作系统版本、ECS实例类型、Container Runtime等不兼容,继而导致驱动安装失败或者GPU插件异常。对于使用自定义GPU驱动的场景,请您自行验证。
存储容量,单位Gi,必须和已有pv的storage大小保持一致。 volumeName PV的名称。 极速文件存储所在VPC,子网必须与工作负载规划部署的ECS虚拟机的VPC保持一致,安全组开放入方向端口(111、445、2049、2051、20048)。 创建PV。 kubectl create -f
最后,通过Volcano丰富多样的、按需启用的调度策略,将应用调度到合适的环境中。如:基于预测的智能调度策略、基于业务的binpack装箱/重调度策略、基于运行态势的资源超卖策略等。 Volcano将分布式云平台中的资源统一管理,将不同类型的应用调度到合适的位置,有效的解决了多集群带来的资源碎片问题
云原生监控插件升级检查异常处理 检查项内容 在集群升级过程中,云原生监控插件从3.9.0之前的版本升级至3.9.0之后的版本升级时,存在兼容性问题,需检查该插件是否开启了grafana的开关。 解决方案 由于云原生监控插件在3.9.0之后的版本,不再聚合grafana的能力,因此
能调度到拥有特定标签的节点上,详情请参见PodNodeSelector。 登录CCE控制台,单击集群名称进入集群,在左侧选择“命名空间”。 找到目标命名空间,单击“节点亲和”列的。 在弹出的窗口中,选择“启用”并单击“确定”。 启用后,命名空间下新创建的工作负载只能调度到拥有特定