检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
设置节点亲和性时,填写节点标签对应的标签值。 true 调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证Pod全部运行在目标节点上,即节点包含gpu=true标签。 工作负载节点亲
为每个Job找到一个最合适的节点。将该Job 绑定到这个节点。action中执行的具体算法逻辑取决于注册的plugin中各函数的实现。 关闭本次会话。 Volcano自定义资源 Pod组(PodGroup):Pod组是Volcano自定义资源类型,代表一组强关联Pod的集合,主
URL说明 集群管理、节点管理、节点池管理、配额管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 Kubernetes API、存储管理、插件管理的URL格式为:https://{clusterid}.Endpoint/uri。其中
且监控数据需要满足Prometheus的规范。 部署应用并转换指标 在集群中使用该应用镜像部署工作负载,将自动上报自定义监控指标。 配置验证 前往AOM查看自定义指标是否采集成功。 约束与限制 ICAgent兼容Prometheus的监控数据规范,Pod提供的自定义指标必须满足
更新指定的节点 功能介绍 该API用于更新指定的节点。 当前仅支持更新metadata下的name字段,即节点的名字。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 调用方法 请参见如何调用API。 URI PUT /api
图8 权限管理列表 步骤四:权限验证 利用步骤一:创建用户与用户组新建的用户登录管理控制台,检查用户是否具有对应权限。本节以步骤一中新建的develop用户为例,验证权限是否配置成功。 利用新建用户登录管理控制台。 根据页面提示绑定手机号,进行登录验证。是否需要绑定手机号,取决于配置用户基本信息时的选择。
timeo=600 - hard PV创建后,可以创建PVC关联PV,然后在工作负载的容器中挂载,具体操作步骤请参见通过静态存储卷使用已有文件存储。 验证挂载参数是否生效。 本例中将PVC挂载至使用nginx:latest镜像的工作负载,并通过mount -l命令查看挂载参数是否生效。 查看
单个节点负载过高而导致的应用程序或节点故障。 配置案例1 开启负载感知调度策略,使用默认权重值5。插件详情与配置方法请参见负载感知调度。 关闭装箱调度策略(binpack)。插件详情与配置方法请参见装箱调度(Binpack)。 配置建议如下: 优先确保各节点CPU资源负载趋于均衡
设置xGPU配额 本文主要为您介绍GPU虚拟化的使用,其他参数详情请参见工作负载。 其余信息都配置完成后,单击“创建”。 工作负载创建成功后,您可以尝试验证GPU虚拟化的隔离能力。 登录容器查看容器被分配显存总量。 kubectl exec -it gpu-app -- nvidia-smi 预期输出:
获取任务信息 功能介绍 该API用于获取任务信息。通过某一任务请求下发后返回的jobID来查询指定任务的进度。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 该接口通常使用场景为: 创建、删除集群时,查询相应任务的进度。
创建节点 功能介绍 该API用于在指定集群下创建节点。 若无集群,请先创建集群。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 接口约束 仅支持创建KVM虚拟化类型的节点,非KVM虚拟化类型的节点创建后无法正常使用。
0.11 192.168.0.73 <none> <none> ... 调用dcgm-exporter接口,验证采集的应用GPU信息。 其中172.16.0.11为dcgm-exporter组件的Pod IP。 curl 172.16.0.11:9400/metrics
the VPC of master 重要 检查集群删除控制节点VPC是否成功。 删除集群证书失败 Failed to delete certificate of cluster 重要 检查集群删除集群证书是否成功。 删除控制节点云服务器组失败 Failed to delete the server
变更集群规格 功能介绍 该API用于变更一个指定集群的规格。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 使用限制请参考变更集群规格。 调用方法 请参见如何调用API。 URI POST /api/v3/proj
更新指定节点池 功能介绍 该API用于更新指定的节点池。仅支持集群在处于可用、扩容、缩容状态时调用。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 当前仅支持更新节点池名称,spec下的initialNodeCoun
获取集群下所有节点池 功能介绍 该API用于获取集群下所有节点池。 集群管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径 nodepool是集群中具有相同配置的节点实例的子集。 调用方法 请参见如何调用API。 URI GET
ring名空间下,默认不识别任何其他命名空间的ServiceMonitor和PodMonitor。 只支持无本地存储的模式。 开启后不支持关闭,可通过插件卸载安装的方式切换为正常模式。 暂不支持成本优化。 暂不支持在AOM页面进行指标废弃。 暂不支持在AOM页面进行Service
量的云盘,便于快速扩展。 创建StatefulSet应用。 kubectl create -f statefulset.yaml 配置验证 验证动态创建的存储卷(PV)是否跟随Pod实例部署在不同可用区。 通过以下命令查看新建的PV。 kubectl get pv 回显如下,其中前3条为随Pod实例动态创建的PV。
检查到您集群中Ingress配置与ELB配置不一致,请确认是否在ELB侧修改过Ingress自动创建的监听器、转发策略、转发规则、后端云服务器组、后端云服务器和证书配置。 升级后会覆盖您在ELB自行修改的内容,请整改后再进行集群升级。 解决方案 根据诊断分析中的日志排查哪些资源需要整改,常见场景是在I
类型:独享型 可用区:单可用区 规格:网络型(TCP/UDP),小型 I 规格(10LCU) 公网带宽:5Mbit/s,按流量计费 1 在业务验证过程中,出于一些原因,该用户对集群的资源进行了以下变更: 图1 资源变更样例 该用户于2023/03/18 17:30:00对集群进行休眠,并同时对节点进行关机。