检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ndpoint; mesh_region为网格所在区域; domain-name为租户名,user-name为子用户名,password为子用户密码,请根据替换为实际的值。 若无子用户,user-name与domain-name配置一致即可,也可以不添加user-name参数。
"type" : "Federation", "status" : "Unavailable", "reason" : "FederationUnavailable", "message" : "component volcano-scheduler
template: metadata: labels: app: gpu spec: containers: - image: nginx:alpine name: gpu resources:
生效资源类型:Service 参数:无 作用 不允许Service为NodePort类型。 策略实例示例 apiVersion: constraints.gatekeeper.sh/v1beta1 kind: K8sBlockNodePort metadata: name: block-node-port
keep name: default-event-aom namespace: kube-system spec: inputDetail: #采集端配置 type: event #采集端类型,请勿修改 event: normalEvents:
labels: app: gpu-app spec: containers: - name: container-1 image: <your_image_address> # 请替换为您的镜像地址
生效资源类型:Service 参数:无 作用 不允许Service为LoadBalancer类型。 策略实例示例 apiVersion: constraints.gatekeeper.sh/v1beta1 kind: K8sBlockLoadBalancer metadata: name:
集群处于异常状态的排查思路大致可根据报错信息进行定位,如表1所示。 表1 报错信息说明 报错信息 说明 推荐排查项 “currently no agents available, please make sure the agents are correctly registered” 出现该错误的原因
请求未完成。服务器不支持所请求的功能。 502 Bad Gateway 请求未完成。服务器从上游服务器收到一个无效的响应。 503 Service Unavailable 请求未完成。系统暂时异常。 504 Gateway Timeout 网关超时。 父主题: 附录
log-operator标准输出报错:Failed to create log group, the number of log groups exceeds the quota 示例: 2023/05/05 12:17:20.799 [E] call 3 times failed, resion:
限制服务externalIP仅为允许的IP地址列表。 策略实例示例 服务的externalIP仅允许allowedIPs中定义的IP。 apiVersion: constraints.gatekeeper.sh/v1beta1 kind: K8sExternalIPs metadata: name: external-ips
成功阈值(successThreshold) 探测失败后,被视为成功的最小连续成功数。 默认值是 1,最小值是 1。 存活和启动探测的这个值必须是 1。 最大失败次数(failureThreshold) 当探测失败时重试的次数。 存活探测情况下的放弃就意味着重新启动容器。就绪探测情况下的放弃 Pod 会被打上未就绪的标签。
targetReplicas: 10 # 目标Pod数,非负整数 timeZone: Asia/Shanghai # 时区 - name: "Scale-Down" # 规则名称 schedule:
使用“自定义”规格创建更多的metrics-server实例,请先对manage节点进行扩容。 manage节点在本地集群内使用tag和taint进行管理,因此对manage节点进行扩容只需要为集群内非manage节点打上标签和污点即可,具体步骤如下: 进入UCS集群控制台,单击左侧导航栏内的“节点管理”。
"type" : "Federation", "status" : "Unavailable", "reason" : "FederationUnavailable", "message" : "component volcano-scheduler
样,可能是由于创建的策略实例进行了拦截。为解决此问题,请在集群上执行以下命令删除相应策略实例。 kubectl delete constraint --all 以上问题解决后,重新查看proxy-agent运行状态,所有Pod处于“Running”状态。 父主题: 附着集群
icmanager-${driver_version_main}_${driver_version}-1_amd64.deb dpkg -i nvidia-fabricmanager-${driver_version_main}_${driver_version}-1_amd64
StorageClass:支持PVC、有状态应用VolumeClaimTemplates中存储类名称按照配置进行自动更换。 ImageRepo:支持工作负载所使用镜像的Repository地址的更换,工作负载包括Deployment(含initContainer)、StatefulSet、Orphaned
"password": "********", "domain": { "name": "domainname" } }
系统架构 X86 GPU类型 T4、V100 GPU驱动版本 470.57.02、510.47.03、535.54.03 容器运行时 containerd 插件 集群中需要同时安装以下插件: volcano插件:1.10.1及以上版本 gpu-device-plugin插件:2.0.0及以上版本