检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
细步骤可参考集群内资源迁移(Velero)。 原集群应用备份 当用户执行备份时,首先通过Velero工具在原集群中创建Backup对象,并查询集群相关的数据和资源进行备份,并将数据打包上传至S3协议兼容的对象存储中,各类集群资源将以JSON格式文件进行存储。 目标集群应用恢复 在
挂载绑定后,也能够正常访问,无需额外适配。 链改挂载绑定后,在到源目录和目标目录会存在两个相同的路径结构。并且在公共父目录下查找文件时,会在不同路径下查询到同一个文件。 例如:/var/lib/kubelet 和 /mnt/paas/kubernetes/kubelet 对应挂载
群中是否已安装npd插件,或将其升级至最新版本。npd安装成功后,可正常使用故障检测策略功能。 npd运行正常时,单击“故障检测策略”,可查看当前故障检测项。关于NPD检查项列表请参见NPD检查项。 当前节点检查结果异常时,将在节点列表处提示“指标异常”。 您可单击“指标异常”,按照修复建议提示修复。
uid 是 String 节点ID 表8 TaskStatus 参数 是否必选 参数类型 描述 jobID 否 String 任务ID,供调用者查询任务进度。 响应参数 状态码: 200 表9 响应Body参数 参数 参数类型 描述 apiVersion String API版本,固定值“v3”。
节点paas用户登录权限检查异常处理 检查项内容 检查paas用户是否有登录权限。 解决方案 执行以下命令查看paas用户是否有登录权限: sudo grep "paas" /etc/passwd 如果paas用户权限中带有"nologin"或者"false",说明paas用户没
C绑定。对象存储、文件存储、极速文件存储类型不支持设置为WaitForFirstConsumer。 单击“创建”。您可以在“存储类”页签下查看已经创建的存储类及相关信息。 通过YAML创建StorageClass 目前CCE默认提供csi-disk、csi-nas、csi-obs
和节点亲和调度,避免其他容器调度到该节点,以免出现业务异常。 限制业务容器访问管理面的操作步骤如下: 查询容器网段和内网apiserver地址。 在CCE的“集群管理”界面查看集群的容器网段和内网apiserver地址。 设置容器网络流量访问规则。 CCE集群:以root用户登录
命名空间因APIService对象访问失败无法删除 问题现象 删除命名空间时,命名空间一直处“删除中”状态,无法删除。查看命名空间yaml配置,status中有报错“DiscoveryFailed”,示例如下: 上图中报错信息为:Discovery failed for some
易用的端到端Kubernetes集群监控能力。 使用kube-prometheus-stack可将监控数据与监控中心对接,在监控中心控制台查看监控数据,配置告警等。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。
kube-prometheus-stack插件实例调度失败如何解决? 问题现象 安装kube-prometheus-stack插件时, 插件状态一直处于“部分就绪”,查看插件的prometheus实例事件中提示“0/x nodes are available: x node(s) had volume node
如何确认已创建的集群是否为多控制节点模式? 登录CCE控制台,进入集群,在集群详情页面右侧查看控制节点数量: 3个节点即为多控制节点模式。 1个节点即为单控制节点模式。 集群一旦创建,便无法更改控制节点数,需要重新创建集群才能调整。 父主题: 集群运行
docker exec crictl exec 无 查看容器详情 docker inspect crictl inspect ctr -n k8s.io c info 查看容器日志 docker logs crictl logs 无 查看容器的资源使用情况 docker stats crictl
在“采集配置”中找到“ServiceMonitor”,单击“管理”。 找到dcgm-exporter组件的ServiceMonitor并开启。 Prometheus页面查看指标监控信息 安装完Prometheus相关插件后,Prometheus默认会创建ClusterIP类型的服务,如果需要对外暴露,需要将P
[镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,登录指令中末尾的域名即为镜像仓库地址。 [组织名称]:请替换为已创建的组织名称。 [镜像名称2:版本名称2]:请替换为SWR镜像仓库中需要显示的镜像名称和镜像版本。
流量权重,并一直暂停,直到用户取消或继续发布。可通过以下命令查看详细过程,该发布正处于暂停状态。 kubectl argo rollouts get rollout rollout-canary --watch 可查看5个副本中有1个运行新版本,其余4个仍然运行旧版本,即setWeight:
单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控NGINX Ingress控制器指标 访问Prometheus,在“Graph”页面中,查看NGINX Ingress控制器指标。 图3 查看NGINX Ingress控制器监控指标
OnFailure 提交作业,开始训练。 kubectl apply -f mnist.yaml 等待训练作业完成,通过Kubeflow的UI可以查询训练结果信息。至此就完成了一次简单的分布式训练任务。Kubeflow的借助TFJob简化了作业的配置。Volcano通过简单的增加一行配置
[镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2] [镜像名称1:版本名称1]:请替换为您本地所要上传的实际镜像的名称和版本名称。 [镜像仓库地址]:可在SWR控制台上查询,登录指令中末尾的域名即为镜像仓库地址。 [组织名称]:请替换为已创建的组织名称。 [镜像名称2:版本名称2]:请替换为SWR镜像仓库中需要显示的镜像名称和镜像版本。
Ingress路由,NGINX Ingress控制器插件从1.x版本升级至2.x版本后,服务中断。 问题自检 针对Nginx类型的Ingress资源,查看对应Ingress的YAML,如Ingress的YAML中未指定Ingress类型,并确认该Ingress由Nginx Ingress C
Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。 关于GPU指标详情请参见GPU监控指标说明。 图3 查看GPU监控指标