检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CCE集群删除之后相关数据能否再次找回? 问题描述: CCE集群删除之后相关数据能否再次找回? 问题解答: 集群删除之后,部署在集群上的工作负载也会同步删除,无法恢复,请慎重删除集群。 父主题: 集群运行
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
String API版本 metadata 否 metadata object 分区的元数据信息 spec 否 spec object 分区的配置信息 表3 metadata 参数 是否必选 参数类型 描述 name 否 String 分区名称 表4 spec 参数 是否必选 参数类型
对象存储对应的默认存储类为csi-obs。 您可以自建存储类并配置回收策略和绑定模式,具体操作请参见通过控制台创建StorageClass。 存储卷名称前缀(可选) 集群版本为v1.23.14-r0、v1.25.9-r0、v1.27.6-r0、v1.28.4-r0及以上时支持,且集群中需安装2.4.15及以上版本的Everest插件。
节点内存检查异常处理 检查项内容 检查节点内存使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
节点CPU使用率检查异常处理 检查项内容 检查节点CPU使用量是否超过90%。 解决方案 请在业务低峰时进行集群升级。 请检查该节点的Pod部署数量是否过多,适当驱逐该节点上Pod到其他空闲节点。 父主题: 升级前检查异常问题排查
获取namespace的详情信息。 $ kubectl get ns rdbms -o json > rdbms.json 查看namespace定义的json配置,编辑json文件并删除掉spec部分。 $ cat rdbms.json { "apiVersion": "v1", "kind":
io/region: <your_region> # 替换为您待部署应用的节点所在的区域 failure-domain.beta.kubernetes.io/zone: <your_zone> # 替换为您待部署应用的节点所在的可用区 spec: accessModes:
除,请使用kubectl get cm -o yaml -n kube-system kubeadm-config来直接获取kubeadm配置。 Kubeadm:弃用kubeadm alpha kubelet config enable-dynamic命令。 Kubeadm:kubeadm
创建PVC时动态创建SFS Turbo子目录,实现不同工作负载共享使用SFS Turbo。 前提条件 您已经创建好一个集群,并且在该集群中安装2.3.23及以上版本的CCE容器存储(Everest)。 如果您需要通过命令行创建,需要使用kubectl连接到集群,详情请参见通过kubectl连接集群。
除,请使用kubectl get cm -o yaml -n kube-system kubeadm-config来直接获取kubeadm配置。 Kubeadm:弃用kubeadm alpha kubelet config enable-dynamic命令。 Kubeadm:kubeadm
协议版本:请根据业务选择不同版本的IP地址,具体请参见如何通过CCE搭建IPv4/IPv6双栈集群?。该功能仅在1.15及以上版本的集群创建时开启了IPv6功能才会显示。 端口配置: 协议:请根据业务的协议类型选择。 服务端口:Service使用的端口,端口范围为1-65535。 容器端口:工作负载程序实际监听的端口
扩缩容的节点池,只能填一个伸缩组,如果要伸缩默认伸缩组填default options 否 ScaleNodePoolOptions object 节点池伸缩选项配置 表5 ScaleNodePoolOptions 参数 是否必选 参数类型 描述 scalableChecking 否 String 扩容状态检查策略:
key1=value1:NoSchedule node/192.168.10.240 tainted 通过describe命名和get命令可以查看到污点的配置。 $ kubectl describe node 192.168.10.240 Name: 192.168.10
检查工作负载副本扩容是否正常。 Pod 待机失败 FailedStandBy 次要 检查Pod待机是否成功。 Pod 更新配置失败 FailedReconfig 次要 检查Pod更新配置是否成功。 Pod 激活失败 FailedActive 次要 检查Pod是否激活成功。 Pod 回滚失败 FailedRollback
kind 否 String API类型,固定值“RemoveNodesTask”。 spec 是 RemoveNodesSpec object 配置信息 status 否 TaskStatus object 任务状态 表4 RemoveNodesSpec 参数 是否必选 参数类型 描述
批量计算 在CCE集群中部署使用Kubeflow 在CCE集群中部署使用Caffe 在CCE集群中部署使用Tensorflow 在CCE集群中部署使用Flink 在CCE集群中部署使用ClickHouse 在CCE集群中部署使用Spark
installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeFailed:升级失败,表示插件升级失败,可重试升级或卸载后重新安装。 deleting:删除中,表示插件正在删除中。
local 。这种使用有限制,注册中心部署必须容器化部署。 方案二:容器部署使用主机网络部署,然后亲和到集群的某一个节点,这样可以明确知道容器的服务地址(就是节点的地址),注册的地址为:服务所在节点IP,这种方案可以满足注册中心利用VM部署,缺陷是使用主机网络效率没有容器网络高。
com/gpu 排查思路: 确认节点标签是否已经打上nvidia资源。 查看nvidia驱动运行是否正常。 到插件运行所在的节点上,查看驱动的安装日志,路径如下所示: /opt/cloud/cce/nvidia/nvidia_installer.log 查看nvidia容器标准输出日志: