检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更新弹性伸缩配置 登录CCE控制台,单击集群名称进入集群。 单击左侧导航栏的“节点管理”,在目标节点池所在行右上角单击“弹性伸缩”。 若未安装CCE集群弹性引擎插件,请根据业务需求配置插件参数后单击“安装”,并等待插件安装完成。插件配置详情请参见CCE集群弹性引擎。
单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度 (Gang) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。 修改完成后,单击“确认配置”。
节点缩容策略 表1 节点缩容策略配置 名称 说明 默认值 缩容并发数 最多支持多少个空闲节点同时缩容。 缩容并发数只针对完全空闲节点,完全空闲节点可实现并发缩容。非完全空闲节点则只能逐个缩容。
状态码 状态码 描述 200 表示集群唤醒任务下发成功,需持续查询集群状态,当集群状态变为Available后表示唤醒成功 错误码 请参见错误码。 父主题: 集群管理
找到需要删除的集群,查看集群的更多操作,并单击“删除集群”。 图1 删除集群 在弹出的“删除集群”窗口中,根据系统提示,勾选删除集群时需要释放的资源。 删除集群节点,可支持以下操作选项: 保留:保留服务器、系统盘和数据盘数据。
次 发送队列每秒读block的次数 每秒Block写入次数 次 发送队列每秒写block的次数 每秒Block丢弃次数 次 发送队列每秒block丢弃的次数 指标清单 Prometheus Agent视图使用的指标清单如下: 表2 Prometheus Agent指标说明 指标名称
描述 kind String 资源类型 apiVersion String API版本 metadata metadata object 分区的元数据信息 spec spec object 分区的配置信息 表8 metadata 参数 参数类型 描述 name String 分区名称
申请值推荐计算公式: CPU申请值:计算“目标节点数 * 目标Pod规模”的值,并在表1中根据“集群节点数 * Pod规模”的计算值进行插值查找,向上取最接近规格的申请值及限制值。
日志监控告警 日志 控制面日志:控制面日志记录直接从Master节点上报,支持kube-controller-manager、kube-apiserver、kube-scheduler、audit四种日志类型,详情请参见查看集群控制面日志。
建议配置方法: 节点的实际可用分配内存量 ≥ 当前节点所有容器内存限制值之和 ≥ 当前节点所有容器内存申请值之和,节点的实际可用分配内存量请在“资源管理 > 节点管理”中对应节点的“可分配资源”列下查看“内存: ** GiB”。
查看所有命名空间下的Pod是否都处于运行状态。 kubectl get pod -A 如果创建资源时出现非预期问题,请参见常见问题进行处理。
正式转换成功后,用户可通过helm list查看已转换成功的模板实例。
sudo yum makecache fast sudo yum install docker-ce 执行以下命令,查看Docker安装版本。
如何确认GPU节点的NVIDIA驱动版本 登录到您的GPU节点,执行如下命令,即可查看驱动版本。 [root@XXX36 bin]# .
集群网络配置 表1 集群网络配置参数说明 参数名称 参数说明 虚拟私有云 显示集群所在虚拟私有云。 虚拟私有云(Virtual Private Cloud,简称VPC)可以为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境。
kubectl apply -f gpu-app.yaml 登录容器查看容器被分配显存总量。
加快Pod启动 在Kubernetes 1.27中进行了一系列的参数调整,以提高Pod的启动速度,例如并行镜像拉取、提高Kubelet默认API每秒查询限值等。详情请参见Kubernetes 1.27:关于加快Pod启动的进展。
加快Pod启动 在Kubernetes 1.27中进行了一系列的参数调整,以提高Pod的启动速度,例如并行镜像拉取、提高Kubelet默认API每秒查询限值等。详情请参见Kubernetes 1.27:关于加快Pod启动的进展。
其中,policy.yaml为自定义名称,您可以随意命名。 vi policy.yaml 描述文件内容如下。
可通过以下命令查看容器镜像元数据: docker运行时执行:docker inspect <镜像ID> containerd运行时执行:crictl inspecti <镜像ID> 图2 有安全风险的镜像配置示例 漏洞修复方案 规避措施: 配置工作负载的WORKDIR为固定目录。