检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AI任务性能增强调度 公平调度(DRF) 组调度(Gang) 父主题: Volcano调度
集群状态检查 检查项内容 集群升级后,需要检查集群状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群状态是否正常,您可以根据诊断结果前往集群列表页面进行确认。 解决方案 当集群状态异常时,请联系技术支持人员。 父主题: 升级后验证
存储 存储概述 存储基础知识 云硬盘存储(EVS) 文件存储(SFS) 极速文件存储(SFS Turbo) 对象存储(OBS) 专属存储(DSS) 本地持久卷(Local PV) 临时存储卷(EmptyDir) 主机路径(HostPath) 存储类(StorageClass) 存储管理最佳实践
插件版本 支持的集群版本 更新特性 1.2.0 v1.15 v1.17 v1.19 v1.21 支持EulerOS 2.0 (SP5,SP9) 配置安全加固 功能优化 父主题: 插件版本发布记录
abnormal:不可用,表示插件状态异常,插件不可使用。可单击插件名称查看实例异常事件。 installing:安装中,表示插件正在安装中。 installFailed:安装失败,表示插件安装失败,需要卸载后重新安装。 upgrading:升级中,表示插件正在更新中。 upgradeF
读写:可修改容器路径中的数据卷,容器迁移时新写入的数据不会随之迁移,会造成数据丢失。 其余工作负载参数都配置完成后,单击“创建工作负载”。 通过kubectl使用临时路径 请参见通过kubectl连接集群配置kubectl命令。 创建并编辑nginx-emptydir.yaml文件。 vi nginx-emptydir
仪表盘 使用仪表盘 集群视图 APIServer视图 Pod视图 主机视图 Node视图 节点池视图 GPU视图 XGPU视图 CoreDNS视图 PVC视图 Kubelet视图 Prometheus Server视图 Prometheus Agent视图 父主题: 监控中心
节点状态检查 检查项内容 集群升级后,需要检查节点状态是否为“运行中”状态。 检查步骤 系统会自动为您检查集群内节点的状态,您可以根据诊断结果前往节点列表页面进行确认。 解决方案 集群节点异常时,建议您通过重置节点来解决,若无法解决,请联系技术支持人员。 父主题: 升级后验证
擎选择为Containerd,其余配置和原Docker节点池保持一致。 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点池”页签,并在需要复制的Docker节点池“操作”栏中,单击“更多 > 复制”。 在节点池配置页面中,选择容器引擎为Contain
登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 父主题: 在CCE集群中部署使用Caffe
Pod 同时在新增节点上安装驱动,可能导致安装的驱动和预期不符或安装失败。因此,不建议在huawei-npu驱动选择功能已开启的情况下,对已设置“安装后执行脚本”NPU驱动安装命令的节点池进行扩容,或在创建新节点池时设置“安装后执行脚本”用于安装NPU驱动。 安装插件 登录CCE控制
制器,HPA周期性检查Pod的度量数据,计算满足HPA资源所配置的目标数值所需的副本数量,进而调整目标资源(如Deployment)的replicas字段。 图1 HPA工作机制 HPA可以配置单个和多个度量指标,配置单个度量指标时,只需要对Pod的当前度量数据求和,除以期望目标
云原生监控插件兼容自建Prometheus 使用云原生监控插件监控自定义指标 使用AOM监控自定义指标 使用PrometheusRules配置普罗监控与告警规则 使用Prometheus监控Master节点组件指标 监控NGINX Ingress控制器指标 监控CCE Turbo集群容器网络扩展指标
成本计算模型 工作负载成本计算原理 工作负载成本是由Pod成本聚合而成。 Pod成本:使用监控指标和实际账单作为输入,通过CPU、内存使用量占整体节点资源比例计算出来的成本,结合Pod关联PVC存储的成本。 计算过程中,Pod的使用量为当前采样时刻下申请量(Request)和实际使用量(Real
节点系统参数优化 可优化的节点系统参数列表 修改节点日志缓存内存占用量上限RuntimeMaxUse 修改最大文件句柄数 修改节点内核参数 修改节点进程 ID数量上限kernel.pid_max 父主题: 节点运维
使用延迟绑定的云硬盘(csi-disk-topology)实现跨AZ调度 使用通用文件存储(SFS 3.0)自动收集异常退出的JVM转储文件 存储多可用区部署的推荐配置
续费页面 选择集群的续费时长,判断是否勾选“统一到期日”,将集群到期时间统一到各个月的某一天(详细介绍请参见统一包年/包月资源的到期日)。确认配置费用后单击“去支付”。 图3 续费确认 进入支付页面,选择支付方式,确认付款,支付订单后即可完成续费。 续费节点 登录CCE控制台,单击集群名称进入集群。
跳过节点检查 检查项内容 集群升级后,需要检测集群内是否有跳过升级的节点,这些节点可能会影响正常使用。 检查步骤 系统会为您检查集群内是否存在跳过升级的节点,您可以根据诊断结果前往节点列表页进行确认。跳过的节点含有标签upgrade.cce.io/skipped=true。 解决方案
个节点的特点。 管理节点污点 重置节点 移除节点 同步云服务器 节点排水 删除/退订节点 按需节点转包年/包月 包年/包月节点修改自动续费配置 节点关机 节点滚动升级 父主题: 节点
镜像的一个特征是镜像可以只使用一个地址,但背后有两个镜像,这样在描述工作负载时,可以使用同一个镜像地址,且不用配置亲和性,工作负载描述文件更简洁更容易维护。 亲和性配置说明 CCE在创建节点时,会自动给节点打上kubenetes.io/arch的标签,表示节点架构,如下所示。 kubernetes