检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载弹性伸缩 策略类型选择“HPA+CronHPA策略”,启用HPA策略,并同时启用CronHPA策略。 此时CronHPA会定时调整HPA策略的最大和最小实例数。 设置HPA策略,详情请参见创建HPA策略。 图3 启用HPA策略 表2 HPA策略配置 参数 参数说明 实例范围 请输入最小实例数和最大实例数。
ValidatingAdmissionWebhook 如未开启,需要提交工单申请开启。 开启admissionWebhook特性后,如需卸载重装Nginx Ingress Controller,会有Secret残留,需要手动清理。 开启admissionWebhook的value.yaml配置文件如下:
安装Volcano后,您可通过“配置中心 > 调度配置”选择开启或关闭Gang调度能力,默认开启。 登录CCE控制台。 单击集群名称进入集群,在左侧选择“配置中心”,在右侧选择“调度配置”页签。 在“AI任务性能增强调度”配置中,选择是否开启“组调度 (Gang) ”。 启用该能力后,可增强集群业务的吞吐量,提高业务运行性能。
start操作中99%的操作的时延分布情况 存储操作速率 次/秒 Kubelet每秒执行的存储相关操作的次数 存储操作错误率 次/秒 Kubelet每秒执行的存储相关操作失败的次数 存储操作时延(99分位) 秒 Kubelet执行存储操作中99%的操作的时延分布情况 控制组管理器操作速率
工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败
管理集群 修改CCE集群配置 开启集群过载控制 变更集群规格 更改集群节点的默认安全组 删除集群 禁止删除集群 休眠/唤醒按需计费集群 续费包年/包月集群 按需计费集群转包周期 父主题: 集群
节点运行 集群可用但节点状态为“不可用”如何解决? CCE集群中的节点无法远程登录,如何排查解决? 如何重置CCE集群中节点的密码? 如何收集CCE集群中节点的日志? 如何解决yum update升级操作系统导致的容器网络不可用问题? Node节点vdb盘受损,通过重置节点仍无法恢复节点?
该节点。 删除节点会导致与节点关联的本地持久卷类型的PVC/PV数据丢失,无法恢复,且PVC/PV无法再正常使用。删除节点时使用了本地持久存储卷的Pod会从删除的节点上驱逐,并重新创建Pod,Pod会一直处于pending状态,因为Pod使用的PVC带有节点标签,由于冲突无法调度成功。
(100 - 100 * 4 / 4) = 0 因此最优节点为Node A。 Volcano开启NUMA亲和性调度 在节点池中开启静态(static)CPU管理策略,具体请参考 为自定义节点池开启CPU管理策略。 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,在右
etes进行通讯,出现上述错误信息说明kubectl配置有误,请重新对接kubectl,具体请参见使用kubectl连接集群。 对接云存储后,存储未创建成功。 出现上述问题可能是创建的PVC中annotation字段导致的,请修改模板名称后再次进行安装。 如果kubectl没有配置好,helm
是否允许修改 作用范围 args 无 无 允许 - 环境变量 参数名 取值范围 默认值 是否允许修改 作用范围 env 无 无 允许 - 数据存储 参数名 取值范围 默认值 是否允许修改 作用范围 volumeMounts 无 无 允许 - 存活探针 参数名 取值范围 默认值 是否允许修改
选中时间内成本分布。当前资源涵盖范围有:ECS成本、EVS成本、CCE集群管理成本 成本趋势 每天的成本分布趋势。从中可以看出,集群内成本开销趋势,可识别花费较高的资源 图3 集群各维度成本分析 名称 含义 命名空间 命名空间总成本:按命名空间聚合工作负载的成本,包括 CPU 成本(ECS)、内存成本(ECS)、EVS
io/elb.port)配置时,多监听器优先级更高。 Ingress内配置项对多个监听器同时生效,如黑白名单配置、超时时间配置。Ingress开启HTTP/2配置时,HTTP/2仅在HTTPS端口生效。 创建Ingress。 kubectl create -f ingress-test
节点管理 创建节点 获取指定的节点 获取集群下所有节点 更新指定的节点 删除节点 节点开启缩容保护 节点关闭缩容保护 同步节点 批量同步节点 纳管节点 自定义节点池纳管节点 重置节点 节点移除 节点迁移 节点迁移到自定义节点池 父主题: API
的安全检查。这项服务能够深入扫描您在镜像仓库中的私有镜像,识别出潜在的安全漏洞,并为您提供针对性的修复建议。 了解更多关于如何使用镜像安全扫描功能,以及如何解读和应用扫描结果中的修复建议,请参见镜像安全扫描。 使用镜像签名并配置验签策略 镜像验签是一种安全机制,用于验证容器镜像是
安全加固 集群节点如何不暴露到公网? 如何配置集群的访问策略 如何获取TLS密钥证书? 如何批量修改集群node节点安全组? 父主题: 网络管理
EulerOS 2.9内核缺陷导致虚拟机卡住 故障现象 EulerOS 2.9节点上,由于内核存在调度相关的社区问题,有低概率会触发死锁,表现为虚拟机卡住。 影响范围 x86内核版本:4.18.0-147.5.1.6.h1152.eulerosv2r9.x86_64 arm内核版本:4
调度策略 如何让多个Pod均匀部署到各个节点上? 如何避免节点上的某个容器被驱逐? 为什么Pod在节点不是均匀分布? 如何驱逐节点上的所有Pod? 如何查看Pod是否使用CPU绑核? 节点关机后Pod不重新调度 如何避免非GPU/NPU负载调度到GPU/NPU节点? 为什么Pod调度不到某个节点上?
日志、节点日志及K8s事件日志。您可以选择使用云日志服务(LTS)或应用运维管理服务(AOM)存储日志,但二者支持的日志类型存在差异,详情请参见表3。 表3 日志存储位置说明 日志存储位置 支持的日志类型 使用说明 LTS 容器标准输出日志 容器文件日志 节点日志 Kubernetes事件
更新驱动版本后,新建节点直接生效,存量节点需重启节点生效。 安装2.7.2及以上版本的GPU插件时,支持以节点池级别配置XGPU虚拟化开关。 NPU配置 当不开启驱动选择时,无法根据用户诉求指定驱动版本,无法依靠插件进行驱动维护。如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本