检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用体验。 赛题简介 基于历史数据和历史趋势,对Severless软件架构的工作负载进行精准预测,便于优化资源调整和提升用户服务质量。 数据提供了43个队列数天中的使用情况,其中包涵CPU使用率、磁盘使用率、提交作业数量,作业是否提交成功等信息。要求根据历史信息,预测测试集
affinity/anti-affinity 表示Pod亲和/反亲和不满足。 解决方案: 在设置“工作负载间的亲和性”和“工作负载和节点的亲和性”时,需确保不要出现互斥情况,否则工作负载会部署失败。 若工作负载配置了节点亲和性,需确保亲和的节点标签中supportContainer设置为tru
工作负载异常:OOM问题 问题现象 若因OOM被终止的进程为容器的阻塞进程,可能会导致容器异常重启。 问题原因 容器不允许使用超过其限制的内存,超过后容器可能会被终 止,触发OOM(Out Of Memory)事件,导致容器异常退出。关于OOM事件,可以参考为容器和Pod分配内存资源。
问题原因 该告警事件说明节点上绑定的云硬盘已达上限,挂载云硬盘的工作负载实例调度到该节点后,无法继续挂载云硬盘,导致工作负载无法正常运行。 例如,假设节点可挂载的云硬盘上限为20,除去节点上已挂载的1块系统盘和1块数据盘后,节点剩余可挂载的云硬盘数量为18块。若该节点通过ECS
重启CCE工作负载 使用重启CCE工作负载卡片可以创建任务重启一个或多个CCE工作负载。 只支持对有状态负载和无状态负载进行重启,其余类型负载不支持。 创建重启CCE工作负载任务 登录AOM 2.0控制台。 在左侧导航栏单击“自动化运维(日落)”,即可进入“自动化运维”界面。 在
工作负载异常:Init容器启动失败 问题现象 Pod的状态为Init:N/M。 Pod的状态为Init:Error。 Pod的状态为Init:CrashLoopBackOff。 问题原因 Pod运行状态为Init:N/M,说明该Pod包含M个Init容器,其中N个已经启动完成,但仍有M-N个Init容器未启动成功。
ReplicaSet,但其理想值取决于新 Deployment 的频率和稳定性。 - 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Prog
基于指标(CPU利用率、内存利用率),对无状态工作负载的副本数进行弹性扩缩容。 基于周期(每天、每周、每月或每年的具体时间点),对无状态工作负载的副本数进行弹性扩缩容。 基于指标(CPU利用率、内存利用率)或周期(每天、每周、每月或每年的具体时间点),对无状态工作负载的副本数进行弹性扩缩容。 基
节点对应的安全组和ACL放通VPC的子网网段就可以了,而CCE standard集群使用VPC网络模型时,其容器网段是独立于VPC网段的,其和外部节点的交互是通过在VPC路由表中增加路由条目实现的,所以外部节点会获取到容器的源IP,因此要在外部节点对应的安全组和ACL中网通该容器网段。
pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件 若属于小规格的集群(集群节点数小于50个节点),
重新启动容器失败排查思路 排查项一:(退出码:0)容器中无持续运行的进程 登录异常工作负载所在的节点。 查看容器状态。 docker ps -a | grep $podName 如下图所示: 当容器中无持续运行的进程时,会出现exit(0)的状态码,此时说明容器中无进程。 排查项二:(退出码:137)健康检查执行失败
在CCE集群中使用工作负载Identity的安全配置建议 工作负载Identity允许集群中的工作负载模拟IAM用户来访问云服务,从而无需直接使用IAM账号的AK/SK等信息,降低安全风险。 本文档介绍如何在CCE中使用工作负载Identity。 约束与限制 支持1.19.16及以上版本集群。
创建工作负载 无状态负载 有状态负载 守护进程集 父主题: 工作负载
标签值 设置工作负载亲和/反亲和性时,填写工作负载标签对应的标签值。 backend 调度策略添加完成后,单击“创建工作负载”。 验证Pod全部运行在目标节点上。 在集群控制台左侧导航栏中选择“工作负载”。 单击工作负载名称,进入详情页面,查看实例列表,验证新建的Pod和已有的backend
调度工作负载 工作负载调度策略概述 设置指定节点调度(nodeSelector) 设置节点亲和调度(nodeAffinity) 设置工作负载亲和/反亲和调度(podAffinity/podAntiAffinity) 父主题: 工作负载
登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”,在右上角单击“创建工作负载”。 在创建工作负载时,在“容器配置”中修改容器信息,选择“环境变量”页签。 设置环境变量。 单击“新增变量”,逐条增加环境变量,依次“配置类型”、“变量名称”和“变量/变量引用”。 单击“批量编辑自定
配置工作负载 设置镜像拉取策略 使用第三方镜像 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置标签与注解 设置可用区亲和性 父主题: 工作负载
【功能模块】CCE创建工作负载不成功【操作步骤&问题现象】1、环境已经安装其他组件2、创建工作负载,实例异常报错:重新拉取镜像失败已经排除内存大小的原因【截图信息】【日志信息】(可选,上传日志内容或者附件)
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
创建工作负载 创建无状态负载(Deployment) 创建有状态负载(StatefulSet) 创建守护进程集(DaemonSet) 创建普通任务(Job) 创建定时任务(CronJob) 父主题: 工作负载