检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题现象:工作负载队列关联用户报错 dnxxxx_xxxx perm space perm space limit问题版本:DWS 8.1.1.100 问题根因:负载队列的资源配置中,磁盘配置是整个集群的空间大小,每个dn上占用的空间是所有主dn个数的平均所以,当有些已存在的用户
Ding主讲,帮你了解工作负载的概念以及Kubernetes提供的内置工作负载的信息;Deployment/ DaemonSet/ Job/ CronJob概念以及使用场景。 希望读者通过接下来代码加图文的介绍对工作负载的概念以及使用场景有更清晰的认识和帮助。 通过本文能学会什么?
Ding主讲,帮你了解工作负载的概念以及Kubernetes提供的内置工作负载的信息;Deployment/ DaemonSet/ Job/ CronJob概念以及使用场景。 希望读者通过接下来代码加图文的介绍对工作负载的概念以及使用场景有更清晰的认识和帮助。 通过本文能学会什么?
pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件 若属于小规格的集群(集群节点数小于50个节点),
ReplicaSet,但其理想值取决于新 Deployment 的频率和稳定性。 - 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Prog
打开或关闭工作负载管理工作负载管理配置包括工作负载开关、全局最大并发数。这里的全局最大并发数指的是单个CN上的最大并发数,如果您通过工作负载开关关闭了工作负载管理功能,那么所有的工作负载管理功能将不再可用。3. 资源配置在“资源配置”一栏,您可以浏览当前工作负载队列的资源
我有多个工作负载(在同个集群中),它们之间需要互相访问,应该怎么办?
重新启动容器失败排查思路 排查项一:(退出码:0)容器中无持续运行的进程 登录异常工作负载所在的节点。 查看容器状态。 docker ps -a | grep $podName 如下图所示: 当容器中无持续运行的进程时,会出现exit(0)的状态码,此时说明容器中无进程。 排查项二:(退出码:137)健康检查执行失败
图7 创建服务 单击右下角“创建工作负载”,单击“查看工作负载列表”,等待工作负载创建成功,在无状态负载下会显示一个运行中的工作负载。 图8 无状态负载列表
工作负载异常:GPU节点部署服务报错 问题现象 客户在CCE集群的GPU节点上部署服务出现如下问题: 容器无法查看显存。 部署了7个GPU服务,有2个是能正常访问的,其他启动时都有报错。 2个是能正常访问的CUDA版本分别是10.1和10.0 其他服务CUDA版本也在这2个范围内
该API属于DWS服务,描述: 删除工作负载队列的绑定用户。接口URL: "/v2/{project_id}/clusters/{cluster_id}/workload/queues/{queue_name}/users/batch-delete"
登录CCE控制台,进入一个已有的集群,在左侧导航栏中选择“工作负载”。 选择“无状态负载”页签,单击工作负载后的“日志”。 在弹出的“日志”窗口中可以查看容器日志信息。 图1 查看无状态工作负载日志 升级 您可以通过CCE控制台实现无状态工作负载、有状态工作负载的快速升级。 本文以无状态工作负载为例说明如何进行升级。
该API属于DWS服务,描述: 查询工作负载计划阶段详细信息。接口URL: "/v2/{project_id}/clusters/{cluster_id}/workload/plans/{plan_id}/stages/{stage_id}"
ReplicaSet,但其理想值取决于新 Deployment 的频率和稳定性。 - 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Prog
ReplicaSet,但其理想值取决于新 Deployment 的频率和稳定性。 - 升级最大时长(progressDeadlineSeconds) 指定系统在报告 Deployment 进展失败 之前等待 Deployment 取得进展的秒数。 这类报告会在资源状态中体现为 Type=Prog
在CCE集群中使用工作负载Identity的安全配置建议 工作负载Identity允许集群中的工作负载模拟IAM用户来访问云服务,从而无需直接使用IAM账号的AK/SK等信息,降低安全风险。 本文档介绍如何在CCE中使用工作负载Identity。 约束与限制 支持1.19.16及以上版本集群。
配置工作负载 设置镜像拉取策略 使用第三方镜像 设置容器生命周期 设置容器健康检查 设置环境变量 设置性能管理配置 设置工作负载升级策略 设置标签与注解 设置可用区亲和性 父主题: 工作负载
工作负载 无状态负载 有状态负载 守护进程集 任务和定时任务 容器组 设置容器规格 设置容器生命周期 设置容器健康检查 设置环境变量 工作负载升级配置 调度策略(亲和与反亲和) 容忍策略 父主题: 单集群管理
创建工作负载 无状态负载 有状态负载 守护进程集 父主题: 工作负载
文件信息和挂载信息 然后查看操作日志,正常情况下成功或失败这里都会记录,但是查不到对应集群的记录,后台上也没有对应的cgroup创建。所以判断工作队列没有创建成功,页面上显示的队列信息是残留的信息。 解决措施:删掉出问题的队列,重新创建。 注意:有工作负载队列a,工作负载计划b,