检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
公平分配,应用于大批量提交AI训练和大数据作业场景。DRF调度算法优先考虑集群中业务的吞吐量,适用单次AI训练、单次大数据计算以及查询等批处理小业务场景。 启用公平调度(DRF)后,可增强集群业务的吞吐量,提高业务运行性能。详情请参见公平调度(DRF)。 组调度(Gang) Gang调度策略满足了调度过程中的“All
调用方法 请参见如何调用API。 URI GET /api/v3/projects/{project_id}/jobs/{job_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目ID,获取方式请参见如何获取接口URI中参数。
o调度器。 公平调度介绍 在实际业务中,经常会遇到将集群稀缺资源分配给多个用户的情况,每个用户获得资源的权利都相同,但是需求数却可能不同,如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法(max-min fairness sh
metheus-stack),可全面对接开源Prometheus生态,支持类型丰富的组件监控,并提供了多种开箱即用的预置监控大盘。本文介绍如何将华为云Prometheus指标转换成HPA可用的指标,从而为应用提供更加便捷的扩缩机制。 前提条件 已创建一个集群。 已通过kubect
定时任务停止一段时间后,为何无法重新启动? 定时任务在运行过程中,如果被暂停,再次被开启时,控制器会检查上一次调度的时间点到现在所错过了调度次数。如果错过的调度次数超过100次, 那么它就不会启动这个任务并记录这个错误,详情请参考CronJob限制。 Cannot determine
鲲鹏集群Docker容器挂载点被卸载 故障现象 鲲鹏集群Docker容器挂载点被卸载。 问题根因 鲲鹏集群节点为EulerOS 2.8系统时,如果在Docker服务文件中配置了MountFlags=shared字段,会因为systemd特性的原因导致容器挂载点被卸载。 解决方法
CCE支持创建SFS存储卷并挂载到容器的某一路径下,也可以使用底层SFS服务创建的文件存储卷,SFS存储卷适用于多读多写的持久化存储,适用于多种工作负载场景,包括媒体处理、内容管理、大数据分析和分析工作负载程序等场景。 对象存储卷:CCE支持创建OBS对象存储卷并挂载到容器的某一路径下,对象存储适用于云工作
配置项导入:选择一个配置项,将配置项中所有键值都导入为环境变量。 在“容器配置”中找到“生命周期”,在右侧选择“启动后处理”页签,并填写以下参数。 处理方式:命令行脚本。 执行命令:以下命令需分三行填写,其中SPECIAL_LEVEL和SPECIAL_TYPE为工作负载中的环
为什么更换命名空间后无法创建Ingress? 问题描述 在default命名空间下可以正常创建ingress,但在其他命名空间(如:ns)下创建时不能创建成功。 原因分析 创建弹性负载均衡ELB后,使用default命名空间创建80端口的http监听,在CCE中只允许在本命名空间
io/proxy-body-size: 8m HTTPS双向认证 Nginx Ingress支持配置服务器与客户端之间的双向HTTPS认证来保证连接的安全性。 请参见通过kubectl连接集群,使用kubectl连接集群。 执行以下命令,创建自签名的CA证书。 openssl req -x509
29版本中,基于运行时类的镜像拉取以Alpha版本正式发布。该特性启用后, kubelet 会通过一个元组(镜像名称,运行时处理程序)而不仅仅是镜像名称或镜像摘要来引用容器镜像。 您的容器运行时可能会根据选定的运行时处理程序调整其行为。基于运行时类来拉取镜像对于基于VM的容器会有帮助。更多使用细节请参考基于运行时类的镜像拉取。
池,并且不会对节点池下已有的节点产生任何影响。 说明: 节点池升级后,如果仍通过更新节点池API扩容节点,默认创建出来的节点为按需节点。 如何轻松切换新版节点池? 您需要将集群升级到1.21.11-r0、1.23.9-r0、1.25.4-r0及以上版本,然后根据以下步骤触发新节点池升级流程。
webhook会对Pod的配置进行更新,如果集群中有其他的admission webhook,需要确保它们不会与VPA发生冲突。 VPA会处理大部分的OOM(Out Of Memory)事件,但无法保证处理所有的OOM事件。 VPA的性能尚未在大规模集群中实践。 VPA建议值可能大于实际可分配的资源量(例如节点
表示节点标签的键 whenUnsatisfiable: DoNotSchedule # 表示当Pod不满足传播约束时,调度器处理该Pod的方式 containers: - image: nginx:latest name: nginx
29版本中,基于运行时类的镜像拉取以Alpha版本正式发布。该特性启用后, kubelet 会通过一个元组(镜像名称,运行时处理程序)而不仅仅是镜像名称或镜像摘要来引用容器镜像。 您的容器运行时可能会根据选定的运行时处理程序调整其行为。基于运行时类来拉取镜像对于基于VM的容器会有帮助。更多使用细节请参考基于运行时类的镜像拉取。
公网访问CCE部署的服务并上传OBS,为何报错找不到host? 线下机器访问CCE部署的服务并上传OBS,报错找不到host,报错截图如下: 问题定位 服务收到http请求之后,向OBS传输文件,这些报文都会经过Proxy。 传输文件总量很大的话,会消耗很多资源,目前proxy分
# 卷容量大小 创建工作负载。 kubectl apply -f nginx-emptydir.yaml 本地临时卷异常处理说明 用户如果手动从ECS侧卸盘、手动执行vgremove两种误操作致临时卷存储池异常。可以先将节点设置为不可调度,具体方法请参见一键设置
使用IE浏览器访问nginx-ingress出现重定向308无法访问 问题现象 NGINX Ingress控制器从较老的版本升级后,使用IE浏览器无法访问已有的服务,状态码显示为308。 问题根因 NGINX Ingress控制器在升级后默认的永久重定向状态码从301变成了308
删除挂载了云存储的Pod时提示target is busy 现象描述 在删除Pod时一直处于Terminating状态,通过节点上的/var/log/cce/kubernetes/kubelet.log路径查询kubelet日志,出现以下错误提示: ...unmount failed:
NVIDIA Container Toolkit容器逃逸漏洞公告(CVE-2024-0132) NVIDIA Container Toolkit 是一个由 NVIDIA 提供的开源工具包,它允许您在容器化环境中利用 NVIDIA GPU 进行加速计算。工具包包括一个容器运行时库和