检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
P,然后登录到集群内的节点或容器中,使用curl命令等方法手动调用接口,查看结果是否符合预期。 如果容器IP+端口不能访问,建议登录到业务容器内使用“127.0.0.1+端口”进行排查。 登录容器的操作步骤请参见登录容器的方法。 访问结果是否符合预期 如果集群内可以正常访问工作负
Volcano调度概述 Volcano是一个基于Kubernetes的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而Kubernetes当前缺失的一系列特性,提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力。 Volcano
问题现象: 在CCE集群中新增节点时,在“弹性公网IP”处选择“自动创建”,但创建节点失败,提示弹性IP不足。 解决方法: 您可以有两种方法解决弹性IP不足的问题。 方法一:解绑已绑定弹性IP的虚拟机,再重新添加节点。 登录控制台。 选择“计算> 弹性云服务 ECS ”。 在弹性云服
请您务必在维护周期结束之前升级您的Kubernetes集群。 版本说明 CCE针对Kubernetes v1.15版本提供了全链路的组件优化和升级,v1.15版本包含两个小版本,即v1.15.11和v1.15.6-r1。 资源变更与弃用 extensions/v1beta1中Ingress已弃用,1
请您务必在维护周期结束之前升级您的Kubernetes集群。 版本说明 CCE针对Kubernetes v1.15版本提供了全链路的组件优化和升级,v1.15版本包含两个小版本,即v1.15.11和v1.15.6-r1。 资源变更与弃用 extensions/v1beta1中Ingress已弃用,1
器的能力,您可以为工作负载指定调度器。 使用Volcano调度工作负载 资源利用率优化调度 针对计算资源进行优化的调度策略,可以有效减少各节点资源碎片,最大化地提高计算资源的利用率。 资源利用率优化调度 业务优先级保障调度 根据业务的重要性和优先级,设置自定义的策略对业务占用的资
会低概率出现IO卡住。该问题可通过优化审计日志规则,降低问题出现的概率。 影响范围 受影响的集群版本: v1.15.11-r1 v.1.17.9-r0 只需对已有节点进行修复,新建节点默认无此问题。 升级过程需要重启auditd组件。 检查方法 以root用户登录node节点。
重启后查看日志中的时区是否与节点同一时区。 查看方法:单击工作负载名称进入工作负载详情页,单击右上角的“日志”按钮可查看日志详情。日志约需要等待5分钟查看。 场景三:工作负载与节点时区同步 方法一:制作容器镜像时,将时区设置为CST。 方法二:若不希望修改容器,可在CCE控制台创建工
rk、MPI、PyTorch等),并通过Volcano统一调度系统实现多种作业混合部署,解决集群资源共享问题。 应用场景2:多队列场景调度优化 用户在使用集群资源的时候通常会涉及到资源隔离与资源共享,Kubernetes中没有队列的支持,所以它在多个用户或多个部门共享一个机器时无
基于容器和Kubernetes构建,旨在为数据科学家、机器学习工程师、系统运维人员提供面向机器学习业务的敏捷部署、开发、训练、发布和管理平台。它利用了云原生技术的优势,让用户更快速、方便地部署、使用和管理当前最流行的机器学习软件。 目前Kubeflow 1.0版本已经发布,包含开
当IAM服务发生区域性故障时,存在低概率触发鉴权异常,从而影响集群内工作负载存储卷挂载、负载均衡对接等功能。最新的集群版本针对该类故障场景进行了优化和加固,为确保您的业务稳定运行,建议您尽快将账号下的集群升级至目标版本。 触发条件 同时满足以下条件: 集群版本范围: 已EOS版本:v1
23 - 1.23.0 1.23.47 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.44 v1.23 优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容
配置存根域:有利于减少DNS请求链路。 修改方式: 修改CoreDNS缓存时间及配置存根域 修改方法请参见为CoreDNS配置存根域。 修改完成后重启CoreDNS。 修改ndots 修改方法请参见解析外部域名很慢或超时,如何优化配置?。 示例: dnsConfig: options:
高频常见问题 集群管理 CCE集群创建失败的原因与解决方法? 集群的管理规模和控制节点的数量有关系吗? 当集群状态为“不可用”时,如何排查解决? 节点及节点池 集群可用但节点状态为“不可用”如何解决? 纳管节点时失败,报错“安装节点失败”如何解决? 容器使用SCSI类型云硬盘偶现IO卡住如何解决?
创建节点 前提条件 已创建至少一个集群。 您需要新建一个密钥对,用于远程登录节点时的身份认证。 若使用密码登录节点,请跳过此操作。创建方法请参见创建密钥对。 约束与限制 创建节点过程中依赖OBS等周边服务,因此节点所在子网的DNS配置不可修改。 集群开启IPv4/IPv6双栈时,
组件介绍 适用场景 参考文档 CCE集群弹性引擎 Kubernetes社区开源组件,用于节点水平伸缩,CCE在其基础上提供了独有的调度、弹性优化、成本优化的功能。 全场景支持,适合在线业务、深度学习、大规模成本算力交付等。 节点自动伸缩 CCE突发弹性引擎(对接CCI) 将Kubernetes
修改CoreDNS配置直接解析 前提条件 CCE集群所在VPC与线下IDC已经使用专线或其他方式正确连接,IDC与VPC网段和CCE集群容器网段能够互访。专线的创建方法请参见云专线快速入门。 操作步骤 CoreDNS的配置都存储在名为coredns的ConfigMap下,您可以在kube-system命名
溃后容器直接退出,且被回收销毁,因此容器Core Dump需要将Core文件持久化存储在主机或云存储上。本文将介绍容器Core Dump的方法。 约束与限制 容器Core Dump持久化存储至OBS(并行文件系统或对象桶)时,由于CCE挂载OBS时默认挂载参数中带有umask=0的设置,这导致Core
集群管理最佳实践 本文将为您介绍与集群相关的最佳实践,包括集群规划、创建、管理和维护等方面,帮助您优化集群的性能、提高可靠性和安全性,从而更好地满足业务需求。 场景分类 相关最佳实践 创建集群实践 CCE集群选型建议 集群网络地址段规划实践 集群网络模型选择及各模型区别 通过CCE搭建IPv4/IPv6双栈集群
CCE集群支持创建裸金属节点(容器隧道网络) 支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略 支持集群下的节点跨子网(容器隧道网络)