检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。 已安装Volc
关系实时变化的折扣以及节点(弹性云服务器 ECS)实际使用时长计费,秒级计费,按小时结算。竞价计费模式允许您以折扣价购买节点,性能与常规购买的节点无异。但是当库存资源不足,或市场价格上浮超过您的预期价格时,系统会自动释放您的节点资源,对这些折扣售卖的节点进行中断回收。一般适用于对用云成本控制要求比较高的场景。
区的节点上,如集群下节点不满足多可用区,插件实例将调度到单可用区下的不同节点。 强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。
从上述输出的信息中,可以看到该节点的GPU驱动版本为460.32.03。 漏洞修复方案 请您根据漏洞影响范围,将节点升级到对应驱动版本进行漏洞修复: 若您升级了NVIDIA GPU驱动,需重启GPU节点,重启节点将会短暂影响您的业务。 如果节点驱动版本为418系列,请升级驱动至418
强制模式:插件Deployment实例强制调度到不同可用区的节点上,每个可用区下最多运行一个实例。如集群下节点不满足多可用区,插件实例将无法全部运行。节点故障后,插件实例存在无法迁移风险。 节点亲和 不配置:插件实例不指定节点亲和调度。 指定节点调度:指定插件实例部署的节点。若不指定,将根据集群默认调度策略进行随机调度。
CCE集群选型建议 通过CCE搭建IPv4/IPv6双栈集群 制作CCE节点自定义镜像 创建节点时执行安装前/后脚本 创建节点时使用OBS桶实现自定义脚本注入 通过kubectl对接多个集群 选择合适的节点数据盘大小 集群视角的成本可视化最佳实践 使用共享VPC创建CCE Turbo集群
order. 节点池被订单锁定时不允许删除节点池。 请支付或者取消包周期订单后重试删除操作。 403 CCE.01403005 Node pool cannot be deleted when it is scaling. 节点池扩容中不允许删除节点池。 等待节点池扩容结束后重试删除操作。
按需计费资源按秒计费,每一个小时整点结算一次费用(以GMT+08:00时间为准),结算完毕后进入新的计费周期。计费的起点以集群/节点创建成功的时间点为准,终点以实例删除时间为准。 集群/节点从下发创建命令到正常运行存在时间差,计费的起点是集群/节点创建成功的时间点,而非开始创建时间。您可以
扩大集群规格:新配置价格高于老配置价格,此时您需要支付新老配置的差价。 减小集群规格:不支持该操作。 变更节点规格:CCE控制台不支持变更节点规格,您需要从云服务器控制台发起变更节点规格操作,规格变更完成后前往CCE控制台同步云服务器信息即可。变更时系统将按照如下规则为您计算变更费用:
升级后验证 集群状态检查 节点状态检查 跳过节点检查 业务检查 新建节点检查 新建Pod检查 父主题: 升级集群
oot身份执行任意代码。 判断方法 查看节点操作系统及openssh版本: 如果集群node节点OS是EulerOS、Huawei Cloud EulerOS 1.1和CentOS,openssh版本不受该漏洞影响。 如果集群node节点OS是Huawei Cloud EulerOS
CCE支持将极速文件存储(SFS Turbo)创建的存储卷挂载到容器的某一路径下,以满足数据持久化的需求,极速文件存储具有按需申请,快速供给,弹性扩展,方便灵活等特点,适用于DevOps、容器微服务、企业办公等应用场景。 图1 CCE挂载极速文件存储卷 使用说明 符合标准文件协议:用户可以将文件系统挂载给服务器,像使用本地文件目录一样。
配置管理 查询指定节点池支持配置的参数列表 查询指定集群支持配置的参数列表 查询指定节点池支持配置的参数内容 修改指定节点池配置参数的值 父主题: API
Integer 参数解释: 每批升级的最大节点数量。升级时节点池之间会依次进行升级。节点池内的节点分批升级,第一批升级1个节点,第二批升级2个节点,后续每批升级节点数以2的幂数增加,直到达到您设置的每批最大升级节点数,并会持续作用在下一个节点池中 约束限制: 不涉及 取值范围: [1-60]
0表示无限制。该参数与集群规模相关,不建议修改。 从v1.21版本开始不再支持手动配置,根据集群规格自动配置如下: 50和200节点:200 1000节点:500 2000节点:1000 非修改类API请求最大并发数 max-requests-inflight 非修改类请求的最大并发数。 当服
0/16网段),生产集群位于vpc-B(172.17.0.0/16网段) 节点数:1个/集群 节点配置: 节点规格:4核 | 16GiB 操作系统:Huawei Cloud EulerOS 2.0 弹性公网IP:为节点自动创建EIP,可访问公网拉取镜像。 VPC对等连接 本示例中共2个对等连接,网络连通需求如下:
io/eip-bandwidth-name 可选 Pod名称 带宽名称。 1-64个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点) 最小长度:1 最大长度:64 表3 共享带宽类型EIP跟随Pod创建的annotation配置 annotation 是否可选 默认值 参数说明
当集群状态为“不可用”时,如何排查解决? CCE集群如何重置或重装? 如何确认已创建的集群是否为多控制节点模式? 是否可以直接连接CCE集群的控制节点? CCE集群删除之后相关数据能否再次找回? 为什么CCE集群界面的节点磁盘监控看起来不准确? 如何修改CCE集群名称? 控制台访问异常问题排查 父主题:
挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs {容器id}查看归类结果,可以看到结果:tabby cat。 使用GPU 创建一个普通job,镜像输入第
同VPC的非集群内ECS,如果需要和集群互访,访问会做SNAT, Pod源地址是节点IP而非Pod IP。 如果扩展网段没添加过集群节点,那扩展网段的ECS不能访问集群内Pod;扩展网段添加集群节点后,扩展网段的ECS可以访问集群内Pod。 操作步骤 登录VPC控制台,在左侧导航栏选择“虚拟私有云