检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
弹性云服务器-虚拟机:使用虚拟化技术的弹性云服务器作为集群节点。 弹性云服务器-物理机:使用擎天架构的裸金属服务器作为集群节点。 裸金属服务器:使用传统裸金属服务器作为集群节点。选择数据盘时支持使用裸金属服务器自带的本地盘。 CCE Turbo集群支持以下类型: 弹性云服务器-虚拟机:使用虚拟化的弹性云服务器作为集群节点。CCE
量的升级前检查问题及解决方案,帮助您对可能存在的升级故障进行预处理。 表1 检查项列表 序号 检查项名称 检查项说明 1 节点限制检查异常处理 检查节点是否可用 检查节点操作系统是否支持升级 检查节点是否含有非预期的节点池标签 检查K8s节点名称是否与云服务器保持一致 2 升级管控检查异常处理
将集群的容器网段添加到ECS安全组的入方向规则中,使在集群内的Pod中都能访问到该ECS。若只希望从集群中的某个Pod访问该ECS,您可以只将该Pod的IP地址添加到ECS安全组的入方向规则中。 进入控制台首页,单击左上角的,在展开的列表中单击“计算 > 弹性云服务器 ECS”,单击相应的弹性云服务器名称。
用户集群子网DNS配置,增加了DNS服务器配置,如114.114.114.114,该域名无法解析租户区域名。 根因分析 CCE会将用户的子网DNS信息配置到node节点上,coredns插件中也是使用该配置信息,因此会导致用户在节点容器内解析域名会偶发失败的状况。 解决方案 建议您通过修改co
Endpoint的IP地址 在IDC的域名解析服务器上做级联配置。 此处配置跟具体域名解析服务器相关,不同域名解析服务器的配置方法不同,请根据实际情况配置。 这里使用BIND软件(一个常用的域名解析服务器软件)为例进行说明。 域名解析服务器上配置的关键是将需要解析华为云内部域名的任务转发给上一步创建的DNS
Worker之间的带宽直接影响了训练的效率。 Kubernetes默认调度器并不考虑Ps和Worker的这种逻辑关系,Ps和Worker是被随机调度的。如下图所示,2个TFJob(1个Ps + 2 Worker),使用默认调度器,有可能会出现(a)、(b)、(c)三种情况的任意一
工作负载网络异常时,如何定位排查? 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 排查项一:容器+容器端口 排查项二:节点IP+节点端口 排查项三:负载均衡IP+端口 排查项四:NAT网关+端口
CCE集群访问华为云图像识别服务时,默认使用华为云域名解析服务器。 CCE集群访问IDC上部署的内容审核服务时,需要使用IDC内部域名服务器。 这就需要在CCE集群上既能使用华为云域名解析服务器,也能够使用IDC内部域名服务器。如果将CCE节点上域名解析服务器指向IDC的域名解析服务器,那会导致无法解析华为云的
Insufficient server quota ECS配额不足。 请提交工单增加ECS配额。 400 CCE.01400009 Insufficient CPU quota. ECS CPU配额不足。 请提交工单增加ECS CPU配额。 400 CCE.01400010 Insufficient
当您删除一个有状态负载时,为实现有状态负载中的Pod可以有序停止,请在删除之前将副本数缩容到0。 您需要在创建有状态负载的同时,创建一个Headless Service,用于解决有状态负载Pod互相访问的问题,详情请参见Headless Service。 节点不可用时,Pod状态变为“未就绪”,此时需要手工删除有状
CCE容器拉取私有镜像时报错“Auth is empty” CCE集群中工作负载镜像的拉取策略有哪些? 鲲鹏集群Docker容器挂载点被卸载 下载镜像缺少层如何解决? 容器内的文件权限和用户都是问号 父主题: 工作负载
游戏客户每天中午12点及晚上18:00-23:00间需求增长,需要定时扩容。 价值 云容器引擎可根据用户的业务需求预设策略自动调整计算资源,使云服务器或容器数量自动随业务负载增长而增加,随业务负载降低而减少,保证业务平稳健康运行,节省成本。 优势 自由灵活 支持多种策略配置,业务流量达到扩容指标,秒级触发容器扩容操作。
置是否可以正常解析域名。 排查项一:节点能否连接互联网 登录ECS控制台。 查看节点对应的弹性云服务器是否已绑定弹性IP或者配置NAT网关。 如图1,若弹性IP一栏有IP地址,表示已绑定弹性IP;若没有,请为弹性云服务器绑定弹性IP。 图1 节点是否已绑定弹性IP 排查项二:节点是否配置网络ACL
错误信息如下图所示: 解决方案: 请在工作负载详情页中,切换至“容器管理”页签,核查容器的“生命周期 > 启动命令”配置信息,确保启动命令配置正确。 排查项九:JAVA探针的版本选择latest导致 K8s事件为Created container init-pinpoint 解决方案: 在创
当不再使用云服务资源时,您可以将其退订或删除,从而避免持续产生费用。 包年/包月资源 对于包年/包月计费模式的资源,例如包年/包月的集群、包年/包月的节点(弹性云服务器)等,用户在购买时会一次性付费,服务将在到期后自动停止使用。 如果在计费周期内不再使用包年/包月资源,您可以执行退订操作,系统将根据资
通过ELB的控制台修改CCE创建的监听器后端服务器组,添加、删除后端服务器 导致Service/Ingress访问不通。 在集群升级等需要重启控制节点的场景,所做修改会被CCE侧重置: 用户删除的后端服务器会恢复 用户添加的后端服务器会被移除 重新创建或更新Service/Ingress。
CCE集群中域名解析失败。 排查思路 以下排查思路根据原因的出现概率进行排序,建议您从高频率原因往低频率原因排查,从而帮助您快速找到问题的原因。 如果解决完某个可能原因仍未解决问题,请继续排查其他可能原因。 图1 域名解析失败排查思路 当遇到域名解析失败的问题时,首先需要判断是集群内域名还是集群外域名解析失败。
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
限制: 注入脚本的字符有限。 各种需求、场景的多样性可能会经常修改注入的脚本内容,而对于CCE节点池的注入脚本是固定的,不适合经常修改。 解决方案 本文提供CCE+OBS结合的方式,提供了一种简化、可扩展、易维护的最佳实践方式,方便用户在CCE节点上做一些自定义操作。 将安装前和
建议临时申请,制作完成后删除。 ECS_VPC_ID 虚拟私有云ID。 临时ECS服务器使用,需要与执行机一致。 ECS_NETWORK_ID 子网的网络ID。 临时ECS服务器使用,建议与执行机一致,非子网的子网ID。 ECS_SECGRP_ID 安全组ID。 临时ECS服务器使用,该安全组入