检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
排查项四:容器与节点上的“资源分配量”是否一致 容器被驱逐后还会频繁调度到原节点。 问题原因: 节点驱逐容器是根据节点的“资源使用率”进行判断;容器的调度规则是根据节点上的“资源分配量”进行判断。由于判断标准不同,所以可能会出现被驱逐后又再次被调度到原节点的情况。 解决方案:
老配置的差价。 减小集群规格:不支持该操作。 变更节点规格:CCE控制台不支持变更节点规格,您需要从云服务器控制台发起变更节点规格操作,规格变更完成后前往CCE控制台同步云服务器信息即可。变更时系统将按照如下规则为您计算变更费用: 资源升配:新配置价格高于老配置价格,此时您需要支付新老配置的差价。
Failed 未满足前提条件,服务器未满足请求者在请求中设置的其中一个前提条件。 413 Request Entity Too Large 由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。
间权限中配置。 ecs:*:get - ECS(弹性云服务器)所有资源详情的查看权限。 CCE中的一个节点就是具有多个云硬盘的一台弹性云服务器 ecs:*:list - ECS(弹性云服务器)所有资源列表的查看权限。 bms:*:get* - BMS(裸金属服务器)所有资源详情的查看权限。
当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
dule的调度能力、计算任务队列管理、task-topology和GPU亲和性调度。另外,Volcano在原生Kubernetes能力基础上对计算任务的批量创建及生命周期管理、fair-share、binpack调度等方面做了增强。Volcano充分解决了上文提到的Kubeflow分布式训练面临的问题。
bool 插件中deployment组件多可用部署是否采用强制模式,默认:false。强制模式下插件Deployment实例强制调度到不同可用区的节点上,如集群下节点不满足多可用区,插件实例将无法全部运行。若multiAZEnable与multiAZBalance配置也同时为tru
源的驱逐阈值,固定为100MiB。 此处总量 Capacity为弹性云服务器除系统组件消耗外的可用内存,因此总量会略小于节点规格的内存值。详情请参见使用free命令查看弹性云服务器的内存,为什么与实际不符? 当节点上所有Pod消耗的内存上涨时,可能存在下列两种行为: 当节点可用内
Ingress配置多个转发策略 Ingress可通过不同的匹配策略同时路由到多个后端服务,例如,通过访问“www.example.com/foo”、“www.example.com/bar”、“foo.example.com/”即可分别路由到三个不同的后端Service。 Ingress转发策略中
当按需节点池中的节点转成包年/包月后,该节点不支持弹性缩容。 按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。
据进行读写操作。 bucket-owner-read:上传者对自己上传的对象具有完全的控制权限,而桶的所有者对对象有读取权限,常用于跨账户共享的场景。 bucket-owner-full-control:上传者拥有对自己上传对象的写入权限,默认情况下可能没有读取权限。桶的所有者对
态,并且不能移动到新运行的节点上。当用户确认该节点已经处于不可恢复的情况下,可以手动为Node打上out-of-service的污点,以使得该节点上的StatefulSet的Pod和VolumeAttachments被强制删除,并在健康的Node上创建相应的Pod。更多使用细节请参考节点非体面关闭。
态,并且不能移动到新运行的节点上。当用户确认该节点已经处于不可恢复的情况下,可以手动为Node打上out-of-service的污点,以使得该节点上的StatefulSet的Pod和VolumeAttachments被强制删除,并在健康的Node上创建相应的Pod。更多使用细节请参考节点非体面关闭。
Ingress高级配置示例 为ELB Ingress配置HTTPS证书 更新ELB Ingress的HTTPS证书 为ELB Ingress配置服务器名称指示(SNI) 为ELB Ingress配置多个转发策略 为ELB Ingress配置HTTP/2 为ELB Ingress配置HTTPS协议的后端服务
、开发集群等。如果在每个集群安装Prometheus监控集群里的业务各项指标的话,很大程度上提高了维护成本和资源成本,同时数据也不方便汇聚到一块查看,这时候可以通过部署一套Prometheus,对接监控多个集群的指标信息。 方案架构 将多个集群对接到同一个Prometheus监控
Bool 默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 disable_nvidia_gsp 否 Bool 默认值:true true:关闭GPU的GSP firmware driver_mount_paths
显示集群的节点子网。 子网是用来管理弹性云服务器网络平面的一个网络,可以提供IP地址管理、DNS服务,子网内的弹性云服务器IP地址都属于该子网。 默认情况下,同一个VPC的所有子网内的弹性云服务器均可以进行通信,不同VPC的弹性云服务器不能进行通信。 不同VPC的弹性云服务器可通过VPC创建对等连接通信。
129nic 裸金属服务器: x86节点:支持physical.d2、physical.s4、physical.c6ne、physical.d6ne类型的裸金属服务器。 ARM节点:支持physical.a1.2xlarge类型的裸金属服务器。 CCE Turbo集群 弹性云服务器-虚拟机:
参数类型 描述 category String 参数解释: 集群类别。 约束限制: 不涉及 取值范围: CCE:CCE集群 CCE集群支持虚拟机与裸金属服务器混合、GPU、NPU等异构节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境。 Turbo: CCE Turbo集群。
21及以上的CCE集群。由于不同版本的模板包配置项可能存在差异,本文中的配置仅对4.4.2版本生效。 上传模板 登录CCE控制台,进入集群,在左侧导航栏中选择“应用模板”,在右上角单击“上传模板”。 单击“添加文件”,选中待上传的模板包后,单击“上传”。 自定义value.yaml 您可在本地创建一个value.y