检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
集群视角的成本可视化最佳实践 应用现状 当前使用CCE时,默认是以CCE整个云服务的粒度体现计费信息,没有划分不同集群使用的成本。 解决方案 通过给集群使用的资源打上CCE-Cluster-ID标签,在成本中心通过标签过滤汇聚整个集群所使用资源的成本,以集群为单位进行成本分析,降本增效。
容器 容器与Docker 容器技术起源于Linux,是一种内核虚拟化技术,提供轻量级的虚拟化,以便隔离进程和资源。尽管容器技术已经出现很久,却是随着Docker的出现而变得广为人知。Docker是第一个使容器能在不同机器之间移植的系统。它不仅简化了打包应用的流程,也简化了打包应用
删除/退订节点 操作场景 当您不再需要该节点继续工作时,请您在节点列表进行删除按需节点或退订包年/包月节点的标准化操作,以免带来不符合预期的效果。 在CCE集群中删除/退订节点会将该节点以及节点内运行的业务都销毁,请您在操作前提前进行排水和数据备份,确保正常业务运行不受影响。 注意事项
- name: default-secret 这里可以看出没有Deployment或StatefulSet中的replicas参数,因为是每个节点固定一个。 Pod模板中有个nodeSelector,指定了只在有“daemon=need”的节点上才创建Pod,如下图所
登录容器实例 操作场景 如果在使用容器的过程中遇到非预期的问题,您可登录容器进行调试。 约束与限制 同一用户在使用CloudShell组件连接CCE集群或容器时,限制同时打开的实例上限数量为15个。 使用CloudShell登录容器 CloudShell基于VPCEP实现,在Cl
公平调度(DRF) DRF(Dominant Resource Fairness)是主资源公平调度策略,应用于大批量提交AI训练和大数据作业的场景,可增强集群业务的吞吐量,整体缩短业务执行时间,提高训练性能。 前提条件 已创建v1.19及以上版本的集群,详情请参见购买Standard/Turbo集群。
基于Prometheus指标的弹性伸缩实践 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。为此,CCE提供云原生监控插件(kube-prometheus-stack),可
管理监控采集任务 您可以简单、方便地可视化管理采集任务,所有的配置均可在升级云原生监控插件时得到保留。 前提条件 集群中已安装云原生监控插件3.11.0及以上版本。 管理监控采集任务 开启默认关闭的采集任务、添加基础免费指标之外的指标后,若您已对接AOM,AOM服务会按量收取费用。具体请参考价格详情。
负载均衡型Service更新出现错误:Quota exceeded for resources: members_per_pool 问题现象 负载均衡型Service更新时出现错误,信息如下: (combined from similar events):Details:Update
监控中心概述 监控中心是华为云打造的新一代云原生容器运维平台,可实时监控应用及资源,采集各项指标及事件等数据以分析应用健康状态,提供全面、清晰、多维度数据可视化能力,兼容主流开源组件,并提供快捷故障定位的能力。 功能介绍 多维度数据洞察:提供基于Kubernetes原生类型的容器
组调度(Gang) 组调度(Gang)满足了调度过程中“All or nothing”的调度需求,避免Pod的任意调度导致集群资源的浪费,主要应用于AI、大数据等多任务协作场景。启用该能力后,可以解决分布式训练任务之间的资源忙等待和死锁等痛点问题,大幅度提升整体训练性能。 前提条件
工作负载异常:启动容器失败 问题定位 工作负载详情中,若事件中提示“启动容器失败”,请按照如下方式来初步排查原因: 登录异常工作负载所在的节点。 查看工作负载实例非正常退出的容器ID。 docker ps -a | grep $podName 查看退出容器的错误日志。 docker
兼容Kubernetes默认GPU调度模式 开启GPU虚拟化后,默认该GPU节点不再支持使用Kubernetes默认GPU调度模式的工作负载,即不再支持使用nvidia.com/gpu资源的工作负载。如果您在集群中已使用nvidia.com/gpu资源的工作负载,可在gpu-de
创建使用自定义指标的HPA策略 Kubernetes默认的HPA策略只支持基于CPU和内存的自动伸缩,在复杂的业务场景中,仅使用CPU和内存使用率指标进行弹性伸缩往往无法满足日常运维需求。通过自定义指标配置工作负载HPA策略,可以根据业务自身特点,通过更多指标实现更灵活的弹性配置。
建议直接修改该请求,不要重试该请求。 504 ServerTimeout 请求在给定的时间内无法完成。客户端仅在为请求指定超时(Timeout)参数时会得到该响应。 505 HTTP Version not supported 服务器不支持请求的HTTP协议的版本,无法完成处理。 父主题:
态码为308)到HTTPS。您可以通过nginx.ingress.kubernetes.io/ssl-redirect注解进行配置,对应的参数值可设置为“true”或“false”: true:使用TLS证书时,将HTTP访问重定向至HTTPS(状态码为308)。 false:使
调度概述 CCE支持不同类型的资源调度及任务调度等,可提升应用的性能和集群整体资源的利用率。本文介绍CPU资源调度、GPU/NPU异构资源调度、Volcano调度的主要功能。 CPU调度 CCE提供CPU管理策略为应用分配完整的CPU物理核,提升应用性能,减少应用的调度延迟。 功能
在弹出的“迁移节点”窗口中进行确认。 迁移完成后,节点上用户自定义的资源标签、K8s标签、污点不受影响。 迁移完成后,节点上名为cce.cloud.com/cce-nodepool的系统标签会被删除。如果已有工作负载使用该标签进行亲和/反亲和调度,在Kubelet重启时会将该节点上已存在的Pod停止并重新调度。
ServiceAccount Token安全性提升说明 Kubernetes 1.21以前版本的集群中,Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token,这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用,并且根据社区版本迭代策略,在1
容器网络 Kubernetes本身并不负责网络通信,但提供了容器网络接口CNI(Container Network Interface),具体的网络通信交由CNI插件来实现。开源的CNI插件非常多,像Flannel、Calico等。针对Kubernetes网络,CCE为不同网络模