检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于DCGM Exporter为社区开源组件,因此本实践仅适用于监控Kubernetes社区原生的GPU资源(nvidia.com/gpu),不支持监控CCE提供的GPU虚拟化资源。 前提条件 目标集群已创建,且集群中包含GPU节点,并已运行GPU相关业务。 在集群中安装CCE AI
240 ... Taints: <none> ... 一键设置节点调度策略 您可以通过控制台将节点设置为不可调度,系统会为该节点添加键为node.kubernetes.io/unschedulable,效果为NoSchedule的污点。节点设置为不可调度后
您已经创建好一个文件存储,并且文件存储与集群在同一个VPC内。 使用通用文件系统(SFS 3.0)时,您需要提前在集群所在VPC创建一个VPC终端节点,集群需要通过VPC终端节点访问通用文件系统。配置VPC终端节点的方法请参见配置VPC终端节点。 约束与限制 使用通用文件系统(SFS 3.0)SFS存储卷时,集群中需要安装2
成本(ECS)、内存成本(ECS)、EVS 成本。资源总成本:为计算资源总成本,包括集群所有 ECS 成本,以及 EVS 成本。 资源总成本 = 命名空间总成本 + 未被分配资源成本 如果灰色区域占用过大,则表示未被使用的资源过多,有资源浪费的现象。 工作负载 Top5 成本开销Top5的工作负载,便于识别大应用
1.17版本集群停止维护公告 发布时间:2022/11/29 根据CCE发布的Kubernetes版本策略中的版本策略,计划从2023年1月31日起,CCE将对1.17版本集群停止维护。在此之后,您仍可以使用您的1.17版本集群,但CCE将不再提供对该版本的技术支持,包含支持新的
使用健康中心 云容器引擎CCE服务提供一键集群诊断能力,包括集群诊断、节点诊断、工作负载诊断、核心插件诊断和外部依赖诊断,可以辅助您定位集群中出现的问题。本文介绍如何在集群中使用集群诊断功能。 前提条件 已获取资源权限 集群版本高于v1.17。 集群处于“运行中”状态。 功能入口
由于需要主从进程协同工作,也非常适合使用Gang调度策略。容器组下的容器高度相关也可能存在资源争抢,整体调度分配,能够有效解决死锁。在集群资源不足的场景下,Gang的调度策略对于集群资源的利用率的提升是非常明显的。 配置组调度策略 安装Volcano后,您可通过“配置中心 >
调度器插件。开启后为您提供资源利用率优化、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,节约使用成本。 Volcano调度器增强配置: 业务优先级保障调度 资源利用率优化调度(Volcano调度器支持) AI任务性能增强调度(Volcano调度器支持) 异构资源调度(Volcano调度器支持)
负载实例数大于1时,不支持挂载云硬盘类型的存储。 安全设置(可选):对容器权限进行设置,保护系统和其他容器不受其影响。请输入用户ID,容器将以当前用户权限运行。 容器日志(可选):容器标准输出日志将默认上报至 AOM 服务,无需独立配置。您可以手动配置日志采集路径,详情请参见通过ICAgent采集容器日志(不推荐)。
namespace 具体可参考管理服务账号。 使用CCE密钥管理(对接 DEW)插件 CCE密钥管理(dew-provider)插件用于对接数据加密服务(Data Encryption Workshop, DEW)。该插件允许用户将存储在集群外部(即专门存储敏感信息的数据加密服务)的凭据挂载至业务
kubectl使用报错:Error from server (Forbidden) 故障现象 使用kubectl在创建或查询Kubernetes资源时,显示如下内容。 # kubectl get deploy Error from server (Forbidden): deployments
Controller的诉求,不同流量使用不同的控制器,将流量区分开。例如,集群中部分服务需要通过公网Ingress方式对外提供访问,但是又有部分对内开放的服务不允许使用公网访问,只支持对同VPC内的其他服务访问,您可以通过部署两套独立的Nginx Ingress Controller,
基于priority策略的资源碎片重调度场景化配套策略,即在同优先级场景下,优先选择扩容后可使节点可分配资源的CPU/内存比,更接近于所有已调度Pods的申请的CPU/内存比。 此策略基于集群中全局Pods/Nodes全局资源而非仅扩容节点部分,主要配套重调度等相关能力降低集群整体资源碎片率,无相关配套独立使用场景不建议使用。
and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"] projectId = "{project_id}"
密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。 密码不能包含用户名或用户名的逆序。 Windows系统密码不能包含用户名或用户名的逆序,不能包含用户名中超过两个连续字符的部分。 Python 以下是Python 3.7.7环境下对密码进行加盐的示例步骤:
自动创建的存储需要在新集群中变成使用已有存储。 网络 注意使用的负载均衡服务,以及Ingress。 老版本的集群只支持经典型负载均衡服务,迁移到新集群中需要改成共享型负载均衡服务,对应负载均衡服务将会重新建立。 运维 私有配置:确认在之前集群中,是否在节点上配置内核参数或者系统配置。 操作步骤 创建新集群 创建与老
鲲鹏超高I/O型 异构资源机型: GPU加速型 AI加速型 弹性云服务器-物理机 基于擎天架构,使用裸金属虚拟化技术的弹性云服务器类型,该类型的物理机资源和虚拟机资源处于同一个资源池,可实现动态混合调度。 通用计算增强型 裸金属服务器 基于裸金属服务器部署容器服务,提供高性能和低延迟的计算能力。
into the current release 表示集群内已经创建了对应的ClusterRole资源,但是该资源不是由插件管理的。 解决方案 手动使用kubectl删除非插件管理的冲突的资源后,重试插件的安装。 安装超时 问题现象 安装/升级插件时,提示安装失败,错误信息显示 timed
CCE节点变更规格后,为什么无法重新拉起或创建工作负载? 问题背景 kubelet启动参数中默认将CPU Manager的策略设置为static,允许为节点上具有某些资源特征的pod赋予增强的CPU亲和性和独占性。用户如果直接在ECS控制台对CCE节点变更规格,会由于变更前后CPU信息不匹配,导致节点上的负载无法重新拉起,也无法创建新负载。
复制容器子网的“网络ID”。 登录VPC控制台,在左侧导航栏中选择“子网”,并根据容器子网的“网络ID”进行过滤,找到对应的子网。 单击“资源概览”中的弹性网卡,查看该子网下的“网卡”和“辅助弹性网卡”。 查看网卡“名称”或者“描述”,如果其中包含当前集群的ID,表示网卡被集群占