检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
从而通过身份认证。 AK(Access Key ID):访问密钥ID。与私有访问密钥关联的唯一标识符;访问密钥ID和私有访问密钥一起使用,对请求进行加密签名。 SK(Secret Access Key):私有访问密钥。与访问密钥ID结合使用,对请求进行加密签名,可标识发送方,并防止请求被修改。
检查CCE GPU插件中部分配置是否被侵入式修改,被侵入式修改的插件可能导致升级失败。 解决方案 使用kubectl连接集群。 执行以下命令获取插件实例详情。 kubectl get ds nvidia-driver-installer -nkube-system -oyaml 请检查Up
首次安装kube-prometheus-stack插件时,prometheus实例会延迟绑定云硬盘类型的存储卷(PVC名为pvc-prometheus-server-0),创建该云硬盘时可用区会自动与实例运行的节点所在可用区保持一致。例如实例运行的节点可用区为可用区1,则该云硬盘的可用区也为可用区1。
/usr/local/nvidia/bin && ./nvidia-smi 登录CCE控制台,单击集群名称进入集群,在左侧选择“配置中心”。 切换至“异构资源配置”页签,在“节点池自定义驱动”下方选择需要更新驱动的节点池及驱动,或者选择填写自定义驱动链接。 本文档中更新后的驱动为535.54.03。 单击“确认配置”。
工作负载异常问题排查 工作负载状态异常定位方法 工作负载异常:实例调度失败 工作负载异常:实例拉取镜像失败 工作负载异常:启动容器失败 工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态
设置资源配额及限制 Kubernetes在一个物理集群上提供了多个虚拟集群,这些虚拟集群被称为命名空间。命名空间可用于多种工作用途,满足多用户、多环境、多应用的使用需求,通过为每个命名空间配置包括CPU、内存、Pod数量等资源的额度可以有效限制资源滥用,从而保证集群的可靠性,更多信息请参见资源配额。
专线服务付费方式,目前仅支持包年/包月方式付费。 区域 物理连接开通的区域。用户可以在管理控制台左上角或购买页面切换区域。 物理连接名称 用户将要创建的物理连接的名称(可自定义)。 华为云接入点 物理连接接入点的位置。 运营商 提供物理连接的运营商。 端口类型 物理连接接入端口的类型:1GE,10GE、40GE、100GE。
使用场景 云原生网络2.0网络模式下,Pod使用的是VPC的弹性网卡/辅助弹性网卡,可直接绑定弹性公网IP。 为方便用户在CCE内直接为Pod关联弹性公网IP,用户只需在创建Pod时,配置annotation(yangtse.io/pod-with-eip: "true"),弹性
在NVIDIA Container Toolkit v1.16.1及更早版本的环境中,攻击者通过运行一个恶意镜像,可能实现容器逃逸,从而获得主机系统的访问权限。成功利用此漏洞可能会导致代码执行、拒绝服务、权限提升、信息泄露和数据篡改。 判断方法 如果集群未安装CCE AI套件(NVIDIA GPU)插件或插件版本低于2
rd,并且登录节点可以执行crictl等Containerd相关命令查看节点上运行的容器信息。 自定义节点池迁移步骤 您可使用节点池复制功能,复制原有的Docker节点池,并将新节点池的容器引擎选择为Containerd,其余配置和原Docker节点池保持一致。 登录CCE控制台,单击集群名称进入集群。
Turbo集群添加容器子网。 约束与限制 仅支持v1.19及以上版本的CCE Turbo集群。 为CCE Turbo集群添加默认容器子网 登录CCE控制台,单击CCE Turbo集群名称,进入集群。 在“概览”页面,找到“网络信息”版块,并单击“添加”。 图1 添加容器子网 选择
如果首选规格因可用区资源售罄或配额不足等原因创建失败,将按照节点池内规格优先级的顺序,尝试创建下一个优先级的规格,原实例进入5分钟的冷却时间。 如果一个节点池中的所有规格都无法成功创建实例,系统将顺延至下一个优先级的节点池继续尝试。 手动扩容策略 当节点池进行手动扩缩容时,您可选择指定的规格
test updateStrategy: type: RollingUpdate 表1 关键参数说明 参数 描述 replicas 实例数。 name 新建工作负载的名称。 image 新建工作负载使用的镜像。 mountPath 容器内挂载路径。 serviceName
若不执行本步骤或创建静态PV/PVC时没有执行过本步骤,请务必确保删除节点前,提前将静态PV关联的云硬盘从节点上解关联。 获取租户Token,详情请参见获取用户Token 。 获取EVS访问地址EVS_ENDPOINT,详情请参见区域和终端节点。 给EVS静态PV关联的EVS盘补充集群关联的metadata。 curl
均分模式,默认:false。插件Deployment实例均匀调度到当前集群下各可用区,增加新的可用区后建议扩容插件实例以实现跨可用区高可用部署;均分模式限制不同可用区间插件实例数相差不超过1,单个可用区资源不足会导致后续其他实例无法调度。 tolerations 否 Array of
目标,您需要为集群安装log-agent插件,该插件可以采集Kubernetes事件,并在“监控中心 > 事件”页面进行展示。 功能入口 登录CCE控制台,单击集群名称进入集群详情页。 在左侧导航栏中选择“监控中心”,单击“事件”页签。 事件页面分为两个页签:“概览”和“事件”。
NPD插件版本过低导致进程资源残留问题 模板格式不正确,无法删除模板实例? CCE是否支持nginx-ingress? 插件安装失败,提示The release name is already exist如何解决? 创建或升级实例失败,提示rendered manifests contain
v1.9.10-r1 主要特性: 支持对接SFS存储 支持Service自动创建二代ELB 支持公网二代ELB透传源IP 支持设置节点最大实例数maxPods v1.9.10-r0 主要特性: kubernetes对接ELB/Ingress,新增流控机制 Kubernetes同步社区1
匿名请求的用户名为 system:anonymous, 用户组名为 system:unauthenticated 配置建议: 如涉及使用匿名(不携带身份凭证)访问的场景(如使用kubeadm过程中涉及部分查询操作),可以按需开启匿名访问 开启匿名访问的场景下请对匿名请求的用户名和分组
U驱动卸载。 关闭:无法根据用户诉求指定驱动版本,无法依靠插件进行驱动维护。当不开启驱动选择时,如从控制台创建NPU节点,控制台会自动补充NPU驱动(用户无法指定版本和类型)安装命令,并在安装完成后自动重启节点;如通过API或其他方式创建节点则需要用户在“安装后执行脚本”中添加驱动安装命令。