检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
工作负载异常:添加存储失败 问题现象 实例一直处于创建中,事件中存在“添加存储失败”的告警,事件信息如下所示: AttachVolume.Attach failed for volume "pvc-***" : rpc error: code = Internal desc = [***][disk
单部门视角的成本洞察 单部门视角成本洞察,提供单一部门的成本分析报告。在部门成本分析模块,进行整体部门成本状况查看,并可单击部门列表中的某一部门,进行单部门的详细成本分析。 前提条件 已开通成本洞察功能 已完成部门配置 约束与限制 由于实际账单的获取存在两天时间延迟,开通成本洞察后,成本洞察成本数据会延迟2天显示。
对象存储卷挂载设置自定义访问密钥(AK/SK) 背景信息 CCE容器存储(Everest)在1.2.8及以上版本提供了设置自定义访问密钥的能力,这样可以让IAM用户使用自己的访问密钥挂载对象存储卷,从而可以对OBS进行访问权限控制(具体请参见OBS不同权限控制方式的区别)。 前提条件
为什么CCE集群界面的节点磁盘监控看起来不准确? 问题描述: CCE集群界面的某个节点磁盘监控高达80%以上,而进入云监控界面看到的磁盘使用率在40%不到。 后面在该节点上排查,发现有一个pvc磁盘使用达到了92%,将这个盘清理后,集群界面的磁盘使用率和云监控使用率一致了。 请问
安全运行时与普通运行时 相比于普通运行时,安全运行时可以让您的每个容器(准确地说是Pod)都运行在一个单独的微型虚拟机中,拥有独立的操作系统内核,以及虚拟化层的安全隔离。通过使用安全运行时,不同容器之间的内核、计算资源、网络都是隔离开的,保护了Pod的资源和数据不被其他Pod抢占和窃取。
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级。
解析能力选择“小规格”、“中规格”或“大规格”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “小规格”最大支持50节点、500PVC规模集群;“中规格”最大支持200节点、2000PVC规模集群;“大规格”最大支持1000节点、10000PVC规模集群。
单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据集群Pod数量选择“小规格”、“中规格”或“大规格”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 选择“自定义规格”时,您可根据需求调整插件实例数
节点池亲和性调度 在替换节点池、节点滚动升级等场景中,需要使用新节点池替换旧节点池。在这些场景下,为做到业务不感知,可以在业务触发变更时,将业务的Pod软亲和调度到新的节点池上。这种软亲和调度会尽量将新创建的Pod或者重调度的Pod调度到新的节点池,如果新节点池资源不足,或者新节
调度算法 在离线业务混部 在离线业务混部是将多种应用在一个集群内部署,通过预测分析应用特性,实现业务对集群资源的充分利用; 参数名 取值范围 默认值 是否允许修改 作用范围 colocation-enable true/false false 允许 CCE Turbo 从集群维度
在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据集群规模选择“小规格”或“大规格”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “小规格”为单实例部署,适用50节点以下集群规模;“大规格”为高可用部署,适用50节点以上集群规模。 选择“自定义规格”
优先级调度与抢占 优先级表示一个作业相对于其他作业的重要性,Volcano兼容Kubernetes中的Pod优先级定义(PriorityClass)。启用该能力后,调度器将优先保障高优先级业务调度。集群资源不足时,调度器主动驱逐低优先级业务,保障调度高优先级业务可以正常调度。 前提条件
CCE AI套件(Ascend NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE
为NGINX Ingress控制器插件配置ELB证书 NGINX Ingress控制器插件上支持使用以下方式配置Ingress证书: 密钥证书:需要将证书导入至密钥(Secret)中,并为NGINX Ingress控制器插件指定服务器默认证书(default-ssl-certificate)。
使用节点本地域名解析加速(NodeLocal DNSCache)提升DNS性能 应用现状 当集群中的DNS请求量增加时,CoreDNS将会承受更大的压力,可能会导致如下影响: 延迟增加:CoreDNS需要处理更多的请求,可能会导致DNS查询变慢,从而影响业务性能。 资源占用率增加
CCE容器弹性引擎 CCE容器弹性引擎(原名cce-hpa-controller)插件是一款CCE自研的插件,能够基于CPU利用率、内存利用率等指标,对无状态工作负载进行弹性扩缩容。 安装本插件后,可创建CronHPA定时策略及CustomedHPA策略,具体请参见创建CronH
Nginx Ingress使用建议 Nginx型的Ingress在集群中部署NGINX Ingress控制器来对流量进行负载均衡及访问控制。由于NGINX Ingress控制器插件使用开源社区的模板与镜像,且部署在集群内部,因此它的稳定性与使用时的配置、当前集群状态密切相关。本文介绍Nginx
创建节点弹性策略 CCE的自动伸缩能力是通过节点自动伸缩组件CCE集群弹性引擎实现的,可以按需弹出节点实例,支持多可用区、多实例规格、多种伸缩模式,满足不同的节点伸缩场景。 当节点伸缩中创建的策略和弹性伸缩插件中的配置同时生效时(比如不可调度和指标规则同时满足时),将优先执行不可调度扩容。
NUMA亲和性调度 NUMA节点是Non-Uniform Memory Access(非统一内存访问)架构中的一个基本组成单元,每个节点包含自己的处理器和本地内存,这些节点在物理上彼此独立,但通过高速互连总线连接在一起,形成一个整体系统。NUMA节点能够通过提供更快的本地内存访问
节点池扩容失败 排查思路 请根据节点池扩容失败的具体事件信息确定问题原因,如表1所示。 表1 节点池扩容失败 事件信息 问题原因 解决方案 ...call fsp to query keypair fail, error code : Ecs.0314, reason is : the