检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
其中{Pod IP}是GPU插件的Pod IP,返回指标结果则为正常。 在集群中安装3.9.5及以上版本的云原生监控插件,且部署模式需选择“本地数据存储”。 采集GPU指标 登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“配置项与密钥”。 切换至“monitoring”
须知: 挂载高危目录的情况下 ,建议使用低权限账号启动,否则可能会造成宿主机高危文件被破坏。 子路径 请输入挂载路径的子路径。 使用子路径挂载本地磁盘,实现在单一Pod中重复使用同一个Volume,不填写时默认为根。 子路径可以填写Secret的键值,子路径若填写为不存在的键值则数据导入不会生效。
SSD:超高I/O everest.io/csi.dedicated-storage-id 是 专属盘所在DSS存储池的ID。 获取方法:在云服务器控制台,单击左侧栏目树中的“专属分布式存储 > 存储池”,单击要对接的存储池名称展开详情,复制ID值即可。 everest.io/crypt-key-id
创建一个有1个节点的集群,节点规格为2U4G及以上,并在创建节点时为节点添加弹性公网IP,以便从外部访问。如创建节点时未绑定弹性公网IP,您也可以前往ECS控制台为该节点进行手动绑定。 给集群安装插件。 autoscaler:节点伸缩插件。 metrics-server:是Kubernetes
关联存储卷:选择上一步中已创建的存储卷。 前往“工作负载”页面,查看原来的有状态工作负载,单击“更多>编辑YAML”,单击“下载”或复制YAML文件的全部内容,在本地进行备份。 删除原来的有状态应用,并将上一步复制的工作负载YAML配置进行以下修改: volumeClaimTemplates字段下的storageClassName:
创建一个有1个节点的集群,节点规格为2U4G及以上,并在创建节点时为节点添加弹性公网IP,以便从外部访问。如创建节点时未绑定弹性公网IP,您也可以前往ECS控制台为该节点进行手动绑定。 给集群安装插件。 autoscaler:节点伸缩插件。 metrics-server:是Kubernetes
称即可。 everest.io/crypt-domain-id 否 指定加密卷所属租户的ID,创建加密卷时必须提供该字段。 获取方法:在云服务器控制台,鼠标悬浮至右上角的用户名称并单击“我的凭证”,复制账号ID即可。 everest.io/csi.volume-name-prefix
调度配置 为您提供kube-scheduler基础配置信息,并提供Volcano作为容器调度器的高级调度能力配置,您可以在此开启装箱策略、基于优先级的调度与抢占、AI任务性能增强、异构资源管理等高级调度能力,提升集群资源利用率,为您节约成本。 设置集群默认调度器 默认调度器 (default-scheduler)
SSD:超高I/O everest.io/csi.dedicated-storage-id 是 专属盘所在DSS存储池的ID。 获取方法:在云服务器控制台,单击左侧栏目树中的“专属分布式存储 > 存储池”,单击要对接的存储池名称展开详情,复制ID值即可。 everest.io/crypt-key-id
节点。 workload_identity即为身份提供商名称,与步骤二:配置身份提供商中配置的名称相同。 token_body.json为本地文件,内容如下所示: { "auth" : { "id_token" : { "id" : "eyJhbGciOiJSU
cce-gpu-topology-predicate true/false true 允许 CCE Standard/CCE Turbo 一台AI服务器上共有8块NPU 1980芯片,4P * 2方式。每4块NPU 1980芯片之间通过HCCS互联,4块之间通过PCIe swith互联。 HCCS互联的4块NPU
ingress.kubernetes.io/proxy-body-size: 8m HTTPS双向认证 Nginx Ingress支持配置服务器与客户端之间的双向HTTPS认证来保证连接的安全性。 请参见通过kubectl连接集群,使用kubectl连接集群。 执行以下命令,创建自签名的CA证书。
节数这两个指标的开关,默认不开 enable: true healthCheck: #选填,本地节点 Pod 健康检查任务中最近一次健康检查是否健康、健康检查总健康&不健康次数这三个指标开关,默认不开 enable: true
如何避免节点上的某个容器被驱逐? 问题背景 在工作负载调度时可能会发生一个节点上的两个容器之间互相争资源的情况,最终导致kubelet将其全部驱逐。那么能不能设定策略让其中一个服务一直保留?如何设定? 问题建议 Kubelet会按照下面的标准对Pod的驱逐行为进行评判: 根据服务
模块提供了基本的监控功能,通过在nginx.conf的配置可以提供一个对外访问Nginx监控数据的接口。 登录一台可连接公网的Linux虚拟机,且要求可执行Docker命令。 创建一个nginx.conf文件,如下所示,在http下添加server配置即可让nginx提供对外访问的监控数据的接口。
此需要在CCE界面删除相应的集群后,再删除VPC的子网。 删除集群会将集群内的节点以及运行的工作负载和服务都销毁,请谨慎操作。 不建议在ECS界面删除CCE集群中的节点。 父主题: 网络异常问题排查
NPD插件版本过低导致进程资源残留问题 问题描述 在节点负载压力比较大的场景下,可能存在NPD进程资源残留的问题。 问题现象 登录到CCE集群的ECS节点,查询存在大量npd进程。 解决方案 升级CCE节点故障检测(简称NPD)插件至最新版本。 登录CCE控制台,进入集群,在左侧导航栏中
es Image Builder中的两个安全漏洞(CVE-2024-9486和CVE-2024-9594),这些漏洞可能允许攻击者获得对虚拟机(VM)的root访问权限。 漏洞详情 表1 漏洞信息 漏洞类型 CVE-ID 漏洞级别 披露/发现时间 容器逃逸 CVE-2024-9486
化应用的全生命周期管理,为您提供高度可扩展的、高性能的云原生应用部署和管理方案。 为什么选择云容器引擎 云容器引擎深度整合高性能的计算(ECS/BMS)、网络(VPC/EIP/ELB)、存储(EVS/OBS/SFS)等服务,并支持GPU、NPU、ARM等异构计算架构,支持多可用区(Available
GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备DBE错误与SBE错误总数过高 GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备存在Uncorrectable