检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
2为默认模式表示当前卡还没被用于XGPU设备分配 xgpu_device_health Gauge XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。
新版节点池切换说明 升级后的节点池,不仅完美融合了按需和包年/包月节点的灵活性,更在原有的全量能力基础上进一步增强配置管理,为您的资源管理带来更高效、更灵活的体验。 为什么要切换新版节点池? 灵活的资源配置:节点池提供更加灵活的节点类型,允许您根据即时需求创建按需节点,也可以选择成本效益更高的包年/包月节点。
CCE容器网络扩展指标 插件介绍 CCE容器网络扩展指标插件(dolphin)是一款容器网络流量监控管理插件,支持CCE Turbo集群非主机网络容器的流量统计,以及节点内容器联通性健康检查。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object
RGB to BGR # set the size of the input (we can skip this if we're happy # with the default; we can also change it later, e.g., for different
当业务需要使用大规模集群时,推荐您使用节点池进行节点管理,以提高大规模集群易用性。 下表介绍了多种大规模集群管理场景,并分别展示节点池在每种场景下发挥的作用: 表1 节点池场景及作用 场景 作用 集群存在较多异构节点(机型配置不同) 通过节点池可规范节点分组管理。 集群需要频繁扩缩容节点 通过节点池可降低操作成本。
两种服务亲和模式: 集群级别的服务亲和(externalTrafficPolicy: Cluster):Cluster模式下,如果当前节点没有业务Pod,会将请求转发给其他节点上的Pod,在跨节点转发会丢失源IP。 节点级别的服务亲和(externalTrafficPolicy:
_body_size_limit_total Counter 采集失败的次数 prometheus_tsdb_head_samples_appended_total Counter head中添加的samples的总数 prometheus_tsdb_head_series Gauge
对SFS子目录类型的PVC来说,此处仅为校验需要(不能为空和0),设置的大小不起作用,此处可以设定为固定值1Gi。 执行以下命令,创建PVC。 kubectl apply -f pvc-sfs-subpath.yaml 父主题: 文件存储(SFS)
Turbo子目录类型的PVC来说,此处仅为校验需要(不能为空和0),设置的大小不起作用,此处可以设定为固定值10Gi。 执行以下命令,创建PVC。 kubectl apply -f pvc-sfsturbo-subpath.yaml 父主题: 极速文件存储(SFS Turbo)
API API URL说明 集群管理 节点管理 节点池管理 存储管理 插件管理 集群升级 配额管理 API版本信息 标签管理 配置管理 模板管理 插件实例字段说明
详细信息 描述 隔离结果 GPUMemoryError Device=%s, UUID=%s, SN=%s has failed remapped rows; The device will go unhealthy. NVML显存重映射行数查询异常 隔离单点故障的GPU设备 GPUMemoryError
支持在/离线作业混合部署及资源超卖功能 优化集群调度吞吐性能 修复特定场景下调度器panic的问题 修复CCE v1.15集群中volcano作业volumes.secret校验失败的问题 修复挂载volume,作业调度不成功的问题 1.3.3 v1.15 v1.17 v1.19 v1.21 修复GPU异常
ib/kubelet)不一致,使用第三方CSI插件的容器挂载路径为社区路径,会导致文件挂载不生效。 例如,vault开源三方插件在使用secrets-store-csi-driver挂载密钥时,如果插件的root-dir地址与CCE配置路径不一致(插件默认value值与社区地址一
资源准备 在集群中添加GPU节点 登录CCE控制台,单击已创建的集群,进入集群控制台。 安装GPU插件。 在左侧导航栏中选择“插件管理”,在右侧找到gpu-beta(或gpu-device-plugin),单击“安装”。 在安装插件页面,设置插件关键参数。 Nvidia驱动:填写
如何上传我的镜像到CCE中使用? 镜像的管理是由容器镜像服务(SoftWare Repository)提供的,当前容器镜像服务提供如下上传镜像的方法: 客户端上传镜像 页面上传镜像 如您需要将Harbor镜像仓库平滑地迁移到容器镜像服务,请参考跨云Harbor同步镜像至华为云SWR。
生应用和工具。借助云容器引擎,您可以在云上轻松部署、管理和扩展容器化应用程序,快速高效的将微服务部署在云端。 为方便企业中的管理人员对集群中的资源权限进行管理,CCE后台提供了多种维度的细粒度权限策略和管理方式。CCE的权限管理包括“集群权限”和“命名空间权限”两种能力,分别从集
率。 高级设置(可选) 告警标签:添加告警标识性属性,用于告警降噪分组条件,标签值可用在通知内容模板中以$event.metadate.标签名被引用。一共可以添加10个告警标签。 告警标注:添加告警非标识性属性,标注值可用在通知内容模板中以$event.annotations.标
最小实例数 scaleTargetRef: # 关联Deployment apiVersion: apps/v1 kind: Deployment name: nginx targetCPUUtilizationPercentage:
Docker容器,提供了Kubernetes集群管理、容器应用全生命周期管理、应用服务网格、Helm应用模板、插件管理、应用调度、监控与运维等容器全栈能力,为您提供一站式容器平台服务。借助云容器引擎,您可以在华为云上轻松部署、管理和扩展容器化应用程序。 详细介绍请查看什么是云容器引擎。
请您根据业务需要选择对应区域的终端节点。 集群管理、节点管理、节点池管理、配额管理的URL格式为:https://Endpoint/uri。其中uri为资源路径,也即API访问的路径。 Kubernetes API、存储管理、插件管理的URL格式为:https://{clusterid}