检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
策略触发时,工作负载实例将在此范围内伸缩。 须知: 在CCE Turbo集群中,如果使用独享型ELB对接到工作负载,则最大实例数不能超过ELB的后端服务器组配额(默认为500),否则将会导致多余的实例无法添加到ELB后端。 冷却时间 请输入缩容和扩容的冷却时间,单位为分钟,缩容扩容冷却时间不能小于1分钟。
监控GPU资源指标 通过Prometheus和Grafana,可以实现对GPU资源指标的观测。本文以实际示例介绍如何通过Prometheus查看集群的GPU显存的使用。 本文将通过一个示例应用演示如何监控GPU资源指标,具体步骤如下: 访问Prometheus (可选)为Prom
使用ASM实现灰度发布和蓝绿发布 容器镜像迁移实践 使用docker命令将镜像迁移至SWR 使用image-migrator将镜像迁移至SWR 跨云Harbor同步镜像至华为云SWR DevOps实践 在CCE中安装部署Jenkins Gitlab对接SWR和CCE执行CI/CD 使用Argo CD实现持续交付
在CCE集群中部署使用Tensorflow 资源准备 购买CCE集群,购买GPU节点并使用gpu-beta插件安装显卡驱动。 在集群下添加一个对象存储卷。 数据预置 从https://github.com/zalandoresearch/fashion-mnist下载数据。 获取tens
动与CCE其他GPU组件兼容(例如监控组件等)。 如果您使用不在GPU驱动支持列表内的GPU驱动版本,可能引发GPU驱动与操作系统版本、ECS实例类型、Container Runtime等不兼容,继而导致驱动安装失败或者GPU插件异常。对于使用自定义GPU驱动的场景,请您自行验证。
CCE使用/var/paas目录进行基本的节点管理活动并存储属主和属组均为paas的文件数据。 当前集群升级流程会将/var/paas路径下的文件的属主和属组均重置为paas。 请您参考下述命令排查当前业务Pod中是否将文件数据存储在/var/paas路径下,修改避免使用该路径,并移
schedulerName字段的值为“volcano”,启用Volcano调度器。 在线/在线、离线/离线作业间的优先级暂时未做区分,且未对值的合法性做校验,若设置的离线作业的volcano.sh/qos-level标签值不是-7~0之间的负整数,则统一按在线作业处理。 离线作业:
Prometheus Agent视图 Prometheus Agent是轻量化的容器监控模式,可以收集有关主机和应用程序的指标数据,并将数据上报并存储到AOM或三方监控平台。Prometheus Agent视图展示了Prometheus提供的一些内置指标,可用于监控和度量系统的性能和状态。
签名公钥:CCE集群的jwks,获取方法请参见步骤一:获取CCE集群的签名公钥。 身份转换规则 身份映射规则是将工作负载的ServiceAccount和IAM用户做映射。 例如在集群default命名空间下创建一个名为oidc-token的ServiceAccount,映射到demo用户组(后续使用身份
信息,并单击“提交”,开始创建节点。 待GPU节点创建完成后,可前往“节点列表”查看节点状态。 导入OBS存储卷 进入存储管理页面,导入OBS存储数据预置中创建的OBS存储卷。 父主题: 在CCE集群中部署使用Caffe
设置对应的容器规格。 启动命令添加python /home/caffeEx00.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker logs
如何获取接口URI中参数 项目ID(project_id) project_id即项目ID,可以通过控制台或API接口获取,具体请参见获取项目ID。 集群ID(cluster_id) 登录CCE控制台,在左侧导航栏中选择“集群管理”。 单击所创建集群的名称,进入集群详情页面,获取集群ID。
工作负载异常:实例驱逐异常(Evicted) 工作负载异常:存储卷无法挂载或挂载超时 工作负载异常:一直处于创建中 工作负载异常:Pod一直处于Terminating状态 工作负载异常:已停止 工作负载异常:GPU节点部署服务报错 工作负载异常:添加存储失败 工作负载异常:实例无法写入数据 工作负载异常:Init容器启动失败
start操作中99%的操作的时延分布情况 存储操作速率 次/秒 Kubelet每秒执行的存储相关操作的次数 存储操作错误率 次/秒 Kubelet每秒执行的存储相关操作失败的次数 存储操作时延(99分位) 秒 Kubelet执行存储操作中99%的操作的时延分布情况 控制组管理器操作速率
创建工作负载时支持选用不同可用区或节点 容灾部署 磁盘加密 CCE支持多种存储类型,满足各类高可用以及部分存储加密场景,可为您的数据提供强大的安全防护。 存储概览 集群密钥配置 密钥(Secret)是一种用于存储工作负载所需要认证信息、密钥的敏感信息等的集群资源类型,内容由用户决定。
2000m 2000m 2048Mi 2048Mi 2000 20000QPS 4 2000m 2000m 2048Mi 2048Mi CCE 容器存储(Everest) 集群规格调整后,Everest插件规格需要根据集群的规模和PVC数量进行自定义调整。其中,插件组件的CPU和内存申请值
GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备DBE错误与SBE错误总数过高 GPU驱动或GPU设备存在异常,请根据GPU设备所在的节点类型(ECS或BMS),联系对应的客服进行处理。 GPU设备存在Uncorrectable
每个集群最多支持创建50条日志规则。 云原生日志采集插件不会采集.gz、.tar、.zip后缀类型的日志文件,且不支持采集日志文件的软链接。 采集容器文件日志时,若节点存储模式为Device Mapper模式,路径配置必须为节点数据盘挂载路径。 若容器运行时为containerd模式,容器标准输出日志中的多行配置暂不生效。(插件1
14及以上版本的插件,详情请参见Volcano调度器。 已安装CCE云原生监控插件(kube-prometheus-stack),并开启“本地数据存储”模式,详情请参见云原生监控插件。若您使用的是自建Prometheus监控系统,建议Prometheus版本为2.35.0及以上,具体操作
CCE节点kubelet和runtime组件路径与社区原生配置差异说明 为保证节点的系统稳定性,CCE将Kubernetes和容器运行时的相关组件单独存储在数据盘中。其中Kubernetes使用“/mnt/paas/kubernetes”目录,容器运行时使用/“mnt/paas/runtim