检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ster_agency委托添加费用中心的bss:order:pay权限。建议您在首次创建时使用主账号通过控制台创建,在进行确认后将自动为您授权。 everest.io/csi.period-type 否 可选字段,使用包年/包月计费模式时必填,表示计费周期,取值如下: month:表示按月计费。
根据需求选择“CCE Standard集群”或“CCE Turbo集群”。 CCE Standard集群:标准版本集群,提供高可靠、安全的商业级容器集群服务。 CCE Turbo集群:拥有更高性能的云原生网络,提供云原生混部调度能力,可实现更高的资源利用率和更广的全场景覆盖。 关
31 支持CCE v1.31集群 2.4.75 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 Huawei Cloud EulerOS 2.0节点上的云硬盘类型PVC支持指定Fstype类型为xfs 2.4.72 v1.23 v1.25 v1.27 v1
aler、dashboard插件支持ARM集群下安装,支持双架构适配X86/ARM混合场景。 商用 2 支持联邦用户 CCE的EPS细粒度授权支持SAML联邦用户场景,用户可使用SAML联邦方式访问CCE。 商用 3 CCE v1.15的CSI Everest容器存储插件支持fuxi
操作系统节点内核版本。 accelerator/huawei-npu NPU节点标签。 accelerator GPU节点标签。 cce.cloud.com/cce-nodepool 节点池节点专属标签。 添加/删除节点标签 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
ster_agency委托添加费用中心的bss:order:pay权限。建议您在首次创建时使用主账号通过控制台创建,在进行确认后将自动为您授权。 everest.io/csi.period-type 否 可选字段,使用包年/包月计费模式时必填,表示计费周期,取值如下: month:表示按月计费。
用于服务账户令牌的身份验证组件,会验证API请求中使用的令牌是否指定了合法的受众。 配置建议:根据集群服务间通信的需求,精确配置受众列表。此举确保服务账户令牌仅在授权的服务间进行认证使用,提升安全性。 说明: 不正确的配置可能导致服务间认证通信失败,或令牌的验证过程出现错误。 v1.23.16-r0、v1
com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。 部署示例应用如下: apiVersion: apps/v1 kind: Deployment metadata: name:
访问容器网段10.0.0.0/16。具体访问时要关注安全组配置,打通端口配置。 访问其他云服务 与CCE进行内网通信的与服务常见服务有:RDS、DCS、Kafka、RabbitMQ、ModelArts等。 访问其他云服务除了上面所说的VPC内访问和跨VPC访问的网络配置外,还需要
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
PU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
示例: docker tag cloudeye-exporter:1.0 swr.cn-east-3.myhuaweicloud.com/cloud-develop/cloudeye-exporter:1.0 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2]
load ImageNet labels labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #if not os.path.exists(labels_file): # !../data/ilsvrc12/get_ilsvrc_aux
按照推荐配置参数恢复,详情请参见修改节点池配置。 修改操作系统配置 可能导致节点不可用 尝试还原配置项或重置节点,具体请参见重置节点。 删除或修改/opt/cloud/cce、/var/paas目录,删除数据盘 节点不可用 重置节点,具体请参见重置节点。 修改节点内目录权限、容器目录权限等。涉及的目录如下:
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
请参考无法备份HostPath类型存储卷。 集群外资源 自建镜像仓库。 可迁移至容器镜像服务SWR。 非容器化的数据库。 可迁移至云数据库服务RDS。 对象存储等非本地存储。 可迁移至对象存储服务OBS等云存储服务。 迁移流程如图1所示,对于集群外资源您可根据实际需求进行选择性迁移。
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版本执行:/usr/local/nvidia/bin/nvidia-smi
zone),可在指定可用区调度时使用。 kubernetes.io/hostname:节点的hostname,可在指定节点调度时使用。 cce.cloud.com/cce-nodepool:节点所属的节点池,可在指定节点池调度时使用。 本示例中,必须满足的规则表示调度的节点必须包含一个键名