检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
负载Pod一直无法创建。 解决方案: 登录该问题节点。 手动解压节点上的cce-pause镜像安装包。 tar -xzvf /opt/cloud/cce/package/node-package/pause-*.tgz 导入镜像。 Docker节点: docker load -i
highAvailability 否 Boolean 是否高可用,默认false scrapeInterval 是 String 默认指标采集周期,默认值15s shards 否 Integer 采集分片数,仅在agent模式下生效,默认值1 表4 resources字段数据结构说明 参数 是否必选 参数类型 描述
0/25,该网段包含128个容器IP。 图4 路由 当访问容器IP时,VPC路由就会将指向目的地址的流量转发到下一跳的节点,访问示例如下。 使用kubectl命令行工具连接集群,详情请参见通过kubectl连接集群。 在集群中创建一个Deployment。 创建deployment.yaml文件,文件内容示例如下:
已绑定弹性公网IP的ECS虚拟机。 登录ECS虚拟机,详情请参见Linux ECS登录方式概述。 在ECS虚拟机上安装kubectl命令行工具。 您可以尝试执行kubectl version命令判断是否已安装kubectl,如果已经安装kubectl,则可跳过此步骤。 本文以Li
31 支持CCE v1.31集群 2.4.75 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 Huawei Cloud EulerOS 2.0节点上的云硬盘类型PVC支持指定Fstype类型为xfs 2.4.72 v1.23 v1.25 v1.27 v1
操作系统节点内核版本。 accelerator/huawei-npu NPU节点标签。 accelerator GPU节点标签。 cce.cloud.com/cce-nodepool 节点池节点专属标签。 添加/删除节点标签 登录CCE控制台,单击集群名称进入集群。 在集群控制台左侧
您可以修改节点进程ID上限,详情请参见修改节点进程 ID数量上限kernel.pid_max。 排查项二:是否在实例上设置了tolerations 通过kubectl工具或单击对应工作负载后的“更多 > 编辑YAML”,检查工作负载上是不是设置了容忍度,具体请参见污点和容忍度。 排查项三:是否满足停止驱逐实例的条件
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。 部署示例应用如下: apiVersion: apps/v1 kind: Deployment metadata: name:
PU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
节点Python命令检查异常处理 ASM网格版本检查异常处理 节点Ready检查异常处理 节点journald检查异常处理 节点干扰ContainerdSock检查异常处理 内部错误异常处理 节点挂载点检查异常处理 K8s节点污点检查异常处理 everest插件版本限制检查异常处理 cce-
集群版本EOS后,云容器引擎(CCE)将不再支持对该版本的集群创建,同时不提供相应的技术支持,包含新特性更新、漏洞/问题修复、补丁升级以及工单指导、在线排查等客户支持,不再适用于CCE服务SLA保障。请前往CCE的集群管理页面,升级集群版本。详情请参见集群升级指导。 集群运维能力 云原生监控插件状态是否正常
示例: docker tag cloudeye-exporter:1.0 swr.cn-east-3.myhuaweicloud.com/cloud-develop/cloudeye-exporter:1.0 上传镜像至镜像仓库。 docker push [镜像仓库地址]/[组织名称]/[镜像名称2:版本名称2]
按照推荐配置参数恢复,详情请参见修改节点池配置。 修改操作系统配置 可能导致节点不可用 尝试还原配置项或重置节点,具体请参见重置节点。 删除或修改/opt/cloud/cce、/var/paas目录,删除数据盘 节点不可用 重置节点,具体请参见重置节点。 修改节点内目录权限、容器目录权限等。涉及的目录如下:
为模拟实际业务场景,以服务网格的经典案例Bookinfo应用为例,介绍灰度发布和蓝绿发布的完整流程。 Bookinfo应用分析 Bookinfo是一个模仿在线书店的应用,页面上会显示一本书籍的描述,书籍的细节(如页数),以及关于书籍的一些评论。 Bookinfo应用由四个单独的服务构成,几个服务
environment variables CLOUD_SDK_AK and CLOUD_SDK_SK in the local environment ak = os.environ["CLOUD_SDK_AK"] sk = os.environ["CLOUD_SDK_SK"]
访问容器网段10.0.0.0/16。具体访问时要关注安全组配置,打通端口配置。 访问其他云服务 与CCE进行内网通信的与服务常见服务有:RDS、DCS、Kafka、RabbitMQ、ModelArts等。 访问其他云服务除了上面所说的VPC内访问和跨VPC访问的网络配置外,还需要
Exporter Dashboard来展示DCGM相关指标信息。关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 查看刚刚导入的面板。 附录:DCGM-Exporter组件故障排查 运行状态检查 在CCE AI套件(NVIDIA GPU)插件页面检查Pod状态为“运行中”。
记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版本执行:/usr/local/nvidia/bin/nvidia-smi
zone),可在指定可用区调度时使用。 kubernetes.io/hostname:节点的hostname,可在指定节点调度时使用。 cce.cloud.com/cce-nodepool:节点所属的节点池,可在指定节点池调度时使用。 本示例中,必须满足的规则表示调度的节点必须包含一个键名