检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
节点Python命令检查异常处理 ASM网格版本检查异常处理 节点Ready检查异常处理 节点journald检查异常处理 节点干扰ContainerdSock检查异常处理 内部错误异常处理 节点挂载点检查异常处理 K8s节点污点检查异常处理 everest插件版本限制检查异常处理 cce-
com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。 部署示例应用如下: apiVersion: apps/v1 kind: Deployment metadata: name:
PU的调度和隔离能力。 前提条件 配置 支持版本 集群版本 v1.23.8-r0、v1.25.3-r0及以上 操作系统 Huawei Cloud EulerOS 2.0操作系统 GPU类型 支持T4、V100类型的GPU 驱动版本 GPU虚拟化功能仅支持470.57.02、510
默认值:default-scheduler disable_mount_path_v1 否 Bool 默认值:false true:不将/opt/cloud/cce/nvidia挂载到GPU容器的/usr/lib/nvidia路径上 disable_nvidia_gsp 否 Bool 默认值:true
core.somaxconn]”。 图2 修改kubelet参数 方式二:直接修改节点kubelet参数(不推荐) 登录节点。 编辑/opt/cloud/cce/kubernetes/kubelet/kubelet 文件。1.15之前版本为 /var/paas/kubernetes/kubelet/kubelet
initialize process thread 重要 检查集群初始化执行线程是否成功。 更新数据库失败 Failed to update database 重要 检查集群更新数据库是否成功。 节点池触发创建节点失败 Failed to create node by nodepool
开启CPU Burst 约束与限制 集群版本:CCE Turbo集群且集群版本为v1.23.5-r0及以上。 OS版本:Huawei Cloud EulerOS 2.0。 集群中需要安装Volcano 1.9.0及以上版本的插件,且开启混合部署开关。 操作步骤 登录CCE控制台,单击集群名称进入集群。
load ImageNet labels labels_file = caffe_root + 'data/ilsvrc12/synset_words.txt' #if not os.path.exists(labels_file): # !../data/ilsvrc12/get_ilsvrc_aux
创建VPA策略 VPA策略即Vertical Pod Autoscaling,该功能可以在Kubernetes中实现Pod垂直弹性伸缩,可以根据容器资源历史使用情况自动调整Pod的CPU、Memory资源申请量。当业务负载急剧飙升时,VPA能够快速地在设定范围内扩大容器的资源申请
按照推荐配置参数恢复,详情请参见修改节点池配置。 修改操作系统配置 可能导致节点不可用 尝试还原配置项或重置节点,具体请参见重置节点。 删除或修改/opt/cloud/cce、/var/paas目录,删除数据盘 节点不可用 重置节点,具体请参见重置节点。 修改节点内目录权限、容器目录权限等。涉及的目录如下:
访问容器网段10.0.0.0/16。具体访问时要关注安全组配置,打通端口配置。 访问其他云服务 与CCE进行内网通信的与服务常见服务有:RDS、DCS、Kafka、RabbitMQ、ModelArts等。 访问其他云服务除了上面所说的VPC内访问和跨VPC访问的网络配置外,还需要
用于配置ELB Ingress的注解(Annotations) 通过在YAML中添加注解Annotation(注解),您可以实现更多的Ingress高级功能。本文介绍在创建ELB类型的Ingress时可供使用的Annotation。 索引 功能分类 Ingress注解配置 ELB配置
使用Annotation配置负载均衡类型的服务 通过在YAML中添加注解Annotation(注解),您可以实现CCE提供的一些高级功能。本文介绍在创建LoadBalancer类型的Service时可供使用的Annotation。 对接ELB 会话保持 健康检查 使用HTTP/HTTPS协议
资源规划和版本迭代带来的变化中解脱出来。 资源分级管控 应用被调度到合适的运行环境后,如何来保障其所需要的资源呢? 基于Huawei Cloud EulerOS 2.0操作系统,从CPU、L3缓存、内存、网络、存储等全方位提供资源隔离能力,并以内核态为主,用户态为辅,通过快速抢占
io/uninitialized:如果 kubelet 启动时指定了一个“外部”云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。在 cloud-controller-manager 的一个控制器初始化这个节点后,kubelet 将删除这个污点。 相关操作:容忍度(Toleration)
通过静态存储卷使用已有极速文件存储 极速文件存储(SFS Turbo)是一种具备高可用性和持久性的共享文件系统,适合海量的小文件、低延迟高IOPS的应用。本文介绍如何使用已有的极速文件存储静态创建PV和PVC,并在工作负载中实现数据持久化与共享性。 前提条件 您已经创建好一个集群
Exporter Dashboard来展示gpu的相关指标信息。 关于在Grafana导入Dashboard的方法,请参见Manage dashboards。 手动部署dcgm-exporter组件 本文在集群部署dcgm-exporter组件进行GPU指标的采集,同时以9400端口对外暴露GPU指标。
记录当前版本驱动状态。根据CCE AI套件(NVIDIA GPU)插件版本差异,查询驱动的命令如下: 1.x.x版本执行: /opt/cloud/cce/nvidia/bin/nvidia-smi 2.0.0-2.5.3版本执行:/usr/local/nvidia/bin/nvidia-smi
zone),可在指定可用区调度时使用。 kubernetes.io/hostname:节点的hostname,可在指定节点调度时使用。 cce.cloud.com/cce-nodepool:节点所属的节点池,可在指定节点池调度时使用。 本示例中,必须满足的规则表示调度的节点必须包含一个键名
chronyd 节点的DNS地址配置错误 登录节点,在日志/var/log/cloud-init-output.log中查看是否有域名解析失败相关的报错。可以执行如下指令: cat /var/log/cloud-init-output.log | grep resolv 如果回显结果包含如下类似内容则说明无法解析该域名。