检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU相关业务。 在集群中安装CCE AI 套件 (NVIDIA GPU)和云原生监控插件。 CCE AI 套件 (NVIDIA GPU)是在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装该插件。安装GPU驱动时,需要匹配GPU类型和CUDA版本选择对应的驱动进行安装。
密钥名称由两部分组成:KeyPair-4位随机数字,使用一个容易记住的名称,如KeyPair-xxxx_ecs。 您的浏览器会提示您下载或自动下载私钥文件。文件名是您为密钥对指定的名称,文件扩展名为“.pem”。请将私钥文件保存在安全位置。然后在系统弹出的提示框中单击“确定”。 这是您保存私钥文件的唯一
场景示例:核对资源用量是否与实际相符 假设用户在2023/04/08 10:09:06购买了一个按需计费的集群(集群规模:50节点,高可用:是),并在2023/04/08 12:09:06时刻将其删除。 云容器引擎流水账单 按需计费集群按秒计费,每一个小时整点结算一次费用,您可以在
TFJob可在GPU场景下进行,该场景需要集群中包含GPU节点,并安装合适的驱动。 在TFJob中指定GPU资源。 创建tf-gpu.yaml文件,示例如下: 该示例的主要功能是基于Tensorflow的分布式架构,利用卷积神经网络(CNN)中的ResNet50模型对随机生成的图像进行训练,每次训练32张图像(bat
如果您是迁移或备份CCE中集群的资源,比如从一个Namespace到另外一个Namespace,请不要备份名称为paas.elb的Secret。因为paas.elb的内容是会定期更新,备份后再恢复时可能已经失效,会影响网络存储相关功能。 挂载到容器的持久化存储。 由于Restic工具限制,不支持进行HostPa
例如:将容器通过hostPath的方式将主机的/var/log路径挂载进容器/mnt/log路径,此时在容器内看到/mnt/log/pods是一个异常的软链文件,无法访问/var/log/pods下的真实文件内容。 建议将真实的文件路径挂载进容器内,避免软链导致的文件读取失败。 k
优雅终止(SIGTERM) 表示容器在主机指示后正确关闭。一般来说,退出码143不需要进行故障排除。 255 状态码超出范围 表示容器退出状态码超出范围。例如,可能是设置异常退出使用exit(-1)导致的,而-1将会自动转换成255。 出现该异常时无法判断原因,需要进一步通过容器日志定位原因。 Linux标准中断信号
、已完成或其他的状态Pod数量之和。 Pod数量变化趋势:节点上所有的Pod在不同的时间段的数量。 其他指标 节点平均负载:节点的平均负载是指在一定时间内,节点上正在运行的进程数量的平均值。即节点上正在运行的进程数量是否过多,是否超出了节点的处理能力。通常情况下,节点平均负载应该
登录CCE控制台,单击集群名称进入集群,在左侧导航栏中选择“应用模板”,在右侧选择“模板实例”页签。 单击待卸载模板实例后的“更多 > 卸载”,确认待卸载模板实例后,单击“是”。模板实例卸载后不能恢复,请谨慎操作。 父主题: 模板(Helm Chart)
服务转发模式,支持以下两种实现: iptables:社区传统的kube-proxy模式,完全以iptables规则的方式来实现service负载均衡。该方式最主要的问题是在服务多的时候产生太多的iptables规则,非增量式更新会引入一定的时延,大规模情况下有明显的性能问题。 ipvs:主导开发并在社区获得广
特权容器(可选) 特权容器是指容器里面的程序具有一定的特权。 若选中,容器将获得超级权限,例如可以操作宿主机上面的网络设备、修改内核参数等。 初始化容器(可选) 选择容器是否作为初始化(Init)容器。初始化(Init)容器不支持设置健康检查。 Init容器是一种特殊容器,可以在Po
ingressClassName: cce 表2 关键参数说明 参数 是否必填 参数类型 描述 kubernetes.io/elb.rewrite-target 是 string 重写路径的信息。 格式说明:以 "/" 开头的合理的正则匹配规则。 参数说明:对单个Ingress下正则匹配的URL转发规则
型的Service。 如果Agent需要跨集群或使用公网连接Jenkins Master,请自行选择合适的Service类型。但需要注意的是,Jenkins要求jenkins-web的地址要和jenkins-agent的地址一致,因此Agent连接的地址必须同时开放8080和50
件为Metrics-Server,用来替换之前的heapster,heapster从1.11开始逐渐被废弃。 Metrics Server是集群核心资源监控数据的聚合器,您可以在CCE控制台快速安装本插件。 安装本插件后,可创建HPA策略,具体请参见创建HPA策略。 社区官方项目及文档:https://github
ingressClassName: cce 表2 关键参数说明 参数 是否必填 参数类型 描述 kubernetes.io/elb.redirect-url 是 string 重定向URL信息。 格式说明:以 "http://" 或 "https://" 开头的合法的URL,如 https://example
nginx_ingress_controller_orphan_ingress 基础指标 孤立ingress的状态,1表示孤立ingress。 namespace:是用于标识ingress名称空间的字符串。 ingress:表示ingress名称。 type:表示孤立ingress的状态,取值为no-service或no-endpoint。
/dev/nvidiactl: root 12192 F.... nvidia-gpu-devi 删除进程,上例中的进程号是12192,运行命令:sudo kill 12192 # sudo kill 12192 # sudo fuser -v /dev/nvidia*
log形式输出时,会占用dockersys分区,若容器日志单独设置持久化存储,则不会占用dockersys空间,请根据实际情况估算单个容器空间。 例如: 假设节点的存储类型是OverlayFS,节点数据盘大小为20G。根据上述计算公式,默认的容器引擎和容器镜像空间比例为90%,则dockersys分区盘占用:20G*90%
集群状态不可用 检查集群状态是否可用 事件类 云原生日志采集插件 不涉及 绑定联系组 告警规则最多绑定5个联系组。 联系组是基于消息通知服务 SMN的主题功能实现的,目的是为消息发布者和订阅者提供一个可以相互交流的通道。联系组包含一个或多个订阅终端,您可以通过为告警规则绑定联系组,分组管理订阅终端,接收告警信息。
second,则需要将ingress-first的监听器配置同步至ingress-third的annotation中。 若监听器服务器证书是通过TLS密钥方式创建,需要将记录在ingress的spec.tls下的配置信息同步至ingress-third中。 apiVersion: