检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
力。此外,您还可以根据自己的需求,采集和监控工作负载的自定义指标,实现个性化的监控策略。 资源监控指标 资源基础监控包含CPU/内存/磁盘等指标数据,您可以全面监控集群的健康状态和负荷程度,具体请参见监控概述。您可以在CCE控制台从集群、节点、工作负载等维度查看这些监控指标数据,也可以在AOM中查看。
服务一直保留?如何设定? 问题建议 Kubelet会按照下面的标准对Pod的驱逐行为进行评判: 根据服务质量:即BestEffort、Burstable、Guaranteed。 根据Pod调度请求的被耗尽资源的消耗量。 接下来,Pod按照下面的顺序进行驱逐(QOS): BestEffort
ScaleNodePoolRequestBody(); List<String> listSpecScaleGroups = new ArrayList<>(); listSpecScaleGroups.add("default"); ScaleNodePoolSpec
条件才会被系统接受。 v1.17.17版本的集群默认启用Pod安全策略准入控制组件,并创建名为psp-global的全局默认安全策略,您可根据自身业务需要修改全局策略(请勿直接删除默认策略),也可新建自己的Pod安全策略并绑定RBAC配置。 除全局默认安全策略外,系统为kube-
新的任务。 硬约束 CPU真实负载阈值 节点CPU真实利用率超过该阈值后,会根据真实负载阈值生效方式,将工作负载优先或强制调度到其他节点。 80 内存真实负载阈值 节点内存真实利用率超过该阈值后,会根据真实负载阈值生效方式,将工作负载优先或强制调度到其他节点。 80 配置建议:
NGINX Ingress控制器插件版本发布记录 表1 NGINX Ingress控制器插件3.0.x版本发布记录 插件版本 支持的集群版本 更新特性 社区版本 3.0.8 v1.27 v1.28 v1.29 v1.30 更新至社区v1.11.2版本 修复CVE-2024-7646漏洞
创建节点失败立即触发 查看创建节点失败原因,尝试重新创建节点 扩容节点超时 CCE 扩容节点超时立即触发 查看扩容节点失超时原因,尝试重新扩容节点 缩容节点失败 CCE 缩容节点超时立即触发 查看缩容节点失超时原因,尝试重新缩容节点 拉取镜像重试失败 CCE 拉取镜像重试失败 登录集群查看拉取镜像失败原因,重新部署业务负载
/usr/local/nvidia/bin && ./nvidia-smi 若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。 相关链接 GPU节点使用nvidia驱动启动容器排查思路
(bullseye)”内核为基础镜像的容器,会出现容器内的文件权限和用户异常。 问题影响 容器内文件权限及用户异常。 解决方案 CCE提供以下两种解决方案,您可根据实际情况选取: 建议业务容器的基础镜像使用Debian 9或者Debian 10。 建议节点操作系统使用EulerOS 2.9或者Ubuntu18
/dev/vdb Device /dev/vdb excluded by a filter 这是由于添加的磁盘是在另一个虚拟机中新建的,已经存在了分区表,当前虚拟机并不能识别磁盘的分区表,运行parted命令重做分区表,中途需要输入三次命令。 root@host1:~# parted
evice_version相同 swr_addr 是 String 镜像仓库地址 swr_user 是 String 镜像仓库租户路径 表3 flavor 参数 是否必选 参数类型 描述 description 否 String 插件相关的描述信息 name 是 String 插
权项相对应,只有发起请求的用户被授予授权项所对应的策略,该用户才能成功调用该接口。例如,用户要调用接口来查询云服务器列表,那么这个IAM用户被授予的策略中必须包含允许“ecs:servers:list”的授权项,该接口才能调用成功。 IAM支持的授权项 策略包含系统策略和自定义策
NPU)插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。您可根据需求调整插件实例数和资源配额。 选择是否自动安装驱动(仅插件版本为1.2.5及以上时支持)。 开启:可根据NPU机型不同指定相应的驱动版本,驱动维护更灵活。 根据不同的适用机型选择是否启用驱动,启用后插件将根据用户指定的驱动版本
Code进一步定位容器异常的根本原因。 查看容器异常退出状态码 您可使用kubectl连接集群,并通过以下命令查询Pod详细状态: kubectl describe pod {pod name} 在返回结果中的Exit Code字段即为程序上次退出时的状态码,该值不为0即表示程序异常退出,可根据退出状态码进一步分析异常原因。
创建节点时password字段加盐加密的方法 通过API创建节点时password字段需要加盐加密,具体方法如下: 盐值需要根据密码的要求来设置,密码复杂度要求如下: 长度为8-26位。 密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。
、路径、HTTP请求方法、HTTP请求头、查询字符串、网段、Cookie所有类型的转发规则下条件总数最多为10(同一个规则中的每个参数值均视为1个条件)。 例如,在一条转发策略中已设置1个域名转发规则、1个路径转发规则。如果继续添加“查询字符串”类型的转发规则,则最多只能添加8个字符串值。
用于描述template文件所需的配置参数。 须知: 定义template文件配置参数时,请注意此处定义的“镜像地址”务必和容器镜像仓库中对应的镜像地址保持一致。否则创建工作负载会异常,提示镜像拉取失败。 镜像地址获取方法如下:在CCE控制台,单击左侧导航栏的“镜像仓库”,进入容器镜像服务控制台。在“我的镜像
参见文件系统类型。 历史版本中,CCE支持在工作负载中挂载SFS 1.0,建议迁移至通用文件系统(SFS 3.0)或SFS Turbo。 根据工作负载类型不同,应用可实现的存储挂载方式也不同。此处动态挂载和静态挂载是从工作负载挂载存储卷的方式进行区分的。 动态挂载:仅有状态工作负
Kubernetes Metrics Server插件,单击“安装”。 在安装插件页面,根据需求选择“规格配置”。 选择“系统预置规格”时,您可根据需求选择“单实例”或“高可用”,系统会根据不同的预置规格配置插件的实例数及资源配额,具体配置值请以控制台显示为准。 “单实例”不具备
/opt/tf-benchmarks/scripts/tf_cnn_benchmarks restartPolicy: OnFailure 创建TFJob。 kubectl apply -f tf-gpu.yaml 等待worker运行完毕后(一般GPU训练大约需要5分钟),执行如下命令查看运行结果: