检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Bool 默认值:false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置 默认值:{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围 默认值:"74,79" inject_ld_Library_path
同可用区的节点上,避免单可用区故障。 CoreDNS所运行的集群节点应避免CPU、内存用满的情况,否则会影响域名解析的QPS和响应延迟。建议您使用插件自定义参数完成CoreDNS隔离部署。 使用自定义参数完成CoreDNS隔离部署 建议CoreDNS插件与资源使用率高的负载隔离部
子路径 请输入存储卷的子路径,将存储卷中的某个路径挂载至容器,可以实现在单一Pod中使用同一个存储卷的不同文件夹。如:tmp,表示容器中挂载路径下的数据会存储在存储卷的tmp文件夹中。不填写时默认为根路径。 权限 只读:只能读容器路径中的数据卷。 读写:可修改容器路径中的数据卷,容器迁
) 默认取值: 不涉及 X-Auth-Token 是 String 参数解释: 调用接口的认证方式分为Token和AK/SK两种,如果您使用的Token方式,此参数为必填,请填写Token的值,获取方式请参见获取token。 约束限制: 不涉及 取值范围: 不涉及 默认取值: 不涉及
慢启动指负载均衡器向组内新增的后端服务器Pod线性增加请求分配权重,直到配置的慢启动时间结束,负载均衡器向后端服务器Pod正常发送完请求的启动模式。慢启动能够实现业务的平滑启动,成功避免业务抖动问题。 配置慢启动持续时间后,如果您在YAML中删除对应的annotation,将不启用慢启动。
设置自定义采集规则 重新部署monitoring命名空间下的custom-metrics-apiserver工作负载。 图3 重新部署custom-metrics-apiserver 重启后,可以通过以下指令查看对应的Pod的指标是否正常(注意替换命名空间和业务Pod名)。 # 查询指标 $ kubectl
点弹性,以保证集群资源的按需供给,进而保证应用SLA。 基于优先级抢占调度的亲和/反亲和示例 在Pod间亲和场景中,不推荐Pod与比其优先级低的Pod亲和。如果pending状态的Pod与节点上的一个或多个较低优先级Pod具有Pod间亲和性,对较低优先级的Pod发起抢占时,会无法
CCE节点故障检测插件(node-problem-detector,简称NPD)是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题并将其报告给apiserver。node-problem-detector可以作为DaemonSet运行,
Pod所在节点与需挂载的SFS Turbo文件系统间的网络不通。 检查PV中共享地址是否正确。 获取PV的YAML,查看spec.csi.volumeAttributes下的everest.io/share-export-location字段值即为共享地址,正确的共享地址是指定的SFS Turbo文件系统的共享路径。
ig,则优先使用Pod中的DNSConfig。 域名解析服务器地址nameserver(可选):容器解析域名时查询的DNS服务器的IP地址列表。默认会添加NodeLocal DNSCache的地址,以及CoreDNS的地址,允许用户额外追加1个地址,重复的IP地址将被删除。 搜索
CCE集群中新增节点时无法添加新的节点,提示子网剩余可用IP不足。 原因分析: 集群默认的节点子网网段较小,子网中的私有IP已用完,无法为节点分配新的私有IP。 解决方法: 场景一:VPC网段的IP未分配完 您可以在创建节点时,在网络配置中选择一个新的节点子网。如果没有可用的节点子网,您可以前
插件仅提供驱动的下载及安装脚本执行功能,插件的状态仅代表插件本身功能正常,与驱动是否安装成功无关。 对于GPU驱动版本与您业务应用的兼容性(GPU驱动版本与CUDA库版本的兼容性),CCE不做保证,请您自行验证。 对于已经安装GPU驱动的自定义操作系统镜像,CCE无法保证其提供的GPU驱
亲和策略的节点,否则插件实例将无法运行。 容忍策略 容忍策略与节点的污点能力配合使用,允许(不强制)插件的 Deployment 实例调度到带有与之匹配的污点的节点上,也可用于控制插件的 Deployment 实例所在的节点被标记污点后插件的 Deployment 实例的驱逐策略。
”。 单击工作负载操作列的“日志”。 您可以在日志上方切换实例和容器。 Pod监控检查方法 登录CCE控制台。 单击集群名称进入集群,在左侧选择“工作负载”。 单击工作负载操作列的“监控”,即可查看Pod的CPU、内存、网络I/O等监控大盘。 登录容器的方法 登录CCE控制台。
2(20%),可能有如下情况: 在整个时间间隔内,有20%的SM的Tensor Core以100%的利用率运行。 在整个时间间隔内,有100%的SM的Tensor Core以20%的利用率运行。 在整个时间间隔的1/5时间内,有100%的SM上的Tensor Core以100%利用率运行。 其他组合模式。
于端口复用的连接,IPVS不会主动进行新的调度,也并不会触发结束连接或DROP操作,新连接的数据包会被直接转发到之前使用的后端pod。如果此时后端pod已经被删除或重建就会出现异常,根据当前的实现逻辑,高并发访问Service场景下,不断有端口复用的连接请求发来,旧的转发连接不会
节点被判定不可缩容后能再次启动检查的时间间隔,单位分钟,默认值:5。 scaleDownUtilizationThreshold 否 double 判断节点可缩容的cpu和内存资源使用率门限,默认0.5。 maxNodesTotal 否 int 集群扩容的节点数量上限,默认1000。 coresTotal
镜像中用户定义的命令在本机权限不足。 容器引擎与宿主机操作系统或硬件不兼容。 126 命令调用错误 镜像中调用的命令无法执行,例如文件权限不足或文件不可执行。 127 找不到文件或目录 无法找到镜像中指定的文件或目录。 128 无效的退出参数 容器退出但未提供有效的退出代码,可能的原因有
您可以使用镜像快速创建一个可公网访问的单实例工作负载。本章节将指导您基于云容器引擎CCE快速部署Nginx容器应用,并管理该容器应用的全生命周期,以期让您具备将云容器引擎应用到实际项目中的能力。 前提条件 您需要创建一个至少包含一个4核8G节点的集群,且该节点已绑定弹性IP。 集群是运行工作负载的逻辑分组,
获取方法:在CCE控制台,单击左侧栏目树中的“资源管理-存储管理”,在“对象存储卷”页签下单击PVC的名称,在PVC详情页的“PV详情”页签下复制“PV名称”后的内容即可。 storage 存储容量,单位为Gi。此处配置为固定值1Gi。 storageClassName 对象存储支持的存储类型,包括ob