检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过控制台配置容忍策略 登录CCE控制台。 在创建工作负载时,在“高级配置”中找到“容忍策略”。 添加污点容忍策略。 表1 容忍策略设置参数说明 参数名 参数描述 污点键 节点的污点键。 操作符 Equal:设置此操作符表示准确匹配指定污点键(必填)和污点值的节点。如果不填写污点值
本文提供的成本预估费用仅供参考,资源的实际费用与用户所在区域相关,请以华为云管理控制台显示为准。 完成本实践所需的资源如下: 表1 资源和成本规划 资源 资源说明 数量 费用(元) 弹性云服务器ECS 建议选择按需计费。 虚拟机类型:通用计算增强型 节点规格:4核 | 8GiB 操作系统:Ubuntu
由于不同版本之间的运行时和OS存在差异,该异常通常发生在低版本集群升级到1.27及以上集群。当前CCE集群版本和OS的配套关系请参见节点操作系统说明。 请登录CCE控制台,单击集群名称进入集群控制台,前往“节点管理“页面查看问题节点池,并单击节点池的“更新”。根据升级前检查的提示信息,修改支持的操作系统,并单击“确定”。
按需节点转包年/包月 按需计费节点绑定的资源(云硬盘、弹性公网IP)可能不支持同步变更计费模式,详情请参见弹性云服务器ECS按需转包年/包月说明。 按需节点池中的节点转成包年/包月时,请在节点列表中找到目标节点并单击“更多>开启节点缩容保护”,然后再进行转包年/包月操作。 如果您在
添加事件类告警 以添加“节点状态异常告警”为例,展示添加事件类告警的步骤,您可以参考表1添加其他告警。 表1 推荐配置的事件类告警 事件名称 来源 事件说明 处理建议 节点状态异常 CCE 节点异常立即触发告警 登录集群查看告警节点状态,确认异常后,优先将此节点设置为不可调度,并将业务pod调度到其他节点
一行,在指定的时间周期运行指定的Job。 任务负载的这种用完即停止的特性特别适合一次性任务,比如持续集成。 工作负载生命周期说明 表1 状态说明 状态 说明 运行中 所有实例都处于运行中、或实例数为0时显示此状态。 未就绪 容器处于异常、负载下实例没有正常运行时显示此状态。 处理中
od的配置文档,它申请50M的内存, 内存限制设置为100M。 memory-request-limit-2.yaml,此处仅为示例: apiVersion: v1 kind: Pod metadata: name: memory-demo-2 spec: containers:
470.141.03 470.141.03 470.141.03 相关链接 Nvidia官方驱动下载入口 主流Tesla系列各驱动版本配套说明 父主题: GPU节点驱动版本
访问ID:遵循SWR的长期有效的认证凭证规则,以“区域项目名称@[AK]”形式填写。 访问密码:遵循SWR的长期有效的认证凭证规则,需要用AK和SK来生成,详细说明请参考获取长期有效登录指令。 验证远程证书:建议取消勾选。 配置同步规则。 新建规则 填写如下参数。 名称:自定义。 复制模式:选择“Pu
数据保护技术 CCE通过多种数据保护手段和特性,保障数据的安全可靠。 表1 CCE的数据保护手段和特性 数据保护手段 简要说明 详细介绍 服务发现支持证书配置 CCE集群中的应用服务支持使用HTTPS传输协议,保证数据传输的安全性,您可以根据需求创建四层或七层的访问方式来对接负载均衡器。
使用kubectl连接集群。 创建一个使用nvidia.com/gpu资源的工作负载。 创建gpu-app.yaml文件,示例如下: apiVersion: apps/v1 kind: Deployment metadata: name: gpu-app namespace:
file-max=1048576 >> /etc/sysctl.conf && sysctl -p 执行以下命令检查是否修改成功,当返回与修改值一致时说明修改正确。 # sysctl fs.file-max fs.file-max = 1048576 修改节点单进程最大文件句柄数 登录节点,
通过CloudShell连接集群 操作场景 本文将以CCE Standard集群为例,介绍如何通过CloudShell连接CCE集群。 权限说明 在CloudShell中使用kubectl时,kubectl的权限由登录用户的权限决定。 约束与限制 同一用户在使用CloudShell
经过期的情况时,您可以参考本文指导更新HTTPS证书,以免对您的服务造成不必要的中断。 更新ELB Ingress证书场景 更新证书场景 说明 使用ELB服务中的证书 更新HTTPS证书时,需要在ELB服务中创建新的证书,然后在修改Ingress时选择新的证书。 或者您可以在EL
/nvidia-smi 容器: cd /usr/local/nvidia/bin && ./nvidia-smi 若能正常返回GPU信息,说明设备可用,插件安装成功。 如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。 nvidia驱动建议放在OBS桶里,并设置为公共读。
svc.cluster.local cluster.local options ndots:5 若nameserver设置为10.247.x.x说明DNS对接到集群的CoreDNS,需要确保集群CoreDNS工作负载运行正常。如果是其他IP地址,则表示采用云上DNS或者用户自建的DNS,请您自行确保解析正常。
入保留期。在保留期内资源将停止服务。保留期满仍未续费或充值,存储在云服务中的数据将被删除、云服务资源将被释放。请参见资源停止服务或逾期释放说明。 父主题: 计费类
-f5f0766d9f35/volumes/kubernetes.io~csi/sfs-turbo-ls/mount 如果不能正确进入,则说明文件存储被删除或文件存储与节点间网络异常。 执行umount -l 命令解除挂载。 umount -l /mnt/paas/kuberne
业务特点,选择适合的集群类型。各种集群类型差异如下: 类型对比 CCE Standard CCE Turbo CCE Autopilot 说明 企业级Kubernetes容器服务 软硬协同,计算、网络、存储全方位升级 Serverless容器,K8s生态,K8s全兼容 管理 管理集群、节点和业务
它资源约束的时候触及进程ID数量上限,进而导致节点不稳定。 您可以根据实际业务需求调整进程ID数量上限。 默认kernel.pid_max说明 CCE在2022年1月底将1.17及以上集群的节点公共操作系统EulerOS 2.5、CentOS 7.6、Ubuntu 18.04镜像kernel