检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
功能,提供从部署到运维全生命周期管理。本节指导用户通过容器镜像创建您的第一个容器工作负载。 操作步骤 创建集群前,您需要设置好如表1中的环境。 表1 准备环境列表 序列 类别 操作步骤 1 创建虚拟私有云 您需要创建虚拟私有云,为CCE集群提供一个隔离的、用户自主配置和管理的虚拟网络环境。
Ingress Controller部署在master节点,基于弹性负载均衡服务(ELB)实现流量转发,所有策略配置和转发行为均在ELB侧完成。 Nginx Ingress Controller使用Kubernetes社区维护的模板与镜像部署在集群内部,并通过NodePort对外
lugin)。 单击“安装”,安装插件的任务即可提交成功。 创建GPU节点。 在左侧菜单栏选择“节点管理”,单击右上角“创建节点”,在弹出的页面中配置节点的参数。 选择一个“GPU加速型”的节点规格,其余参数请根据实际需求填写,详情请参见创建节点。 完成配置后,单击“下一步:规格
”。 如果选择安装grafana组件,也可能出现同样的问题。 图1 插件实例调度失败 问题原因 当出现以上报错内容,说明集群中已存在prometheus实例需要的存储卷,但该存储卷对应的云硬盘未满足与节点同一可用区的要求,导致调度失败。这可能是由于集群并非首次安装kube-prometheus-stack插件引起。
制。 解决方案 检测到目标cce-controller-hpa插件版本存在兼容性限制,需要集群安装能提供metrics api的插件,例如metrics-server; 请您在集群中安装相应metrics插件之后重试检查 父主题: 升级前检查异常问题排查
Ingress控制器插件并开启“日志采集”功能。 已安装插件时:单击“管理”,找到已安装的插件实例,单击右侧“编辑”,在参数配置中找到“日志采集”并开启。 如果集群中安装了多个NGINX Ingress控制器,需修改每个插件实例的配置才可采集所有实例的日志。 未安装插件时:单击“安装”,在参数配置中找到“日志采集”
弹性IP时无法正常使用。 证书配置:dashboard服务端使用的证书。 使用自定义证书 您需要参考样例填写pem格式的“证书文件”和“证书私钥”。 使用默认证书 dashboard默认生成的证书不合法,将影响浏览器正常访问,建议您选择手动上传合法证书,以便通过浏览器校验,保证连接的安全性。
e.*,在以前的部署中没有出现过。 问题定位 GPU插件的驱动版本较低,单独下载驱动安装后正常。 工作负载中未声明需要gpu资源。 建议方案 节点安装了gpu-beta(gpu-device-plugin)插件后,会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通
独享型ELB 监听器配置 前端协议:为Ingress配置HTTPS协议的后端服务需选择“HTTPS”。 对外端口:ELB监听器的端口,HTTPS协议的端口默认为443。 证书来源:选择“ELB服务器证书”。 服务器证书:使用在ELB服务中创建的证书。 如果您没有可选择的ELB证书,可前往ELB服务创建,详情请参见创建证书。
restore get语句查看应用恢复情况。 恢复完成后查看应用实例是否正常运行,可能存在其他的更新适配问题,请参考资源更新适配中的步骤排查解决。 父主题: 实施步骤
编写Dockerfile、制作并上传镜像、创建容器工作负载。 改造流程每一部分的详情可参考改造流程。 图1 容器化改造流程 父主题: 实施步骤
的镜像迁移到SWR中。 Linux x86:https://ucs-migration.obs.cn-north-4.myhuaweicloud.com/toolkits/image-migrator-linux-amd64 Linux arm:https://ucs-migration
version命令判断是否已安装kubectl,如果已经安装kubectl,则可跳过此步骤。 本文以Linux环境为例安装和配置kubectl,更多安装方式请参考安装kubectl。 下载kubectl。 cd /home curl -LO https://dl.k8s.io/release/{v1
选择GPU节点驱动版本 使用GPU加速型云服务器时,需要安装正确的Nvidia基础设施软件,才可以使用GPU实现计算加速功能。在使用GPU前,您需要根据GPU型号,选择兼容配套软件包并安装。 本文将介绍如何选择GPU节点的驱动版本及配套的CUDA Toolkit。 如何选择GPU节点驱动版本
ll脚本相同。该脚本的主要目的包括: 启动应用所依赖的软件。 将需要修改的配置设置为环境变量。 开机运行脚本与应用实际需求直接相关,每个应用所写的开机脚本会有所区别。请根据实际业务需求来写该脚本。 操作步骤 以root用户登录docker所在的机器。 执行如下命令,切换到用于存放该应用的目录。
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。
详情请参见为CoreDNS配置存根域。 扩展参数配置 parameterSyncStrategy:插件升级时是否配置一致性检查。 ensureConsistent:表示启用配置一致性检查。如果下发的配置与当前生效配置不同,则覆盖当前生效配置;如果下发的配置与当前生效配置相同,则保留当前生效配置。使用
CCE服务的集群节点操作系统配置与开源操作系统默认配置保持一致,用户在节点创建完成后应根据自身安全诉求进行安全加固。 CCE提供以下建议的加固方法: 通过“创建节点”的“安装后执行脚本”功能,在节点创建完成后,执行命令加固节点。具体操作步骤参考创建节点的“云服务器高级设置”的“安装后执行脚本”。“安装后执行脚本”的内容需由用户提供。
NPU)是支持容器里使用NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 字段说明 表1 参数描述 参数 是否必选 参数类型 描述 basic 否 object 插件基础配置参数,无需指定。 flavor 是 表3 object
集群调度器配置 开启GPU共享 是否开启GPU共享能力 参数名 取值范围 默认值 是否允许修改 作用范围 enable-gpu-share true/false true 允许 CCE Standard/CCE Turbo 配置建议: true 默认调度器 集群调度器选择开关,用户可自定义调度器模式。