检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存储容量,还需要执行后续步骤扩容分区和文件系统。 登录节点,执行命令growpart,检查当前系统是否已安装growpart扩容工具。 若回显为工具使用介绍,则表示已安装,无需重复安装。若未安装growpart扩容工具,可执行以下命令安装。 yum install cloud-utils-growpart
0之后的版本,不再聚合grafana的能力,因此升级前需要重新安装开源版本grafana插件。 重新安装grafana不会影响已有的数据。 手动创建的grafana的服务(service)和路由(ingress)无法直接绑定至新的grafana插件,需要手动修改服务的选择器的配置,请及时修改对应的选择器。 方案一:如果当前插件能够升级至3
0/16网段)的ECS服务器,推荐规格为4vCPUs 16GiB,系统为Huawei Cloud EulerOS 2.0,并绑定一个弹性公网IP用于拉取公网镜像。 安装指定版本的Docker 登录ECS服务器。 在Huawei Cloud EulerOS 2.0操作系统下,可以使用如
cluster:在集群的工作节点上部署驱动程序。 client:(默认值)作为外部客户端在本地部署驱动程序。 --name:作业名称,集群中的Pod将以此开头。 --class:应用程序,例如org.apache.spark.examples.SparkPi。 --conf:Spark配置参数,使用键
登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Prometheus,单击“安装”。 在“规格配置”步骤中,配置以下参数: 表1 Prometheus配置参数说明 参数 参数说明 插件规格 根据业务需求,选择插件的规格,包含如下选项: 演示规格(100容器以内):适用
数据源。 安装插件 登录CCE控制台,单击集群名称进入集群,单击左侧导航栏的“插件中心”,在右侧找到Grafana,单击“安装”。 设置插件的“规格配置”,您可根据需求调整插件实例的CPU配额和内存配额。 设置插件支持的“参数配置”。 表1 Grafana插件参数配置 参数 参数说明
为什么需要使用容器 更高效的利用系统资源。 容器不需要硬件虚拟化以及运行完整操作系统等额外开销,所以对系统资源利用率更高。相比虚拟机技术,一个相同配置的主机,往往可以运行更多数量的应用。 更快速的启动时间。 容器直接运行于宿主机内核,无需启动完整的操作系统,可以做到秒级甚至毫秒级的启
登录CCE控制台,单击集群名称进入一个集群。 在CCE集群上部署Volcano环境。 单击左侧栏目树中的“插件管理”,单击Volcano插件下方的“安装”,在安装插件页面中选择插件的规格配置,并单击“安装”。 部署Mnist示例。 下载kubeflow/examples到本地并根据环境选择指南,命令如下:
控制Pod中容器使用的Sysctl配置。 Pod安全策略开放非安全系统配置示例 节点池管理中可以为相应的节点池配置allowed-unsafe-sysctls,CCE从1.17.17集群版本开始,需要在Pod安全策略的allowedUnsafeSysctls字段中增加相应的配置才能生效,配置详情请参考表1。
检查方式 /usr/bin/python --version echo $? 如果回显值不为0证明检查失败。 解决方案 可优先重置节点或手动安装Python之后再进行升级。 父主题: 升级前检查异常问题排查
点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。 您可以执行以下步骤确认GPU插件的升级目标版本与当前驱动配置。 登录CCE控制台,前往“插件中心”处查看CCE
使用习惯的个人或企业。 Ubuntu操作系统 Linux的其他发行版操作系统,不同操作系统在使用习惯和应用兼容性上存在一定差异。 适用于可以自行应对操作系统切换成本的个人或企业。 升级操作系统通过替换节点系统盘的方式分批次升级节点,请不要在系统盘中保存重要数据或者提前做好备份工作,数据盘在升级过程中则不受影响。
您可单击“指标异常”,按照修复建议提示修复。 自定义检查项配置 登录CCE控制台,单击集群名称进入集群。 在左侧选择“节点管理”,切换至“节点”页签,单击“故障检测策略”。 在跳转的页面中查看当前检查项配置,单击检查项操作列的“编辑”,自定义检查项配置。 当前支持以下配置: 启用/停用:自定义某个检查项的开启或关闭。
CCE集群创建失败的原因与解决方法? 概述 本文主要介绍在CCE集群创建失败时,如何查找失败的原因,并解决问题。 详细信息 集群创建失败的原因包括: ntpd没安装或者安装失败、k8s组件预校验不过、磁盘分区错误等,目前只能尝试重新创建,定位方法请参见定位失败原因。 当前集群规模所需的底层资源不足,请选择其他规模的集群类型后重新创建集群。
le资源,但是该资源不是由插件管理的。 解决方案 手动使用kubectl删除非插件管理的冲突的资源后,重试插件的安装。 安装超时 问题现象 安装/升级插件时,提示安装失败,错误信息显示 timed out。 Release "*****" failed: failed pre-install:
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
公网IP的ECS虚拟机。 在ECS虚拟机上安装kubectl命令行工具。 您可以尝试执行kubectl version命令判断是否已安装kubectl,如果已经安装kubectl,则可跳过此步骤。 本文以Linux环境为例安装和配置kubectl,更多安装方式请参考安装kubectl。
上限。 按默认配置即可。 * IPv4 服务网段 同一集群下容器互相访问时使用的Service资源的网段。决定了Service资源的上限。 创建后不可修改。 按默认配置即可。 单击“下一步:插件选择”,选择创建集群时需要安装的插件。 单击“下一步:插件配置”,配置默认插件即可。
您需要在一台Linux虚拟机上安装kubectl命令行工具,kubectl的版本应该与集群版本相匹配,详情请参见安装kubectl。 安装kubectl的虚拟机需要可以访问每个集群的网络环境。 kubeconfig文件结构解析 kubeconfig是kubectl的配置文件,您可以在集群详情页面下载。
选择节点规格、数据盘大小等配置。 集群配置 安装各类集群插件,如网络、监控、日志等。 创建工作负载 云容器实例使用流程如下: 创建命名空间 配置名称、区域、网络等基本信息。 创建工作负载 图3 CCE和CCI创建集群区别 CCE与CCI两者的配合 通过安装Virtual-Kubel