检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PVC视图 提供了集群中的PVC监控视图,包含PV/PVC的状态、使用率情况。 支持以下PVC类型监控: 云硬盘类型的PVC(要求volumeMode参数值为Filesystem)支持使用量监控。 本地持久卷类型的PVC(要求集群中安装的Everest版本大于等于2.4.41)支持使用量监控
如何变更CCE集群中的节点规格? 约束与限制 节点池中的节点在ECS侧变更规格后,可能导致节点池弹性伸缩问题,详情请参见CCE节点池内的节点变更规格后会有哪些影响?。 CCE Turbo集群中的部分规格节点仅支持在CCE中创建,无法在ECS控制台变更规格,此种情况下调用ECS API
集群删除失败:安全组中存在残留资源 CCE在删除集群时,会连接集群的kube-apiserver查询集群对接的周边资源信息,如Turbo集群对接的弹性网卡/弹性辅助网卡等,当CCE集群的状态为不可用,冻结,休眠等状态时,删除集群有可能会出现查询资源失败而导致集群删除失败的情况。 故障现象
在CCE Turbo集群中配置Pod延时启动参数 应用场景 CCE Turbo集群在某些特定场景下(例如跨VPC、专线互联),会出现对端Pod的路由规则生效慢的情况。在这种情况下,可以利用Pod延时启动的能力进行规避。 您也可以使用企业路由器连接对端VPC来解决该问题,详情请参见集群通过企业路由器连接对端
设置容器生命周期 操作场景 CCE提供了回调函数,在容器的生命周期的特定阶段执行调用,比如容器在停止前希望执行某项操作,就可以注册相应的钩子函数。 目前提供的生命周期回调函数如下所示: 启动命令:容器将会以该启动命令启动,请参见启动命令。 启动后处理:容器启动后触发,请参见启动后处理
预置条件 本实践提供在CCE上运行caffe的基础分类例子https://github.com/BVLC/caffe/blob/master/examples/00-classification.ipynb的过程。 OBS存储数据预置 创建OBS桶,并确认以下文件夹已创建,文件已上传至指定位置
临时存储卷概述 临时卷介绍 当有些应用程序需要额外的存储,但并不关心数据在重启后是否仍然可用。 例如,缓存服务经常受限于内存大小,而且可以将不常用的数据转移到比内存慢的存储中,对总体性能的影响并不大。另有些应用程序需要以文件形式注入的只读数据,比如配置数据或密钥。 Kubernetes
上传模板失败如何解决? 问题现象 上传模板时出现“请求失败,请稍后重试”的错误,错误码为SVCSTG.CCECAM.4000121,错误信息提示“Package name and version must be valid and same with chart name and
Kubernetes Metrics Server插件版本发布记录 表1 Kubernetes Metrics Server插件版本记录 插件版本 支持的集群版本 更新特性 社区版本 1.3.68 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30
GPU虚拟化概述 CCE GPU虚拟化采用自研xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。相对于静态分配来说,虚拟化的方案更加灵活,最大程度保证业务稳定的前提下,可以完全由用户自己定义使用的GPU量,提高GPU利用率。
分析应用 应用在容器化改造前,您需要了解自身应用的运行环境、依赖包等,并且熟悉应用的部署形态。需要了解的内容如表1。 表1 了解应用环境 类别 子类 说明 运行环境 操作系统 应用需要运行在什么操作系统上,比如centos或者Ubuntu。 本例中,应用需要运行在centos:7.1
Kubernetes安全漏洞公告(CVE-2020-8554) 漏洞详情 CVE-2020-8554是Kubernetes社区发现的关于集群内网络流量劫持的安全问题。具有创建和更新Service和Pod对象权限的潜在攻击者,能够劫持集群内来自其他Pod或者节点的流量。潜在攻击者通过设置
NPU调度 CCE支持在容器中使用NPU资源。 前提条件 创建NPU类型节点,具体请参见创建节点。 安装huawei-npu插件,具体请参见CCE AI套件(Ascend NPU)。 使用NPU 创建工作负载申请NPU资源,可按如下方法配置,指定显卡的数量。 kind: Deployment
工作负载状态正常但未正常工作 问题现象 Pod已经处于Running状态(查看Pod状态)但未正常工作,或者访问结果不符合预期。 问题原因 可能是您的部署描述YAML文件(例如 Pod、Deployment、StatefulSet等)存在错误。例如: 镜像版本未更新。您可能未使用正确的镜像版本
登录节点 前提条件 使用SSH方式登录时,请确认节点安全组已放通SSH端口(默认为22)。详情请参见配置安全组规则。 通过公网使用SSH方式登录时要求该节点(弹性云服务器 ECS)已绑定弹性公网IP。 只有运行中的弹性云服务器才允许用户登录。 Linux操作系统用户名为root。
通过AOM配置自定义告警 CCE对接AOM并上报告警和事件,通过在AOM中设置告警规则,您可以及时了解集群中各种资源是否存在异常。 告警配置流程 在SMN创建主题。 创建行动规则。 添加告警规则。 事件类告警:根据集群上报到AOM的事件配置告警。推荐配置的事件和配置方法请参见添加事件类告警
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。建议您以节点池为粒度进行节点NVIDIA驱动版本的管理,创建应用时可调度到指定驱动版本的节点池,在升级驱动时,也可以根据节点池分批次控制升级
CCE突发弹性引擎(对接CCI)插件版本发布记录 表1 CCE突发弹性引擎(对接CCI)插件版本记录 插件版本 支持的集群版本 更新特性 1.5.16 v1.21 v1.23 v1.25 v1.27 v1.28 v1.29 v1.30 仅进行Pod级别CPU和Memory资源规整
查询API版本信息列表 功能介绍 该API用于查询CCE服务当前支持的API版本信息列表。 调用方法 请参见如何调用API。 URI GET / 请求参数 无 响应参数 状态码: 200 表1 响应Body参数 参数 参数类型 描述 versions Array of APIVersionDetail
Kubernetes Metrics Server 从Kubernetes 1.8开始,Kubernetes通过Metrics API提供资源使用指标,例如容器CPU和内存使用率。这些度量可以由用户直接访问(例如,通过使用kubectl top命令),或者由集群中的控制器(例如,Horizontal