-
CCE AI套件(Ascend NPU) - 云容器引擎 CCE
NPU) 插件简介 CCE AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 安装本插件后,可创建“AI加速型”节点,实现快速高效地处理推理和图像识别等工作。 约束与限制 集群中使用“AI加速型”节点时必须安装CCE AI套件(Ascend NPU)插件。
-
ServiceAccount - 云容器引擎 CCE
Authentication:用于识别用户身份的认证,Kubernetes分外部服务账号和内部服务账号,采取不同的认证机制,具体请参见认证与ServiceAccount。 Authorization:用于控制用户对资源访问的授权,对访问的授权目前主要使用RBAC机制,将在RBAC介绍。 图1 API Server的认证授权
-
设置极速文件存储挂载参数 - 云容器引擎 CCE
设置极速文件存储挂载参数 本章节主要介绍如何设置极速文件存储的挂载参数。极速文件存储仅支持在PV中设置挂载参数,然后通过创建PVC绑定PV。 前提条件 CCE容器存储(Everest)版本要求1.2.8及以上版本。插件主要负责将挂载参数识别并传递给底层存储,指定参数是否有效依赖于底层存储是否支持。
-
Node节点vdb盘受损,通过重置节点仍无法恢复节点? - 云容器引擎 CCE
在一个正常的node节点上,删除lv,删除vg,节点不可用。 重置异常节点,重置过程中,报语法错误,而且节点不可用。 如下图: 问题定位 node节点中vg被删除或者损坏无法识别,为了避免重置的时候误格式化用户的数据盘,需要先手动恢复vg,这样重置的时候就不会去格式化其余的数据盘。
-
Caffe分类范例 - 云容器引擎 CCE
pu,设置对应的容器规格。 启动命令添加python /home/caffeEx00_GPU.py。 挂载刚刚导入的OBS存储盘: 单击“创建”。等待job执行完成,进入OBS存储盘的outputimg下,可以看到推理使用的图片。 登录在集群中添加GPU节点添加的节点,执行docker
-
升级管控检查异常处理 - 云容器引擎 CCE
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 请联系技术支持人员了解限制原因并申请解除升级限制。
-
升级管控检查异常处理 - 云容器引擎 CCE
升级管控检查异常处理 检查项内容 检查集群是否处于升级管控中。 解决方案 CCE基于以下几点原因,可能会暂时限制该集群的升级功能: 基于用户提供的信息,该集群被识别为核心重点保障的生产集群。 正在或即将进行其他运维任务,例如Master节点3AZ改造等。 请联系技术支持人员了解限制原因并申请解除升级限制。
-
开通成本洞察 - 云容器引擎 CCE
成本洞察基于真实账单和集群资源用量统计数据,通过自研的成本画像算法进行成本拆分,提供以部门、集群、命名空间、应用等维度的成本画像。成本洞察能够帮助成本管理人员分析集群成本开销、资源使用状况,识别资源浪费,为下一步的成本优化提供输入。 本文主要介绍如何开通成本洞察功能。 开通Region视角的成本洞察 开通单集群视角成本洞察
-
成本洞察概述 - 云容器引擎 CCE
多个维度的集群成本开销和资源使用状况,进而识别可优化的应用。 成本洞察关键能力 丰富的容器成本覆盖范围:支持成本分析的费用包括CCE集群管理费用、CCE集群关联的ECS和EVS资源费用。 基于计费账单的精准成本计算:使用真实账单进行成本分摊计算,精准统计集群成本。 灵活的成本分摊
-
方案概述 - 云容器引擎 CCE
同时购买了华为云图像识别服务。CCE所在的VPC和原有的IDC之间通过专线进行连接。部署架构如图1所示。 当用户访问该企业的APP时,不同微服务之间涉及到如下交互: CCE集群访问华为云图像识别服务时,默认使用华为云域名解析服务器。 CCE集群访问IDC上部署的内容审核服务时,需要使用IDC内部域名服务器。
-
CCE集群弹性引擎版本发布记录 - 云容器引擎 CCE
优化异构设备(GPU/NPU)识别方法 扩容节点数量超过集群规模时,使用集群支持的剩余节点数量进行扩容 1.23.0 1.23.31 v1.23 修复autoscaler伸缩策略least-waste默认未启用的问题 修复节点池扩容失败后无法未切换到其他节点池扩容且插件有重启动作的问题 默认污点容忍时长修改为60s
-
thinpool磁盘空间耗尽导致容器或节点异常时,如何解决? - 云容器引擎 CCE
由于thinpool未挂载到设备,因此无需调整文件系统的大小。 在节点上执行如下命令, 将新增的磁盘容量加到dockersys盘上。 扩容物理卷PV,让LVM识别EVS新增的容量。其中/dev/vdb为dockersys逻辑卷所在的物理卷。 pvresize /dev/vdb 回显如下:
-
对象存储卷概述 - 云容器引擎 CCE
B),且需要频繁访问数据的业务场景,例如:大数据、移动应用、热点视频、社交图片等场景。 低频访问存储:适用于不频繁访问(平均一年少于12次)但在需要时也要求快速访问数据的业务场景,例如:文件同步/共享、企业备份等场景。与标准存储相比,低频访问存储有相同的数据持久性、吞吐量以及访问
-
集群监控 - 云容器引擎 CCE
Server的总QPS和请求错误率指标。作为集群的API服务提供者,控制面API Server的异常可能会导致整个集群无法访问,同时也会影响依赖API Server的工作负载的正常运行,QPS和请求错误率可以帮助您快速识别和修复问题。 图2 健康概况 资源消耗Top统计 在资源消耗Top统计中,CCE
-
(停止维护)Kubernetes 1.13版本说明 - 云容器引擎 CCE
支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略 支持集群下的节点跨子网(容器隧道网络) v1.13.7-r0 主要特性:
-
单集群视角的成本洞察 - 云容器引擎 CCE
内存申请量:所选时间周期最后一天,节点池中节点的申请内存之和 内存总量:所选时间周期最后一天,节点池中节点的内存总量之和 命名空间维度 命名空间维度支持对选中的命名空间、以及命名空间下的工作负载进行成本优化分析,识别开销较大,利用率较低的工作负载进行优化调整。 图5 命名空间维度的成本总览 名称 含义 本月至今成本
-
(停止维护)Kubernetes 1.13版本说明 - 云容器引擎 CCE
支持AI加速型节点(搭载海思Ascend 310 AI处理器),适用于图像识别、视频处理、推理计算以及机器学习等场景 支持配置docker baseSize 支持命名空间亲和调度 支持节点数据盘划分用户空间 支持集群cpu管理策略 支持集群下的节点跨子网(容器隧道网络) v1.13.7-r0 主要特性:
-
Helm v2与Helm v3的差异及适配方案 - 云容器引擎 CCE
manifest和本次发布的chart manifest的差异,来决定哪些更改会应用到Kubernetes资源中。如果更改是集群外带的(比如通过kubectl edit),则修改不会被Helm识别和考虑。结果就是资源不会回滚到之前的状态。 Helm v3 使用三路策略来合并补丁,Helm在生成
-
安全配置概述 - 云容器引擎 CCE
企业主机安全服务(HSS)拥有主机管理、风险预防、入侵检测、高级防御、安全运营、网页防篡改功能,能够全面识别并管理主机中的信息资产,实时监测主机中的风险并阻止非法入侵行为。推荐启用HSS服务保护用户CCE集群下的主机。HSS服务以及使用方法请参考企业主机安全 HSS。 父主题: 安全
-
目标集群资源规划 - 云容器引擎 CCE
AI加速型:AI加速型节点实例,搭载高性能、低功耗的海思Ascend 310 AI处理器,实现快速高效地处理推理和图像识别等工作,适用于图像识别、视频处理、推理计算以及机器学习等场景。 通用型(节点规格为4U8G) 系统盘类型 高IO:后端存储介质为SAS类型。 超高IO:后端存储介质为SSD类型。 高IO