搜索_华为云

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

Bool 默认值：false XGPU虚拟化模式的开关 gpu_driver_config 否 Map 针对单个节点池的GPU驱动的相关配置默认值：{} health_check_xids_v2 否 String 插件健康检查的GPU错误的范围默认值："74,79" inject_ld_Library_path

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

插件仅提供驱动的下载及安装脚本执行功能，插件的状态仅代表插件本身功能正常，与驱动是否安装成功无关。对于GPU驱动版本与您业务应用的兼容性（GPU驱动版本与CUDA库版本的兼容性），CCE不做保证，请您自行验证。对于已经安装GPU驱动的自定义操作系统镜像，CCE无法保证其提供的GPU驱

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）插件介绍 CCE AI套件（Ascend NPU）是支持容器里使用NPU设备的管理插件。安装本插件后，可创建“AI加速型”节点，实现快速高效地处理推理和图像识别等工作。字段说明表1 参数描述参数是否必选参数类型描述 basic

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU）插件简介 CCE AI套件（Ascend NPU）是支持容器里使用huawei NPU设备的管理插件。安装本插件后，可创建“AI加速型”节点，实现快速高效地处理推理和图像识别等工作。约束与限制集群中使用“AI加速型”节点时必须安装CCE

帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 Kubernetes已经成为云原生应用编排、管理的事实标准，越来越多的应用选择向Kubernetes迁移。人工智能和机器学习领域天然的包含大量的计算密集型任务，开发者非常愿意基于Kubernetes构建AI平台，充分利用Kubernetes提供的资源管理、应用编排、运维监控能力。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
命名空间因APIService对象访问失败无法删除 - 云容器引擎 CCE

/ 解决方法可以采用如下两种方法解决：修复报错信息中的APIService对象，使其能够正常访问，如果是插件中的APIService，请确保插件的Pod正常运行。删除报错信息中的APIService对象，如果是插件中的APIService，可从页面卸载该插件。父主题：命名空间

 帮助中心 > 云容器引擎 CCE > 常见问题 > 命名空间
云容器引擎-成长地图 - 云容器引擎 CCE

如何重置CCE集群中节点的密码？如何解决新增节点时提示弹性IP不足的问题？如何收集节点的日志？更多集群网络类云容器引擎CCE支持哪些网络能力？ VPC网络是什么原理？是如何实现的？集群与虚拟私有云、子网的关系是怎样的？如何查看虚拟私有云VPC的网段？如何规划集群中虚拟私有云VPC和子网网段？

帮助中心 > 云容器引擎 CCE > 成长地图
Kubeflow部署 - 云容器引擎 CCE
Kubeflow部署 - 云容器引擎 CCE

Kubeflow的诞生背景基于Kubernetes构建一个端到端的AI计算平台是非常复杂和繁琐的过程，它需要处理很多个环节。如图1所示，除了熟知的模型训练环节之外还包括数据收集、预处理、资源管理、特性提取、数据验证、模型的管理、模型发布、监控等环节。对于一个AI算法工程师来讲，

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
Node节点vdb盘受损，通过重置节点仍无法恢复节点？ - 云容器引擎 CCE

在一个正常的node节点上，删除lv，删除vg，节点不可用。重置异常节点，重置过程中，报语法错误，而且节点不可用。如下图：问题定位 node节点中vg被删除或者损坏无法识别，为了避免重置的时候误格式化用户的数据盘，需要先手动恢复vg，这样重置的时候就不会去格式化其余的数据盘。

帮助中心 > 云容器引擎 CCE > 常见问题 > 节点 > 节点运行
Pod视图 - 云容器引擎 CCE
Pod视图 - 云容器引擎 CCE

百分比文件系统的使用率文件系统使用量字节文件系统已经使用的字节数指标清单 Pod视图使用的指标清单如下：表4 Pod视图指标清单指标指标类型说明 kube_pod_container_status_running gauge 容器当前是否在运行中的状态 kube_pod_container_info

帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
Node视图 - 云容器引擎 CCE
Node视图 - 云容器引擎 CCE

节点上的Pod每秒接收的字节数网络发送速率(Pod) 字节/秒节点上的Pod每秒发送的字节数接收数据包速率个/秒节点上的Pod每秒接收的数据包个数发送数据包速率个/秒节点上的Pod每秒发送的数据包个数丢包速率(接收) 个/秒节点上的Pod每秒接收丢失的数据包个数

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
集群视图 - 云容器引擎 CCE
集群视图 - 云容器引擎 CCE

以命名空间为粒度统计各个命名空间内的所有容器的CPU使用量之和。内存使用量字节以命名空间为粒度统计各个命名空间内的所有容器的内存使用量之和。图2 网络图表表2 网络图表说明指标名称单位说明网络接收速率字节/秒以命名空间为粒度统计各个命名空间内的所有容器每秒接收的字节数之和。网络发送速率

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
设置极速文件存储挂载参数 - 云容器引擎 CCE

文件存储的场景，涉及链路的挂载参数（如timeo）仅在第一次挂载时生效。例如，节点上运行的多个Pod同时挂载同一文件存储，后设置的挂载参数不会覆盖已有参数值。针对上述场景希望设置不同的挂载参数，可以同时设置nosharecache挂载参数。极速文件存储挂载参数 CCE的存储插件

 帮助中心 > 云容器引擎 CCE > 用户指南 > 存储 > 极速文件存储（SFS Turbo）
基本概念 - 云容器引擎 CCE
基本概念 - 云容器引擎 CCE

及其所有依赖的镜像，确保在任何环境中都能以相同的方式运行。镜像（Image）和容器（Container）的关系，就像是面向对象程序设计中的类和实例一样，镜像是静态的定义，容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。图5 镜像、容器、工作负载的关系命名空间（Namespace）

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识
Prometheus Server视图 - 云容器引擎 CCE

秒不同分片的90%的操作的查询耗时远端样本滞后比率秒存储在WAL中的样本的最高时间戳与远程写入成功的最高时间戳的比率远程写流量字节/秒远程写入的速率当前队列数个当前用于并行发送到远程存储的分片数最大队列数个可用于并行发送到远程存储的分片数的最大值最小队列数

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
节点滚动升级 - 云容器引擎 CCE

原有节点在默认节点池创建新的节点池。具体请参见创建节点池。单击节点池名称，单击“操作”区域的“节点列表”可查看新建节点的IP地址。安装配置kubectl。具体请参见通过kubectl连接集群。迁移工作负载。给需要迁移工作负载的节点打上Taint（污点）。 kubectl taint node

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点 > 管理节点
创建AHPA策略 - 云容器引擎 CCE
创建AHPA策略 - 云容器引擎 CCE

模，因此对具有明显周期性的工作负载具有更佳效果。 AHPA启动后拉取指定的工作负载过去一定时间的监控数据（至少一周，至多八周），利用统计学原理分析建模。随后每分钟一次，根据当前时间点的历史监控数据，结合未来一段时间窗口的历史数据，给出当前时间点工作负载的推荐副本数，提前准备Pod

帮助中心 > 云容器引擎 CCE > 用户指南 > 弹性伸缩 > 工作负载弹性伸缩
ServiceAccount - 云容器引擎 CCE
ServiceAccount - 云容器引擎 CCE

30d 1.21以前版本的集群中，Pod中获取Token的形式是通过挂载ServiceAccount的Secret来获取Token，这种方式获得的Token是永久的。该方式在1.21及以上的版本中不再推荐使用，并且根据社区版本迭代策略，在1.25及以上版本的集群中，ServiceA

帮助中心 > 云容器引擎 CCE > Kubernetes基础知识 > 认证与授权
使用Service实现简单的灰度发布和蓝绿发布 - 云容器引擎 CCE

其Pod拥有共同的label。但有一个label值不同，用于区分不同的版本。Service使用selector选中了其中一个版本的Deployment的Pod，此时通过修改Service的selector中决定服务版本的label的值来改变Service后端对应的Pod，即可实现

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 发布
公平调度（DRF） - 云容器引擎 CCE

在实际业务中，经常会遇到将集群稀缺资源分配给多个用户的情况，每个用户获得资源的权利都相同，但是需求数却可能不同，如何公平的将资源分配给每个用户是一项非常有意义的事情。调度层面有一种常用的方法为最大最小化公平分配算法（max-min fairness share），尽量满足用户中的最小的需求，然后将剩余的资源公平分配给剩下的用户。形式化定义如下：

帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > Volcano调度 > AI任务性能增强调度

总条数： 278

上一页
1
2
3
4
5
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

命名空间因APIService对象访问失败无法删除 - 云容器引擎 CCE

云容器引擎-成长地图 - 云容器引擎 CCE

Kubeflow部署 - 云容器引擎 CCE

Node节点vdb盘受损，通过重置节点仍无法恢复节点？ - 云容器引擎 CCE

Pod视图 - 云容器引擎 CCE

Node视图 - 云容器引擎 CCE

集群视图 - 云容器引擎 CCE

设置极速文件存储挂载参数 - 云容器引擎 CCE

基本概念 - 云容器引擎 CCE

Prometheus Server视图 - 云容器引擎 CCE

节点滚动升级 - 云容器引擎 CCE

创建AHPA策略 - 云容器引擎 CCE

ServiceAccount - 云容器引擎 CCE

使用Service实现简单的灰度发布和蓝绿发布 - 云容器引擎 CCE

公平调度（DRF） - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线