搜索_华为云

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

问题定位 GPU插件的驱动版本较低，单独下载驱动安装后正常。工作负载中未声明需要gpu资源。建议方案节点安装了gpu-beta（gpu-device-plugin）插件后，会自动安装nvidia-smi命令行工具。引起部署GPU服务报错通常是由于nvidia驱动安装失败，请排查nvidia驱动是否下载成功。

帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 工作负载异常问题排查
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

比较步骤2和步骤3的可用显存。由于GPU厂商的驱动程序，本身就会占用一定量的物理显存，量级在300MB左右，这属于正常现象。例如Tesla T4配套510.47.03，驱动程序默认会占用280MiB；而该显存占用与厂商的驱动程序版本也有一定相关性，例如535系列驱动比470系列占用更多。若发现

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

driver_version 是 String 插件安装驱动时，插件里负责安装驱动的Pod的镜像tag，一般与device_version相同 obs_url 是 String 当从默认驱动地址中下载GPU驱动时，该值为GPU的驱动地址 swr_addr 是 String 镜像仓库地址

 帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
安装Spark - 云容器引擎 CCE
安装Spark - 云容器引擎 CCE

oad/v45/hadoop-huaweicloud-3.1.1-hw-45.jar 复制华为云OBS jar包到相应目录。 cp hadoop-huaweicloud-3.1.1-hw-45.jar /root/spark-obs/jars/ 修改Spark配置项。为了对接OBS，需要为Spark添加对应的配置项。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Spark
CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

v1.27 修复安装驱动的问题 2.0.46 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动支持非root用户使用XGPU 优化启动逻辑 2.0.44 v1.21 v1.23 v1.25 v1.27 支持535版本Nvidia驱动支持非root用户使用XGPU

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
编写Dockerfile文件 - 云容器引擎 CCE

/etc/profile \ && echo "CLASSPATH=.:\$JAVA_HOME/lib/dt.jar:\$JAVA_HOME/lib/tools.jar" >> /etc/profile \ && chmod +x /root \ && chmod +x

帮助中心 > 云容器引擎 CCE > 最佳实践 > 容器化改造 > 企业管理应用容器化改造（ERP） > 实施步骤
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

默认值："/usr/local/HiAI_unused" npu_driver_config 否 Map 如果自动在节点上安装NPU驱动，该参数key为机型，value为机型对应的NPU驱动的下载地址默认值：{} 表5 resources字段数据结构说明参数是否必选参数类型描述 limitsCpu

帮助中心 > 云容器引擎 CCE > API参考 > API > 插件实例字段说明
（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

19版本所做的变更说明。资源变更与弃用社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用，并在将来的版本中删除。 apiextensions.k8s.io/v1

帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 集群版本发布说明 > Kubernetes版本发布记录
（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

19版本所做的变更说明。资源变更与弃用社区1.19 ReleaseNotes 增加对vSphere in-tree卷迁移至vSphere CSI驱动的支持。in-tree vSphere Volume插件将不再使用，并在将来的版本中删除。 apiextensions.k8s.io/v1

帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 集群版本发布记录 > Kubernetes版本发布记录
CCE AI套件（Ascend NPU） - 云容器引擎 CCE

选择是否自动安装驱动（仅插件版本为1.2.5及以上时支持）。开启：可根据NPU机型不同指定相应的驱动版本，驱动维护更灵活。根据不同的适用机型选择是否启用驱动，启用后插件将根据用户指定的驱动版本自动进行驱动安装。默认使用“推荐驱动”，您也可以选择“自定义驱动”并填写完整的驱动地址。插

 帮助中心 > 云容器引擎 CCE > 用户指南 > 插件 > 云原生异构计算插件
创建有状态负载（StatefulSet） - 云容器引擎 CCE

创建有状态负载（StatefulSet）操作场景在运行过程中会保存数据或状态的工作负载称为“有状态工作负载（statefulset）”。例如MySQL，它需要存储产生的新数据。因为容器可以在不同主机间迁移，所以在宿主机上并不会保存数据，这依赖于CCE提供的高可用存储卷，将存

 帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 创建工作负载
在CCE集群中部署使用Flink - 云容器引擎 CCE

0-bin-scala_2.12\flink-1.20.0\examples\streamin”路径下是否有WordCount.jar包。在Dashboard页面添加Jar包。打开Flink的Dashboard页面，在左侧菜单栏中单击“Submit New Job”，右上角单击“Add New”，选择“flink-1

帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算
使用Init容器初始化应用 - 云容器引擎 CCE

初始化配置：比如集群里检测所有已经存在的成员节点，为主容器准备好集群的配置信息，这样主容器起来后就能用这个配置信息加入集群。其它使用场景：如将Pod注册到一个中央数据库、下载应用依赖等。更多内容请参见初始容器文档参考。操作步骤编辑initcontainer工作负载yaml文件。 vi deployment

帮助中心 > 云容器引擎 CCE > 最佳实践 > 容器
CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

适配CCE v1.27集群 1.2.6 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.5 v1.19 v1.21 v1.23 v1.25 支持NPU驱动自动安装 1.2.4 v1.19 v1.21 v1.23 v1.25 适配CCE v1.25集群

 帮助中心 > 云容器引擎 CCE > 服务公告 > 产品发布记录 > 插件版本发布记录
GPU插件关键参数检查异常处理 - 云容器引擎 CCE

RollingUpdate。请检查NVIDIA_DRIVER_DOWNLOAD_URL字段是否与插件页面的GPU驱动版本一致，若不一致，请在页面上修改为正确的驱动版本。父主题：升级前检查异常问题排查

 帮助中心 > 云容器引擎 CCE > 用户指南 > 集群 > 升级集群 > 升级前检查异常问题排查
创建无状态负载（Deployment） - 云容器引擎 CCE

imagePullPolicy（可选）：获取镜像的策略，可选值包括Always（每次都尝试重新下载镜像）、Never（仅使用本地镜像）、IfNotPresent（如果本地有该镜像，则使用本地镜像，本地不存在时下载镜像），默认为Always。 name（必选）：容器名称。必选 imagePullSecrets

帮助中心 > 云容器引擎 CCE > 用户指南 > 工作负载 > 创建工作负载
节点概述 - 云容器引擎 CCE
节点概述 - 云容器引擎 CCE

对于之前使用xfs格式容器应用，需要注意底层文件存储格式变动影响（不同文件系统格式文件排序存在差异：如部分java应用引用某个jar包，但目录中存在多个版本该jar包，在不指定版本时实际引用包由系统文件排序决定）。查看当前节点使用的Docker底层存储文件格式可采用docker info | grep

帮助中心 > 云容器引擎 CCE > 用户指南 > 节点
下载模板 - 云容器引擎 CCE
下载模板 - 云容器引擎 CCE

下载模板功能介绍下载模板调用方法请参见如何调用API。 URI GET /v2/charts/{chart_id}/archive 表1 路径参数参数是否必选参数类型描述 chart_id 是 String 模板的ID 请求参数表2 请求Header参数参数是否必选

 帮助中心 > 云容器引擎 CCE > API参考 > API > 模板管理
使用Kubectl命令进行命名空间RBAC授权 - 云容器引擎 CCE

权限，也就是说该用户允许对集群以及所有命名空间中的全部资源进行完全控制。使用IAM用户user-example登录CCE控制台，在集群中下载kubectl配置文件并连接集群，执行命令获取Pod信息，可以看到没有相关权限，同样也无查看其它资源的权限。这说明user-example

帮助中心 > 云容器引擎 CCE > 最佳实践 > 权限
创建容器工作负载 - 云容器引擎 CCE

输入密钥对名称，勾选“我同意将密钥对私钥托管”和“我已经阅读并同意《密钥对管理服务免责声明》”，单击“确定”。查看并保存私钥。为保证安全，私钥只能下载一次，请妥善保管，否则将无法登录节点。创建集群和节点。登录CCE控制台。在“集群管理”页面单击“购买集群”，选择需要创建的集群类型。

帮助中心 > 云容器引擎 CCE > 最佳实践 > 容器化改造 > 企业管理应用容器化改造（ERP） > 实施步骤

总条数： 209

上一页
1
2
3
4
5
...
11
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载异常：GPU节点部署服务报错 - 云容器引擎 CCE

GPU故障处理 - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU） - 云容器引擎 CCE

安装Spark - 云容器引擎 CCE

CCE AI套件（NVIDIA GPU）版本发布记录 - 云容器引擎 CCE

编写Dockerfile文件 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

（停止维护）Kubernetes 1.19版本说明 - 云容器引擎 CCE

CCE AI套件（Ascend NPU） - 云容器引擎 CCE

创建有状态负载（StatefulSet） - 云容器引擎 CCE

在CCE集群中部署使用Flink - 云容器引擎 CCE

使用Init容器初始化应用 - 云容器引擎 CCE

CCE AI套件（Ascend NPU）版本发布记录 - 云容器引擎 CCE

GPU插件关键参数检查异常处理 - 云容器引擎 CCE

创建无状态负载（Deployment） - 云容器引擎 CCE

节点概述 - 云容器引擎 CCE

下载模板 - 云容器引擎 CCE

使用Kubectl命令进行命名空间RBAC授权 - 云容器引擎 CCE

创建容器工作负载 - 云容器引擎 CCE

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线