搜索_华为云

GPU故障处理 - 云容器引擎 CCE
GPU故障处理 - 云容器引擎 CCE

GPU故障处理前提条件如需将GPU事件同步上报至AOM，集群中需安装云原生日志采集插件，您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件当GPU显卡出现异常时，系统会将出现问题的GPU设备进行隔离，详细事件如表1所示。表1 GPU插件隔离事件事件原因详细信息

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
Hudi写入小精度Decimal数据失败 - MapReduce服务 MRS

Hudi写入小精度Decimal数据失败问题 Hudi表初始入库采用BULK_INSERT方式入库含有Decimal类型的数据，之后执行upsert，数据写入时报错： java.lang.UnsupportedOperationException: org.apache.parquet

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hudi > Hudi常见问题 > 数据写入
概要 - CodeArts IDE Online
概要 - CodeArts IDE Online

型完成简单的图像分类。父主题：基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型

 帮助中心 > CodeArts IDE Online > 最佳实践 > 基于CodeArts IDE Online、TensorFlow和Jupyter Notebook开发深度学习模型
训练作业找不到GPU - AI开发平台ModelArts

到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可以为0，1，2，3等，表明对程序可见的GP

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
基于MindSpore Lite的模型转换 - AI开发平台ModelArts

图1 netron中查看inputShape 精度选择。精度选择需要在模型转换阶段进行配置，执行converter_lite命令时通过--configFile参数指定配置文件路径，配置文件通过precision_mode参数指定精度模式。可选的参数有“enforce_fp32”

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

在“GPU配置”中找到“节点池配置”，并选择新增的目标节点池。参考准备GPU虚拟化资源，选择满足GPU虚拟化要求的驱动，并开启支持GPU虚拟化。图1 异构资源配置单击“确认配置”进行保存。步骤三：创建GPU虚拟化负载并扩容参考使用GPU虚拟化章节，创建使用GPU虚拟化

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
pipeline应用准备 - AI开发平台ModelArts

onnx_pipeline.py 生成的图片fantasy_landscape.png会保存在当前路径下，该图片也可以作为后期精度校验的一个对比。图2 生成图片父主题：基于AIGC模型的GPU推理业务迁移至昇腾指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
GPU实例故障处理流程 - 弹性云服务器 ECS

GPU实例故障处理流程 GPU实例故障处理流程如图1所示，对应的操作方法如下： CES监控事件通知：配置GPU的CES监控后会产生故障事件通知。故障信息收集：可使用GPU故障信息收集脚本一键收集，也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表：根据错误信息在故障分类列表中识别故障类型。

帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
msprobe工具使用指导 - AI开发平台ModelArts

msprobe工具使用指导 msprobe API预检 msprobe精度比对 msprobe梯度监控父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

PU”，配置GPU参数。表1 GPU参数说明参数名称说明 GPU卡型当前仅支持NVIDIA-T4。 GPU规格（GB）支持1~16GB。图1 启用GPU 父主题：创建GPU函数

 帮助中心 > 函数工作流 FunctionGraph > 用户指南 > 创建函数 > 创建GPU函数
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

在使用converter_lite工具转换时，默认是将所有算子的精度转换为fp16。如果想要将固定shape的模型精度修改为fp32进行转换，需要在配置文件中指定算子的精度模式为precision_mode，配置文件的写法如下（更多精度模式请参考precision_mode）： # text_encoder

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

集群有4块GPU卡，TFJob1和TFJob2作业各自有4个Worker，TFJob1和TFJob2各自分配到2个GPU。但是TFJob1和TFJob2均需要4块GPU卡才能运行起来。这样TFJob1和TFJob2处于互相等待对方释放资源，这种死锁情况造成了GPU资源的浪费。亲和调度问题

 帮助中心 > 云容器引擎 CCE > 最佳实践 > 批量计算 > 在CCE集群中部署使用Kubeflow
基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置集群中包含GPU节点时，可通过GPU指标查看节点GPU资源的使用情况，例如GPU利用率、显存使用量等。在获取GPU监控指标后，用户可根据应用的GPU指标配置弹性伸缩策略，在业务波动时自适应调整应用的副本数量。前提条件目标集群已创建，且

 帮助中心 > 云容器引擎 CCE > 用户指南 > 调度 > GPU调度
GPU视图 - 云容器引擎 CCE
GPU视图 - 云容器引擎 CCE

计算公式：节点上容器显存使用总量/节点上显存总量 GPU卡-显存使用量字节显卡上容器显存使用总量 GPU卡-算力使用率百分比每张GPU卡的算力使用率计算公式：显卡上容器算力使用总量/显卡的算力总量 GPU卡-温度摄氏度每张GPU卡的温度 GPU-显存频率赫兹每张GPU卡的显存频率 GPU卡-PCle带宽

 帮助中心 > 云容器引擎 CCE > 用户指南 > 云原生观测 > 监控中心 > 仪表盘
管理GPU加速型ECS的GPU驱动 - 弹性云服务器 ECS

管理GPU加速型ECS的GPU驱动 GPU驱动概述 Tesla驱动及CUDA工具包获取方式（推荐）自动安装GPU加速型ECS的GPU驱动（Linux）（推荐）自动安装GPU加速型ECS的GPU驱动（Windows）手动安装GPU加速型ECS的GRID驱动手动安装GPU加速型ECS的Tesla驱动

 帮助中心 > 弹性云服务器 ECS > 用户指南 > 实例
使用Nvidia-smi工具 - 云容器实例 CCI

使用Nvidia-smi工具为了支持查看GPU使用情况的场景，需要在镜像中注入nvidia-smi工具，根据购买的专属节点GPU驱动版本选择不同的nvidia-smi二进制文件。 nvidia-smi获取方式。该二进制文件可以在nvidia官网，根据CUDA Toolkit版

 帮助中心 > 云容器实例 CCI > 最佳实践 > GPU负载
调度策略 - 云容器引擎 CCE
调度策略 - 云容器引擎 CCE

如何查看Pod是否使用CPU绑核？节点关机后Pod不重新调度如何避免非GPU/NPU负载调度到GPU/NPU节点？为什么Pod调度不到某个节点上？修改kubelet参数导致已驱逐的Pod被重新调度根据GPU/NPU卡信息定位使用该卡的Pod 节点标签更新导致的Pod容器退出问题

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载
GPU实例故障分类列表 - 弹性云服务器 ECS

GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。表1 GPU实例故障分类列表是否可恢复故障故障类型相关文档可恢复故障，可按照相关文档自行恢复镜像配置问题如何处理Nouveau驱动未禁用导致的问题 ECC错误如何处理ECC ERROR：存在待隔离页问题内核升级问题

 帮助中心 > 弹性云服务器 ECS > 故障排除 > GPU实例故障自诊断
如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

如何避免非GPU/NPU负载调度到GPU/NPU节点？问题现象当集群中存在GPU/NPU节点和普通节点混合使用的场景时，普通工作负载也可以调度到GPU/NPU节点上，可能出现GPU/NPU资源未充分利用的情况。问题原因由于GPU/NPU节点同样提供CPU、内存资源，在一般

 帮助中心 > 云容器引擎 CCE > 常见问题 > 工作负载 > 调度策略
GPU设备检查 - 智能边缘平台 IEF

GPU设备检查功能检查节点是否存在gpu设备，gpu驱动是否安装且运行正常。语法 edgectl check gpu 参数说明无使用示例检查节点GPU设备： edgectl check gpu 检查成功返回结果： +-----------------------+ |

帮助中心 > 智能边缘平台 IEF > Edgectl使用指南 > edgectl 命令详情 > 单独项检查

总条数： 4294

上一页
1
...
6
7
8
...
215
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU故障处理 - 云容器引擎 CCE

Hudi写入小精度Decimal数据失败 - MapReduce服务 MRS

概要 - CodeArts IDE Online

训练作业找不到GPU - AI开发平台ModelArts

基于MindSpore Lite的模型转换 - AI开发平台ModelArts

GPU虚拟化节点弹性伸缩配置 - 云容器引擎 CCE

pipeline应用准备 - AI开发平台ModelArts

GPU实例故障处理流程 - 弹性云服务器 ECS

msprobe工具使用指导 - AI开发平台ModelArts

自定义镜像方式创建GPU函数 - 函数工作流 FunctionGraph

模型适配 - AI开发平台ModelArts

使用Kubeflow和Volcano实现典型AI训练任务 - 云容器引擎 CCE

基于GPU监控指标的工作负载弹性伸缩配置 - 云容器引擎 CCE

GPU视图 - 云容器引擎 CCE

管理GPU加速型ECS的GPU驱动 - 弹性云服务器 ECS

使用Nvidia-smi工具 - 云容器实例 CCI

调度策略 - 云容器引擎 CCE

GPU实例故障分类列表 - 弹性云服务器 ECS

如何避免非GPU/NPU负载调度到GPU/NPU节点？ - 云容器引擎 CCE

GPU设备检查 - 智能边缘平台 IEF

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线