搜索_华为云

日志提示“ Network is unreachable” - AI开发平台ModelArts

必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要）前提条件已经在OBS上创建好并行文件系统，请参见创建并行文件系统。已经在obsutil安装和配置，请参见obsutils安装和配置。准备数据单击下载动物数据集至本地，并解压。通过obsutil将数据集上传至OBS桶中。 ./obsutil cp

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Standard Notebook - AI开发平台ModelArts

在ModelArts的Notebook的Jupyterlab可以安装插件吗？在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练？如何在ModelArts的Notebook的CodeLab上安装依赖？在ModelArts的Notebook中安装远端插件时不稳定要怎么办？在Mo

帮助中心 > AI开发平台ModelArts > 常见问题
设置在线服务故障自动重启 - AI开发平台ModelArts

仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。开启故障自动重启用户可以在部署在线服务任务时，勾选“高级选项”的“现在配置”，可以看到“故障自动重启”参数，打开开关即可。图1 故障自动重启

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

但是达不到预期，可能是nv_peer_mem异常。处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装，安装方法参考装机指导。如果已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

peer-memory四个软件。但是如果nvidia和cuda是使用runfile(local)方式安装的，那么需要在下一步中再次卸载。若使用nvidia run包直接安装的驱动，需要找到对应的卸载命令。 sudo /usr/bin/nvidia-uninstall sudo

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成整数15099494 父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
训练作业失败，返回错误码139 - AI开发平台ModelArts

如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。如果上述情况都解决不了，请联系技术支持工程师。建议与总结在创建训练作

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

[type=int_from_float, input_value=15099494.4, input_type=float] 将deepspeed配置文件的 stage3_prefetch_bucket_size 参数值从 auto 改成整数15099494 父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤方法1：使用mlx硬件计数器，估算ROCE网卡收发流量

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Turbo功能，则需要配置ModelArts和SFS Turbo间网络直通，以及配置ModelArts网络关联SFS Turbo。若ModelArts网络关联SFS Turbo失败，则需要授权ModelArts云服务使用SFS Turbo，具体操作请参见配置ModelArts和SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

查看卡信息，执行以下命令。 npu-smi info kubernetes会根据config.yaml文件中配置的卡数分配资源给pod，如下图所示由于配置了1卡因此在容器中只会显示1卡，说明配置生效。图2 查看卡信息修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。删除已创建的pod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
模型训练使用流程 - AI开发平台ModelArts

调试训练作业。 ModelArts提供了云化版本的JupyterLab，无需关注安装配置，即开即用。 ModelArts也提供了本地IDE的方式开发模型，通过开启SSH远程开发，本地IDE可以远程连接到调试训练作业中，进行调试和运行代码。本地IDE方式不影响用户的编码习惯，并且调

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

必现的问题，使用本地Pycharm远程连接Notebook调试。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
授权管理 - AI开发平台ModelArts
授权管理 - AI开发平台ModelArts

授权管理查看授权列表配置授权删除授权创建ModelArts委托

 帮助中心 > AI开发平台ModelArts > API参考
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

可能系统资源不足、如内存不足、内存泄露。硬件故障、如IB网络或者GPU互联设备故障等。没安装nvidia-fabricmanager组件或被误卸载。处理方法如果未安装fabricmanager，则需安装改组件。如果已安装fabricmanager，运行以下命令重启fabricmanager.service。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

ailed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed to initialize

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

Cluster资源池上使用Snt9B完成推理任务场景描述本案例介绍如何在Snt9B环境中利用Deployment机制部署在线推理服务。首先创建一个Pod以承载服务，随后登录至该Pod容器内部署在线服务，并最终通过新建一个终端作为客户端来访问并测试该在线服务的功能。图1 任务示意图操作步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

“添加模型说明”，设置“文档名称”及其“URL”。模型说明最多支持3条。 “部署类型” 选择此模型支持部署服务的类型，部署上线时只支持部署为此处选择的部署类型，例如此处只选择在线服务，那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。确认信息填写无误，单击“立即创建”，完成模型的创建。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型

总条数： 1566

上一页
1
...
17
18
19
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“ Network is unreachable” - AI开发平台ModelArts

上传数据和算法至OBS（首次使用时需要） - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

Standard Notebook - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

在运行finetune_ds.sh 时遇到报错 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

模型训练使用流程 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

授权管理 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成推理任务 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线