搜索_华为云

Notebook中无法打开“checkpoints”文件夹 - AI开发平台ModelArts

此时可以在Terminal里使用命令行打开checkpoints，或者新建文件夹将checkpoints里的数据移动到新的文件夹下。图1 JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤：打开Terminal，用命令行进行操作。方法一：执行cd c

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

10中，如图1所示。图1 查询创建的虚拟环境解决方案在Terminal中执行conda deactivate命令退出当前虚拟环境，默认进入base环境。执行pip list命令查询已安装的包，然后安装需要的依赖进行保存，最后切换至指定的虚拟环境后再运行脚本。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

具进行自助性能调优，进一步可以通过profiling工具对于性能瓶颈进行分析，并针对性地做一些调优操作。您可以直接使用benchmark命令测试mindir模型性能，用来对比调优前后性能是否有所提升。 # shell cd /home_host/work benchmark -

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
Finetune训练 - AI开发平台ModelArts

启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
部署推理服务 - AI开发平台ModelArts

在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
请求超时返回Timeout - AI开发平台ModelArts

请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如返回Timeout则需排查本地防火墙，代理和网络配置。检查模型是否启动成功或者模型处理单个消息

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

ModelArts控制台为什么能看到创建失败被删除的专属资源池？在控制台页面操作删除专属资源池后，后端服务需要进行资源实例释放。在资源实例释放过程中，用户依然可以查询到资源池。如果需要创建专属资源池，建议等待5min后再创建，且不要使用已创建过的专属资源池名称来命名新建的专属资

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

到运行的主文件：no such file or directory。原因分析根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。处理方法需要排查执行命令的启动文件目录是否正确，具体操作如下：在ModelArts管理控制台，使用训练的自定义镜像创建训练作业时，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
obsutil安装和配置 - AI开发平台ModelArts

obsutil是用于访问、管理对象存储服务OBS的命令行工具，使用该工具可以对OBS进行常用的配置管理操作，如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。操作命令中的AK/SK要替换为用户实际获取的A

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

程。启动SD1.5 LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_lora_train.sh 启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

install时，出现“No Space left...”的错误。解决办法建议使用pip install --no-cache ** 命令安装，而不是使用pip install **。加上“--no-cache”参数，可以解决很多此类报错。父主题：实例故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
部署推理服务 - AI开发平台ModelArts

他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.5。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

有资源释放出来，则服务可以正常部署成功。如果三次重试后依然没有足够的资源，则本次服务部署失败。参考以下方式解决：如果是在公共资源池部署服务，可等待其他用户释放资源后，再进行服务部署。如果是在专属资源池部署服务，在满足模型需求的前提下，尝试选用更小的容器规格或自定义规格，进行服务部署；

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
部署推理服务 - AI开发平台ModelArts

他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
Qwen-VL基于Lite Server适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
线下容器镜像构建及调试 - AI开发平台ModelArts

gz在OBS上的路径（需将文件设置为公共读）。进入Dockerfile目录，通过Dockerfile构建镜像命令： # cd 到Dockerfile所在目录下，输入构建命令 # docker build -t ${image_name}:${image_version} . # 例如

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
SFT全参微调训练 - AI开发平台ModelArts

训练作业启动命令中输入： cd /home/ma-user/work/Qwen-VL; ln -s ${DATA}/ qwenvl_dataset; bash finetune/finetune_ds.sh; 选择用户自己的专属资源池，以及规格与节点数。图2 选择资源池规格新增SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

”如何解决？问题现象或原因分析 Notebook实例重新启动后，公钥发生变化，OpenSSH核对公钥发出警告。解决方法在VS Code中使用命令方式进行远程连接时，增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系统中。但有时候也可能需要手动执行该命令。例如，在更新了NVIDIA驱动后，需要

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1161

上一页
1
...
5
6
7
...
59
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Notebook中无法打开“checkpoints”文件夹 - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

ModelArts控制台为什么能看到创建失败被删除的专属资源池？ - AI开发平台ModelArts

使用自定义镜像创建训练作业找不到启动文件 - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

使用pip install时出现“没有空间”的错误 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

线下容器镜像构建及调试 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线