搜索_华为云

数据集版本发布失败 - AI开发平台ModelArts

出现此问题时，表示数据不满足数据管理模块的要求，导致数据集发布失败，无法执行自动学习的下一步流程。请根据如下几个要求，检查您的数据，将不符合要求的数据排除后再重新启动自动学习的训练任务。 ModelArts.4710 OBS权限问题 ModelArts在跟OBS交互时，由于权限相关的问题导致。当界面提示“OBS

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题问题1：在推理预测过程中遇到NPU out of memory 解决方法：调整推理服务启动时的显存利用率，将--gpu-memory-utilization的值调小。问题2：在推理预测过程中遇到ValueError:User-specified max_model_len

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
Lite Server使用流程 - AI开发平台ModelArts

Lite Server提供启动、停止、切换操作系统等管理手段，您可在ModelArts控制台上对资源进行管理。表1 相关名词解释名词含义裸金属服务器裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务，为您和您的企业提供专属的云上物理服务器，为核心数据库、关键应用系统、高性

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

文件会被下载到训练容器的“${MA_JOB_DIR}/code”目录中。启动文件必填，选择代码目录中训练作业的Python启动脚本。 ModelArts只支持使用Python语言编写的启动文件，因此启动文件必须以“.py”结尾。父主题：制作自定义镜像用于训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

0镜像中的libmkldnn软连接与原生torch的冲突，具体可参看文档。处理方法按照issues中的说明，应该是环境中的库冲突了，因此在启动脚本最开始之前，添加如下代码。 import os os.system("rm /home/work/anaconda3/lib/libmkldnn

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

在Notebook中打开terminal，可以运行如下命令查看RANK_TABLE_FILE： 1 env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os.system('env | grep RANK') 父主题：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 功能咨询
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

使用自定义镜像创建Notebook后打开没有kernel 问题现象使用自定义镜像创建实例启动后，打开JupyterLab>新建Notebook，选不到kernel。原因分析自定义镜像的python环境没有注册。解决方案在Terminal里执行命令排查实例存在几个Conda环境。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

检查用于标注的图片数据，确保您的图片数据中，不存在RGBA四通道图片。如果存在四通道图片，智能标注任务将运行失败，因此，请从数据集中删除四通道图片后，再启动智能标注。启动智能标注前要保证当前数据集不存在正在进行中的智能标注任务。操作步骤调用认证鉴权接口获取用户的Token。请求消息体： URI格式：POST

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
准备Notebook - AI开发平台ModelArts

sh命令提前下载完整代码包和安装依赖包，然后使用保存镜像功能。后续训练作业使用新保存的镜像，无需每次启动训练作业时再次下载代码包以及安装依赖包，可节约训练作业启动时间。由于训练启动命令也会执行sh scripts/install.sh安装依赖包，因此Notebook保存镜像为可选操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

quit) Step4 请求推理服务另外启动一个terminal，使用命令测试推理服务是否正常启动，端口请修改为启动服务时指定的端口。使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。方式一：通过OpenAI服务API接口启动服务使用以下推理测试命令。${doc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此处提供vLLM服务API接口启动和OpenAI服务API接口启动2种方式。详细启动服务与请求方式参考：https://docs

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

储资源。通过运行的实例保存成容器镜像运行的实例可以保存成容器镜像，保存的镜像中，安装的依赖包（pip包）不丢失，VSCode远程开发场景下，在Server端安装的插件不丢失。查询支持的有效规格列表查询支持的有效规格列表。查询支持可切换规格列表查询Notebook实例可切换的规格列表。

帮助中心 > AI开发平台ModelArts > API参考
附录：微调训练常见问题 - AI开发平台ModelArts

附录：微调训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
管理开发环境实例 - AI开发平台ModelArts

管理开发环境实例功能介绍该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。表1 参数说明参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

的那个（如果容器镜像装了多个python，需要设置python路径的环境变量）。测试训练启动脚本。优先使用手工进行数据复制的工作并验证一般在镜像里不包含训练所用的数据和代码，所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务

总条数： 881

上一页
1
...
7
8
9
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据集版本发布失败 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Lite Server使用流程 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

PyTorch1.0引擎提示“RuntimeError: std:exception” - AI开发平台ModelArts

如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练？ - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

使用自定义镜像创建Notebook后打开没有kernel - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

创建并完成图像分类的智能标注任务 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

附录：微调训练常见问题 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线