搜索_华为云

训练作业失败，返回错误码139 - AI开发平台ModelArts

用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用户选择了1/2/4卡这些规格的作业，然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号，与实际选择的卡ID不匹配。处理方法尽量代码里不要去修改CUDA_VISIBLE_DEVICES变量，用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

该指令无法完全模拟线上，主要是由于-v挂载进去的目录是root权限。在线上，模型文件从OBS下载到/home/mind/model目录之后，文件owner将统一修改为ma-user。在本地机器上启动另一个终端，执行以下验证指令，得到符合预期的推理结果。 curl https://127.0.0.1:8080/${推理服务的请求路径}

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练的数据集预处理说明 - AI开发平台ModelArts

即可用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以llama2为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
管理训练容器环境变量 - AI开发平台ModelArts

约束限制为了避免新设置的环境变量与系统环境变量冲突，而引起作业运行异常或失败，请在定义自定义环境变量时，不要使用“MA_”开头的名称。如何修改环境变量用户可以在创建训练作业页面增加新的环境变量，也可以设置新的取值覆盖当前训练容器中预置的环境变量值。为保证数据安全，请勿输入敏感信息，例如明文密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
使用kv-cache-int8量化 - AI开发平台ModelArts

json文件，里面是提取的per-tensor的scale值。内容示例如下：注意：抽取完成后，可能提取不到model_type信息，需要手动将model_type修改为指定模型，如"llama"。当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
查看ModelArts模型事件 - AI开发平台ModelArts

自定义镜像健康检查接口必须是xxx。 The health check url of custom image model must be %s. 请修改自定义镜像健康检查接口后重试。正常当前镜像构建任务状态为xxx。 The status of the image building task

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
自定义引擎创建模型规范 - AI开发平台ModelArts

该指令无法完全模拟线上，主要是由于-v挂载进去的目录是root权限。在线上，模型文件从OBS下载到/home/mind/model目录之后，文件owner将统一修改为ma-user。在本地机器上启动另一个终端，执行以下验证指令，得到符合预期的推理结果。 curl https://127.0.0.1:8080/${推理服务的请求路径}

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

使用用户组02中任意一个子账号登录ModelArts管理控制台。在登录页面，请使用“IAM用户登录”方式进行登录。首次登录会提示修改密码，请根据界面提示进行修改。验证ModelArts权限。在左上角的服务列表中，选择ModelArts服务，进入ModelArts管理控制台。在M

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

列出相关的静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了开发环境官方的8888、8889端口的，需要用户修改自己的进程端口号；用户的镜像指定了PYTHONPATH、sys.path导致服务启动调用冲突的，需在实例启动后，再指定PYTHONPATH、sys

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
IEF节点边缘服务部署失败 - AI开发平台ModelArts

是，重新“启动”边缘服务，如果还是“异常”则联系技术支持处理。否，执行下一步，给用户添加委托权限。添加委托权限。如果是IAM子账号，没有修改委托权限，请联系管理员添加Tenant Administrator委托权限。登录统一身份认证服务IAM管理控制台。单击导航栏的“委托”，进入委托页面。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练的数据集预处理说明 - AI开发平台ModelArts

可用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值，进入到 /home

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

主机用root权限执行命令进行修改 docker exec -u root:root 39c9ceedb1f6 bash -c "chown -R ma-user:ma-user /cache" 针对调试中遇到的错误，可以直接在容器实例里修改，修改结果可以通过commit命令持久化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练的数据集预处理说明 - AI开发平台ModelArts

即可用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以llama2为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

即可用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以llama2为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值。在Notebook进入到

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

inted_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
断点续训和故障快恢说明 - AI开发平台ModelArts

inted_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应迭代次数）保持一致，不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints}

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
保存Notebook实例 - AI开发平台ModelArts

导致镜像保存失败。如使用的是专属资源池，可尝试在“专属资源池>弹性集群”页面按需调整容器引擎空间大小，具体步骤请参考扩缩容专属资源池的“修改容器引擎空间大小”。如果问题仍未解决，请联系技术支持。前提条件 Notebook实例状态为“运行中”。保存镜像在Notebook列

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

导致镜像保存失败。如使用的是专属资源池，可尝试在“专属资源池>弹性集群”页面按需调整容器引擎空间大小，具体步骤请参考扩缩容专属资源池的“修改容器引擎空间大小”。如果问题仍未解决，请联系技术支持。前提条件 Notebook实例状态为“运行中”。保存镜像在Notebook列

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
使用Notebook进行代码调试 - AI开发平台ModelArts

install -r requirements.txt && /bin/sh tools/run.sh Notebook中调试完后，如果镜像有修改，可以保存镜像用于后续训练，具体操作请参见保存Notebook镜像环境。父主题：单机多卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡

总条数： 892

上一页
1
...
29
30
31
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业失败，返回错误码139 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

使用自定义引擎在ModelArts Standard创建模型 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

自定义引擎创建模型规范 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线