搜索_华为云

训练作业失败，返回错误码139 - AI开发平台ModelArts

OBS-Python-SDK-3.1.2 原因分析出现该问题的可能原因如下 pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建生产训练作业 - AI开发平台ModelArts

必选，选择“自定义”。镜像必填，填写容器镜像的地址。容器镜像地址的填写支持如下方式。选择自有镜像或他人共享的镜像：单击右边的“选择”，从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。选择公开镜像：直接输入SWR服务中公开镜像的地址。地址直接填写“组织名称/镜像名称:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
上传文件夹至OBS - AI开发平台ModelArts

String 本地需要上传的文件夹路径。当上传的文件夹下内容为空或者该文件夹下包含多个文件夹且有文件夹下内容有空时，OBS对应路径下不产生该空文件夹。 dst_obs_dir 是 String 上传的目标OBS桶地址，必须以“obs://”作为前缀，上传的目标文件夹后缀必须以“/”结尾。

帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
在MaaS应用实践中心查看应用解决方案 - AI开发平台ModelArts

MaaS应用实践中心结合KooSearch企业搜索服务、盘古数字人大脑和Dify，为具体的客户应用场景提供一整套解决方案。 KooSearch企业搜索服务：基于在MaaS开源大模型部署的模型API，搭建企业专属方案、LLM驱动的语义搜索、多模态搜索增强。盘古数字人大脑：基于在MaaS开源大模型部署的模型API

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
修改训练作业优先级 - AI开发平台ModelArts

高优先级权限”的用户可选择优先级1~3。如何设置训练作业优先级在创建训练作业页面可以设置训练的“作业优先级”。取值为1~3，默认优先级为1，最高优先级为3。如何修改训练作业优先级在训练作业列表页面，选择“状态”为“等待中”的训练作业，单击“作业优先级”列的，在弹窗中修改优先级后单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
OOM导致训练作业失败 - AI开发平台ModelArts

initialized”。原因分析按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如bat

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示"write line error" - AI开发平台ModelArts

error”。并且问题是必现问题，每次运行到同一地方的时候，出现错误。原因分析出现该问题的可能原因如下：程序运行过程中，产生了core文件，core文件占满了"/"根目录空间。本地数据、文件保存将"/cache"目录3.5T空间用完了。云上训练磁盘空间一般指如下两个目录的磁盘空间： “/”根目录，是docker中配置项“base

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
权限相关 - AI开发平台ModelArts
权限相关 - AI开发平台ModelArts

权限相关使用ModelArts时提示“权限不足”，如何解决？在Notebook中如何实现IAM用户隔离？如何获取访问密钥？

帮助中心 > AI开发平台ModelArts > 常见问题
查询样本列表 - AI开发平台ModelArts

8：图像的饱和度与训练数据集的特征分布存在较大偏移。 9：图像的色彩丰富程度与训练数据集的特征分布存在较大偏移。 10：图像的清晰度与训练数据集的特征分布存在较大偏移。 11：图像的目标框数量与训练数据集的特征分布存在较大偏移。 12：图像中目标框的面积标准差与训练数据集的特征分布存在较大偏移。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Controlnet训练 - AI开发平台ModelArts

述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet适配到昇腾卡进行训练，可以提高能效、支持更大模型和多样化部署环境，提升昇腾云在图像生成和编辑场景下的竞争力。本章节介绍SDXL&SD

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
创建IAM用户并授权使用MaaS - AI开发平台ModelArts

配置ModelArts委托授权章节中介绍的一键式自动授权方式创建的委托的权限比较大，基本覆盖了依赖服务的全部权限。如果华为云账号已经能满足您的要求，则不需要创建独立的IAM用户，您可以跳过本章节，不影响您使用MaaS服务的功能。 ModelArts作为一个完备的AI开发平台，支持用户对其进行细粒度的权限配置，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

开启图模式后，服务第一次响应请求时会有一个较长时间的图编译过程，并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时，可通过缓存文件来快速完成图编译的过程，避免长时间的等待，并且基于图编译缓存文件来启动服务可获得更优的推理性能，因此请在有图编译缓存文件的前提下启动服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

资源进行手动续费的操作。所有需手动续费的资源都可归置到“手动续费项”页签，具体操作请参见如何恢复为手动续费。手动续费资源。单个续费：在资源页面找到需要续费的资源，单击操作列的“续费”。图1 单个续费批量续费：在资源页面勾选需要续费的资源，单击列表左上角的“批量续费”。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
multi-lora - AI开发平台ModelArts
multi-lora - AI开发平台ModelArts

LoRA（Low-Rank Adaptation）是一种适用于大模型的轻量化微调技术方法。原理是通过在模型层中引入低秩矩阵，将大模型的权重降维处理，来实现高效的模型适配。相比于传统的微调方法，LoRA不仅能大幅减少所需的训练参数，还降低了显存和计算成本，加快了模型微调速度。对于VLL

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
错误码 - AI开发平台ModelArts
错误码 - AI开发平台ModelArts

参数错误请检查填写的参数。 400 ModelArts.0107 The values of the request parameters ({0},{1}) are invalid. 请求的参数值 ({0},{1})是无效的. 检查提示的参数值是否是有效的。 400 ModelArts

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
云上迁移适配故障 - AI开发平台ModelArts

云上迁移适配故障无法导入模块训练作业日志中提示“No module named .*” 如何安装第三方包，安装报错的处理方法下载代码目录失败训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数，日志报错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
LoRA微调训练 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置以Llama2-70b和Llama2-13b的LoRA微调为例，执行脚本为0_pl_lora_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调训练任务 - AI开发平台ModelArts

训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细了解脚本执行训练权重转换操作和数据集预处理操作说明请分别参见训练中的权重转换说明和训练的数据集预处理说明。步骤二修改训练超参配置以Llama2-70b和Llama2-13b的SFT微调为例，执行脚本为0_pl_sft_70b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
执行训练任务（历史版本） - AI开发平台ModelArts

Face权重（可与tokenizer相同文件夹）时，对应的存放地址。请根据实际规划修改。 TOKENIZER_PATH /home/ma-user/ws/llm_train/AscendFactory/tokenizers/llama2-13B 该参数为tokenizer文件的存放地址。默认与ORIGINAL_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务

总条数： 1575

上一页
1
...
52
53
54
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业失败，返回错误码139 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

上传文件夹至OBS - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在MaaS应用实践中心查看应用解决方案 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

权限相关 - AI开发平台ModelArts

查询样本列表 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

创建IAM用户并授权使用MaaS - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

multi-lora - AI开发平台ModelArts

错误码 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线