搜索_华为云

模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
SFT全参微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
执行训练任务（历史版本） - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
训练过程中无法找到so文件 - AI开发平台ModelArts

/usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH，设置完成后，重新下发作业即可。例如so文件的存放路径为：/use/local/cuda/lib64，LD_LIBRARY_PATH设置如下： export LD_LIBRARY_PAT

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
执行训练任务（推荐） - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） lr 2.5e-5 学习率设置。 min-lr 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 train-iters 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

”页面。在选择模型及配置中，单击“增加模型版本进行灰度发布”添加新版本。图1 灰度发布您可以设置两个版本的流量占比，服务调用请求根据该比例分配。其他设置可参考参数说明。完成设置后，单击下一步。确认信息无误后，单击“提交”部署在线服务。父主题： Standard推理部署

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
更新服务配置 - AI开发平台ModelArts

不允许参数status设置成running（启动）或设置参数configs（服务配置）。当前服务状态是waiting（排队中）时，不允许参数status设置成running（启动）。当前服务状态是concerning（告警）时，不允许参数status设置成running（启动）。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
创建ModelArts数据清洗任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。图1 创建数据处理基本信息设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型选择“数据校验”，填写相应算子的设置参数，算子的详细参数参见数据清洗算子（PCC算子）。图2 设置场景类别和数据处理类型设置输入与输出。需根据实际数据情况选择“数

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
创建ModelArts数据选择任务 - AI开发平台ModelArts

您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。设置数据处理类型“数据选择”，填写相应算子的设置参数，算子的详细参数参见数据去重算子（SimDeduplication算子）和数据去冗余算子（RRD算子）。图1 设置场景类别和数据处理类型设置输入与输出。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

）服务。添加训练作业使用权限。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角的“创建自定义策略”，设置策略。 “策略名称”：设置自定义策略名称，例如：trainJob。 “策略配置方式”：选择JSON视图。 “策略内容”：填入如下内容。 { "Version":

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
部署推理服务 - AI开发平台ModelArts

PTA_TORCHAIR_DECODE_GEAR_LIST=2,4,6,8,16,32 # 设置动态分档的挡位，根据实际情况设置，另外请不要设置挡位1 export VLLM_ENGINE_ITERATION_TIMEOUT_S=900 # 设置vllm请求超时时间图模式主要针对小模型的场景，可减少算子下发的瓶颈，目前仅针对Qwen2-1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

--chown=ma-user:ma-group pip.conf /home/ma-user/.pip/pip.conf # 设置容器镜像预置环境变量 # 将python解释器路径加入到PATH环境变量中 # 请务必设置PYTHONUNBUFFERED=1, 以免日志丢失 ENV PATH=${ANACONDA_

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
LoRA微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

（此参数目前仅适用于Llama3系列模型长序列训练） LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 TRAIN_ITERS 100 表示训练step迭代次数，根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）

总条数： 882

上一页
1
...
9
10
11
...
45
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练高可靠性 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

在ModelArts中调整模型后，部署新版本模型能否保持原API接口不变？ - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线