搜索_华为云

Standard模型训练 - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？在ModelArts训练时如何安装C++的依赖库？在ModelArts训练作业中如何判断文件夹是否复制完毕？如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？

帮助中心 > AI开发平台ModelArts > 常见问题
SFT全参微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
修改Workflow工作流 - AI开发平台ModelArts

id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。请求参数表2 请求Body参数参数是否必选参数类型描述 name 否

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
变更计费模式 - AI开发平台ModelArts

“更多 > 转包周期”。在弹出的“转包周期”页面，确认无误后单击“确定”。图1 转包周期选择弹性集群的购买时长，判断是否勾选“自动续费”，确认预计到期时间和配置费用后单击“去支付”。进入支付页面，选择支付方式，确认付款，支付订单后即可完成按需转包年/包月。

帮助中心 > AI开发平台ModelArts > 计费说明
推理专属预置镜像列表 - AI开发平台ModelArts

1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64-20221121111529-d65d817 镜像构建时间：20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
执行训练任务（推荐） - AI开发平台ModelArts

选择，示例如下。输入数据集参数：是否使用已处理好数据集；是，设置以下超参 processed_data_dir:已处理好数据路径目录否，使用原始数据集，设置以下超参 dataset：训练时指定的输入原始数据集路径。输入权重词表超参：是否使用已转换Megatron格式权重或训练输出结果权重目录；

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
查询训练作业列表 - AI开发平台ModelArts

ining-jobs 参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型说明 status 否 String 作业状态的查

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
新建Workflow Execution - AI开发平台ModelArts

WorkflowMetricPair 参数是否必选参数类型描述 key 否 String 度量信息metric的key。 value 否 Object 度量信息metric的值。表10 StepCondition 参数是否必选参数类型描述 type 否 String 判断类型，例如==（等于）、

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查看训练作业资源占用情况 - AI开发平台ModelArts

emUsage”“npuMemUsage”、“npuUtil”，可以添加或取消对应参数的使用情况图。操作三：鼠标悬浮在图片上的时间节点，可查看对应时间节点的占用率情况。图1 资源占用情况表1 参数说明参数说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询数据集导入任务列表 - AI开发平台ModelArts

t-tasks 表1 路径参数参数是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 limit 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
设置断点续训练 - AI开发平台ModelArts

将被赋值为"/home/ma-user/modelarts/outputs/train_url_0" train_url = args.train_url # 判断输出路径中是否有模型文件。如果无文件则默认从头训练，如果有模型文件，则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

卡、千卡及以上规模的可视化集群性能分析，助力开发者天级完成性能调优。 MindStudio-Insight提供时间线视图、内存、算子耗时、通信瓶颈分析等功能，借助于数据库支持超大性能数据处理，可以支持20GB的集群性能文件分析，并且能够支持大模型场景下的性能调优，相比于Chrom

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移性能调优
LoRA微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911）
执行训练任务【新】 - AI开发平台ModelArts

ze 8 表示张量并行。 pipeline-model-parallel-size 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 context-parallel-size 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时S

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
精度问题诊断 - AI开发平台ModelArts

该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程一般情况下，onnx模型推理的结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
查询预置算法 - AI开发平台ModelArts

ms 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求消息请求参数如表2所示。表2 查询检索参数参数是否必选参数类型说明 per_page 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业

总条数： 506

上一页
1
2
3
4
5
...
26
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Standard模型训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

修改Workflow工作流 - AI开发平台ModelArts

变更计费模式 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

新建Workflow Execution - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

查询数据集导入任务列表 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

MindStudio-Insight性能可视化工具使用指导 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

执行训练任务【新】 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

查询预置算法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线