搜索_华为云

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

FS盘存储的代码。线上开发：代码在云上，通过SSH连接容器。图3 选择开发场景图4 选择训练作业代码存储位置鼠标放至作业列表处，单击作业列表旁边的打开创建训练作业页面。图5 创建作业入口（可选）设置中转目录：中转目录支持OBS路径和SFS盘挂载路径。如果已经在步骤3配置，此处会自动显示中转目录。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
训练启动脚本说明和参数配置 - AI开发平台ModelArts

TP 8 表示张量并行。对应训练参数 tensor-model-parallel-size 。 PP 4 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。对应训练参数 pipeline-model-parallel-size 。 CP 1 表示contex

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。若训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
管理AI Gallery中的AI应用 - AI开发平台ModelArts

“公开”：表示公开资产，所有用户都可以查看该资产。当选择公开AI应用，系统会自动提交资产公开申请，审核通过之前资产还是私密状态，审核通过后就会变成公开状态。 “私密”：表示仅部分用户可见。 “仅自己可见”：默认状态，表示仅AI应用创建者可见该资产。 “指定用户”：表示AI应用创建者和指定的用户可见该资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
创建训练作业镜像保存任务 - AI开发平台ModelArts

e-image-job 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 task_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
发布Workflow到AI Gallery - AI开发平台ModelArts

as wf # 添加指定的白名单用户列表 wf.add_whitelist_users(content_id="**", version_num="*.*.*", user_groups=["**", "**"]) # 删除指定的白名单用户列表 wf.delete_whiteli

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 发布Workflow
发布数据集到AI Gallery - AI开发平台ModelArts

数据集”下，选择未发布的数据集，单击数据集名称，进入数据集详情页。在数据集详情页，单击右侧“发布”，在发布数据集页面编辑发布信息后，单击“发布”。表1 发布数据集的参数说明参数名称说明中文名称数据集发布后显示的名称，在创建数据集时设置的名称，此处不可编辑。任务类型选择合适的任务类型。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery数据集
获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

utosearch/yaml-templates 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数无响应参数状态码：200 表2 响应Body参数参数参数类型描述 yaml_templates

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
更新消息订阅Subscription - AI开发平台ModelArts

/v2/{project_id}/workflows/{workflow_id}/subscriptions/{subscription_id} 表1 路径参数参数是否必选参数类型描述 subscription_id 是 String 消息订阅ID。 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
训练精度测试 - AI开发平台ModelArts

cy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果 LLaMAFactory_trai

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练benchmark工具
训练精度测试 - AI开发平台ModelArts

cy_cfgs.yaml文件中默认配置，权重使用表1 模型权重中指定的Huggingface地址，数据指定data.tgz里面提供的gsm8k数据。查看精度结果任务完成之后会在test-benchmark目录下生成excel表格：精度结果 LLaMAFactory_trai

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练benchmark工具
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

操作。在“专属资源池扩缩容”页面，可通过增减“目标总实例数”实现扩缩容，请用户根据本身业务诉求进行调整。增加目标总实例数即表示扩容，减少目标总实例数即表示缩容。若购买资源池时，节点数量采用整柜方式购买（部分规格支持），则在扩缩容时为整柜方式扩缩容，目标总实例数等于“数量*整柜

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
创建自动模型优化的训练作业 - AI开发平台ModelArts

契合的超参，提高模型精度和收敛速度。表1 搜索指标参数参数说明名称搜索指标的名称。需要与您在代码中打印的搜索指标参数保持一致。优化方向可选“最大化”或者“最小化”。指标正则填入正则表达式。您可以单击智能生成功能自动获取正则表达式。设置自动化搜索参数从已设置的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
获取训练作业支持的AI预置框架 - AI开发平台ModelArts

/v2/{project_id}/training-job-engines 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数无响应参数状态码：200 表2 响应Body参数参数参数类型描述 total

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 推理性能测试
多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 benchmark方法介绍静态性能测试：评估在固定输入、固定输出和固定并发下，模型的吞吐与首token延迟。该方式实现简单，能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。性能benchmark验证使用到的脚本存放在代码包AscendCloud-LLM-xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 推理性能测试
设置无条件自动重启 - AI开发平台ModelArts

“fault-tolerance/job-retry-num”赋值为1~128表示开启自动重启，“fault-tolerance/job-unconditional-retry”赋值为“true”表示启用了无条件自动重启。 { "kind": "job", "metadata":

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
创建训练作业 - AI开发平台ModelArts

String 训练作业选择的资源规格，请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格，请参考查询引擎规格列表。 framework_version 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

如果出现报错“NCCL timeout”或者“RuntimeError: NCCL communicator was aborted on rank 7”，则表示InfiniBand Verbs超时。单击右侧“重建”，重新创建训练作业，设置环境变量“NCCL_IB_TIMEOUT=22”，提交训练作业后等待作业完成。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 2230

上一页
1
...
96
97
98
...
112
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

创建训练作业镜像保存任务 - AI开发平台ModelArts

发布Workflow到AI Gallery - AI开发平台ModelArts

发布数据集到AI Gallery - AI开发平台ModelArts

获取自动化搜索作业yaml模板的信息 - AI开发平台ModelArts

更新消息订阅Subscription - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

获取训练作业支持的AI预置框架 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

多模态模型推理性能测试 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线