搜索_华为云

Lite Cluster使用前必读 - AI开发平台ModelArts

Lite Cluster使用前必读 Lite Cluster使用流程 Lite Cluster高危操作一览表不同机型的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ，即为当前网卡的接收速率，单位Byte/s。方法2：使用ib_write_bw测试RDMA的读写处理确定带宽服务器A：服务端从mlx4_0网卡接收数据 ib_write_bw

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

方法。专属池驱动版本如何升级？当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱动的需求，ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力，具体操作请参见资源池驱动升级。父主题： FAQ

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
通过Function Calling扩展大语言模型交互能力 - AI开发平台ModelArts

Calling扩展大语言模型交互能力 Function Calling介绍在Dify中配置支持Function Calling的模型使用通过Function Calling扩展大语言模型对外部环境的理解

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
删除训练作业版本 - AI开发平台ModelArts

project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息无请求参数。响应消息响应参数如表2所示。表2 响应参数参数参数类型说明 is_success

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
执行微调训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
ModelArts CLI命令功能介绍 - AI开发平台ModelArts

yaml配置文件； -P表示鉴权文件中的某一组鉴权信息，默认是DEFAULT； -D表示是否开启debug模式（默认关闭），当开启debug模式后，命令的报错堆栈信息将会打印出来，否则只会打印报错信息； -h表示显示命令的帮助提示信息。命令说明表1 ma-cli支持的命令命令命令详情 configure

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
Lite Server资源使用 - AI开发平台ModelArts

Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
训练精度测试 - AI开发平台ModelArts

-0.txt 执行下游评估为增加精度评测的稳定性及进一步确保训练精度，使用多个数据集【MMLU、CEVAL】评测，执行过程如下：获取到训练权重后使用ascendfactory-cli、eval接口用mmlu、ceval数据集对训练后的结果进行评测 test-benchmark目录目录下执行命令

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练benchmark工具
分布式模型训练 - AI开发平台ModelArts

分布式模型训练分布式训练功能介绍创建单机多卡的分布式训练（DataParallel）创建多机多卡的分布式训练（DistributedDataParallel）示例：创建DDP分布式训练（PyTorch+GPU）示例：创建DDP分布式训练（PyTorch+NPU）父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
MoXing - AI开发平台ModelArts
MoXing - AI开发平台ModelArts

MoXing 使用MoXing复制数据报错如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？训练作业使用MoXing复制数据较慢，重复打印日志

 帮助中心 > AI开发平台ModelArts > 故障排除
获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

Array of DataVolumesRes objects 数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。表3 DataVolumesRes 参数参数类型描述 category String 存储类型。可选值为OBS。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
计费FAQ - AI开发平台ModelArts
计费FAQ - AI开发平台ModelArts

计费FAQ 如何查看ModelArts中正在收费的作业？如何查看ModelArts消费详情？如果不再使用ModelArts，如何停止收费？为什么项目删除完了，仍然还在计费？欠费后，ModelArts的资源是否会被删除？ ModelArts Standard数据管理相关计费FAQ

帮助中心 > AI开发平台ModelArts > 计费说明
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
创建团队标注任务 - AI开发平台ModelArts

描述 auto_sync_dataset 否 Boolean 团队标注任务的标注结果是否自动同步至数据集。可选值如下： true：团队标注任务的标注结果自动同步至数据集（默认值） false：团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
执行训练任务 - AI开发平台ModelArts

必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
创建工作流定时调度 - AI开发平台ModelArts

WorkflowSchedulePolicies 参数是否必选参数类型描述 on_failure 否 String 定时调度策略中的标记，失败时触发。 on_running 否 String 定时调度策略中的标记，running时触发。响应参数状态码：201 表4 响应Body参数参数参数类型描述 type

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
查询训练作业标签 - AI开发平台ModelArts

of TmsTag objects TMS的标签结构体。表3 TmsTag 参数参数类型描述 key String TMS标签的key。长度不能超过128个字符，首尾不能有空格，不能以_sys_开头。 value String TMS标签的value。长度不能超过255个字符。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
删除训练作业标签 - AI开发平台ModelArts

TmsTagForDelete objects 要删除的标签列表。表3 TmsTagForDelete 参数是否必选参数类型描述 key 是 String TMS标签的key。 value 否 String TMS标签的value，非必填。响应参数无请求示例 DELETE

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 2298

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster使用前必读 - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

通过Function Calling扩展大语言模型交互能力 - AI开发平台ModelArts

删除训练作业版本 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

ModelArts CLI命令功能介绍 - AI开发平台ModelArts

Lite Server资源使用 - AI开发平台ModelArts

训练精度测试 - AI开发平台ModelArts

分布式模型训练 - AI开发平台ModelArts

MoXing - AI开发平台ModelArts

获取动态挂载OBS实例信息列表 - AI开发平台ModelArts

计费FAQ - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

执行训练任务 - AI开发平台ModelArts

创建工作流定时调度 - AI开发平台ModelArts

查询训练作业标签 - AI开发平台ModelArts

删除训练作业标签 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线