搜索_华为云

录制Profiling - AI开发平台ModelArts

demo.sh localhost 1 0 PROF_SAVE_PATH：Profiling录制结果存放路径 PROF_ENABLE：是否开启Profiling录制功能父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
录制Profiling - AI开发平台ModelArts

demo.sh localhost 1 0 PROF_SAVE_PATH：Profiling录制结果存放路径 DO_PROFILER：是否开启Profiling录制功能父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
模型训练计费项 - AI开发平台ModelArts

按文件系统所占用的存储空间容量和使用时长收费存储空间费用=每GB费率*存储容量*使用时长事件通知（不开启则不计费）订阅消息使用消息通知服务，在事件列表中选择特定事件，在事件发生时发送消息通知。如果想使用消息通知，需要在创建训练作业时开启“事件通知”功能。具体计费可见消息通知服务价格详情。按实际用量付费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用Notebook进行代码调试 - AI开发平台ModelArts

于64位且不能为空。 “描述” 对Notebook的简要描述。 “自动停止” 默认开启，且默认值为“1小时”，表示该Notebook实例将在运行1小时之后自动停止，即1小时后停止规格资源计费。开启自动停止功能后，可选择“1小时”、“2小时”、“4小时”、“6小时”或“自定义”几

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
SFT全参微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
LoRA微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
PD分离部署使用说明 - AI开发平台ModelArts

D节点数量配比来提升Decode节点的batch size来充分发挥NPU卡的算力，进而提升集群整体吞吐。此外，在Decode平均低时延约束场景，PD分离相比PD混合部署，更加能够发挥性能优势。分离部署的实例类型启动分为以下三个阶段：步骤二：启动全量推理实例：必须为NPU实

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

只需修改代码后保存（ctrl+s），即可进行自动同步。插件安装完成后在本地IDE中开启了“Automatic Upload”，本地目录中的文件会自动上传至云端开发环境Notebook。如果未开启，请参考下图开启自动上传。图8 开启自动上传 Step7 远程调试单击本地IDE右下角interpr

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
在推理生产环境中部署推理服务 - AI开发平台ModelArts

必须开启此参数。 --served-model-name：vllm服务后台id。可在run_vllm.sh增加如下环境变量开启高阶配置： export DEFER_DECODE=1 # 是否使用推理与Token解码并行；默认值为1表示开启并行，取值为0表示关闭并行。开启该功能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
执行训练任务【旧】 - AI开发平台ModelArts

0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断点续训练是通过checkpoint机制实

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
创建训练作业 - AI开发平台ModelArts

data_sources 否 Array of DataSource objects 可视化作业或训练作业调试模式的可视化日志输入，训练作业高级功能开启"tensorboard/enable": "true"或"mindstudio-insight/enable": "true"时必填。表16

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

Cluster资源池 ModelArts弹性集群Server 事件通知（不开启则不计费）订阅消息使用消息通知服务，在事件列表中选择特定事件，在事件发生时发送消息通知。如果想使用消息通知，需要在创建训练作业时开启“事件通知”功能。具体计费可见消息通知服务价格详情。按实际用量付费

 帮助中心 > AI开发平台ModelArts > 计费说明
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行备份，保证在原数据被破坏或损坏的情况下可以恢复业务。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询训练作业列表 - AI开发平台ModelArts

task_statuses Array of TaskStatuses objects 训练在子任务状态信息。 running_records Array of RunningRecord objects 训练作业运行及故障恢复记录。表8 TaskStatuses 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

方式二：使用curl命令发送预测请求。Linux系统建议使用curl命令。方式三：使用Python语言发送预测请求。方式四：使用Java语言发送预测请求。约束限制调用API访问在线服务时，对预测请求体大小和预测时间有限制：请求体的大小不超过12MB，超过后请求会被拦截。因APIG（API网

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
查询服务详情 - AI开发平台ModelArts

件和日志标签页。 stopped：停止。 finished：只有批量服务会有这个状态，表示运行完成。 scaling Boolean 是否启用弹性伸缩。 support_debug Boolean 模型是否支持在线调试。 additional_properties Map<String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
从MRS导入数据到ModelArts数据集 - AI开发平台ModelArts

支持导入操作。请在下拉框中选择您所需的集群。文件路径：根据选择的集群，输入对应的文件路径，此文件路径为HDFS路径。导入是否包含表头：开启表示导入时将表头同时导入。父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

用户的镜像指定了PYTHONPATH、sys.path导致服务启动调用冲突的，需在实例启动后，再指定PYTHONPATH、sys.path；用户使用了已开启sudo权限的专属池，使用自定义镜像时，sudo工具未安装或安装错误；用户使用的cann、cuda环境有兼容性问题；用户的docker

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法

总条数： 676

上一页
1
...
23
24
25
...
34
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

录制Profiling - AI开发平台ModelArts

录制Profiling - AI开发平台ModelArts

模型训练计费项 - AI开发平台ModelArts

使用Notebook进行代码调试 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

执行训练任务【旧】 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

从MRS导入数据到ModelArts数据集 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线