搜索_华为云

服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

告警及时响应。 ModelArts承载关键业务的对外开放EIP部署了高防服务，以防大流量攻击。 ModelArts对存放关键数据的数据库部署了数据库安全服务。云服务防抖动和遭受攻击后的应急响应/恢复策略 ModelArts服务具备租户资源隔离能力，避免单租户资源被攻击导致爆炸半径大，影响其他租户。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

所有数据保存在auto_log/avg_step_time.txt文本中 auto_log/log/目录下存放各个shapes的数据。启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh run_lora_sdxl.sh 所有数据保存在auto

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Kohya框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
模型的自定义镜像制作流程 - AI开发平台ModelArts

理和部署为服务。制作流程场景一：预置镜像的环境软件满足要求，只需要导入模型包，就能用于创建模型，通过镜像保存功能制作。具体案例参考在Notebook中通过镜像保存功能制作自定义镜像用于推理。图1 模型的自定义镜像制作场景一场景二：预置镜像既不满足软件环境要求，同时需要

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
增量模型训练 - AI开发平台ModelArts

PyTorch模型保存有两种方式。仅保存模型参数 state_dict = model.state_dict() torch.save(state_dict, path) 保存整个Model（不推荐） torch.save(model, path) 可根据step步数、时间等周期性保存模型的训练过程的产物。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
在ModelArts中数据标注完成后，标注结果存储在哪里？ - AI开发平台ModelArts

在ModelArts中数据标注完成后，标注结果存储在哪里？ ModelArts管理控制台，提供了数据可视化能力，您可以在控制台查看详细数据以及标注信息。如需了解标注结果的存储路径，请参见如下说明。背景说明针对ModelArts中的数据集，在创建数据集时，需指定“数据集输入位置

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
LoRA微调训练 - AI开发平台ModelArts

ut/plog 保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查看Notebook实例事件 - AI开发平台ModelArts

are handling the problem）紧急表4 镜像保存过程中的事件列表事件名称事件描述事件级别 SaveImage 保存镜像成功重要 SavedImageFailed D进程引起的保存镜像失败（There are processes in 'D' status

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改，可添加并自定义该变量。 CKPT_SAVE_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改，可添加并自定义该变量。 CKPT_SAVE_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
SFT全参微调训练 - AI开发平台ModelArts

ut/plog 保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

ut/plog 保存训练过程中记录的程序堆栈信息日志 PLOG 文件。示例中，默认保存在“saved_dir_for_output/plog”文件夹下。如果用户需要修改，可添加并自定义该变量。 SAVE_INTERVAL 10 表示训练间隔多少step，则会保存一次权重文件。 CONVERT_MG2HF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
查看训练作业资源占用情况 - AI开发平台ModelArts

Library（DALI）等工具提高数据增强的速度。模型保存不要太频繁：模型保存操作一般会阻塞训练，如果模型较大，并且较频繁地进行保存，就会影响GPU/NPU利用率。同理，其他非GPU/NPU操作尽量不要阻塞训练主进程太多的时间，如日志打印，保存训练指标信息等。父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
SFT全参微调训练 - AI开发平台ModelArts

/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改，可添加并自定义该变量。 CKPT_SAVE_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。如果用户需要修改，可添加并自定义该变量。 CKPT_SAVE_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/home/ma-user/work/llm_train/saved_dir_for_output/ 该路径下统一保存生成的 CKPT、PLOG、LOG 文件。示例中，默认统一保存在“saved_dir_for_output”文件夹下。若用户需要修改，可添加并自定义该变量。 CKPT_SAVE_PATH

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）

总条数： 1014

上一页
1
2
3
4
5
...
51
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务韧性 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

模型的自定义镜像制作流程 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

在ModelArts中数据标注完成后，标注结果存储在哪里？ - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线