搜索_华为云

服务预测失败 - AI开发平台ModelArts

模型进行预测。经典案例：在线服务预测报错MR.0105 出现其他情况，优先检查客户端和外部网络是否有问题。以上方法均未解决问题，请联系系统管理员。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

env | grep RANK 在训练作业中，您可以在训练启动脚本的首行加入如下代码，把RANK_TABLE_FILE的值打印出来： 1 os.system('env | grep RANK') 父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

针对不同的数据量和算法情况，推荐以下训练方案：单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
使用CodeLab免费体验Notebook - AI开发平台ModelArts

就可以使用昇腾卡进行训练，也支持切换规格。自启动后，免费规格默认可使用1小时，请注意右上角的剩余时长。超过1小时后，可执行续期操作，且系统每隔一段时间，将提醒确认下续期。免费的CodeLab主要用于体验，72小时内未使用，将释放资源。保存在其中的代码文档将丢失，请注意备份文件以及使用时长。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
查询运行中的Notebook可用时长 - AI开发平台ModelArts

实例创建的时间，UTC毫秒。 duration Long 实例运行时长，以创建时间为起点计算，即“创建时间+duration > 当前时刻”时，系统会自动停止实例。 enable Boolean 是否启用自动停止功能。 type String 自动停止类别。 timing：自动停止。 idle：空闲停止。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
配置Workflow的输入输出目录 - AI开发平台ModelArts

join("directory_path")) # 注意，只能创建目录，不能创建文件。工作流运行时，如果storage对象配置的根路径为"/root/"，则系统自动创建相对目录，最后得到的路径为"/root/执行ID/directory_path" 进阶用法 Storage 该对象是InputSt

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
推理专属预置镜像列表 - AI开发平台ModelArts

04-x86_64-20221121111529-d65d817 镜像构建时间：20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10.1.243 cudnn：7.6.5.32 Python解释器路径及版本：/ho

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
自定义镜像使用场景 - AI开发平台ModelArts

提供合适的软件、操作系统、网络等配置策略，通过在硬件上的充分测试，确保其兼容性和性能最合适。方便自定义，预置镜像已经在SWR仓库中，通过对预置镜像的扩展完成自定义镜像注册。安全可信，基于安全加固最佳实践，访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式，确保镜像使用的安全性。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

共需要采集6类日志：用户训练打屏日志，主机侧操作系统日志（Host日志）， Device侧日志，CANN日志，主机侧资源信息，NPU网口资源信息。用户训练打屏日志：指在训练过程中，通过设置环境变量将日志信息输出到标准输出（屏幕）的日志。机侧操作系统日志（Host日志）：指在训练作业运

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
Standard支持的AI框架 - AI开发平台ModelArts

<训练引擎名称_版本号>-[cpu | <cuda_版本号 | cann_版本号 >]-<py_版本号>-<操作系统名称_版本号>-< x86_64 | aarch64> 表4 训练作业支持的AI引擎工作环境系统架构系统版本 AI引擎与版本支持的cuda或Ascend版本 TensorFlow x86_64

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍

总条数： 1226

上一页
1
...
48
49
50
...
62
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务预测失败 - AI开发平台ModelArts

在ModelArts上如何获得RANK_TABLE_FILE用于分布式训练？ - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

查询运行中的Notebook可用时长 - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线