搜索_华为云

查看日志和性能 - AI开发平台ModelArts

logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

E表示作业的配置文件路径，如果不指定该参数，则表示配置文件为空。配置文件是一个YAML格式的文件，里面的参数就是命令的option参数。此外，如果用户在命令行中同时指定YAML_FILE配置文件和option参数，命令行中指定的option参数的值将会覆盖配置文件相同的值。 $ma-cli

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
身份认证与访问控制 - AI开发平台ModelArts

委托授权为了完成AI计算的各种操作，ModelArts在AI计算任务执行过程中需要访问用户的其他服务，例如训练过程中，需要访问OBS读取用户的训练数据。在这个过程中，就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发，ModelArts代表用户访问

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

描述模型简介。 - 权重设置与词表默认选择“使用推荐权重”，支持选择“自定义权重”。使用平台推荐的权重文件，可提高模型的训练、压缩、部署和调优等服务的使用效率。权重文件指的是模型的参数集合。使用推荐权重参数配置完成后，单击“创建”，创建自定义模型。在模型列表，单击模型

 帮助中心 > AI开发平台ModelArts > 快速入门
Standard资源管理 - AI开发平台ModelArts

器，您可以通过弹性公网IP进行访问，在给定的操作系统镜像上可以自行安装GPU&NPU相关的驱动和其他软件，使用SFS或OBS进行数据存储和读取相关的操作，满足算法工程师进行日常训练的需要。请参见弹性裸金属Lite Server。公共资源池：公共资源池提供公共的大规模计算集群，根

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

名称获取路径插件代码包 AscendCloud-6.3.910软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.910

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
显存溢出错误 - AI开发平台ModelArts

可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
查看日志和性能 - AI开发平台ModelArts

logs -f ${pod_name} 训练过程中，训练日志会在最后的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，可以在${SAVE_PATH}/logs路径下获取。日志存放路径为：/home/ma-user/ws/saved_dir_for_ma_

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.911）
创建开发环境实例 - AI开发平台ModelArts

String 存储类型。当前支持“obs”、“obsfs” 和“evs”，其中，obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统，请提工单。 location 否 Object 存储位置，如果type为“obs”类型，该参数必须填写，如表5所示数据结构，如缺省值为“NULL”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

单击kubectl配置时，会弹出图3步骤页面。图2 配置中心根据图3，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图3 kubectl访问集群配置在节点机器中，输入命令，查看Kubernetes集群信息。若显示如图图4的内容，则配置成功。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
我的Gallery介绍 - AI开发平台ModelArts

配额约束下可以继续使用该模型。我的资产 > 数据展示个人发布和下载的数据集列表。 “我的发布”：可以查看个人发布的数据集信息，如文件大小、文件数量等。通过右侧的“重试”或“删除”可以管理已发布的数据集。 “我的下载”：可以查看个人下载的数据集信息。单击下拉三角，可以查看数据集ID、下载方式、目标区域等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

install-sshd.ps1 添加环境变量：将“C:\Program Files\OpenSSH-xx”（路径中包含ssh可执行exe文件）添加到环境系统变量中。重新打开CMD，并执行ssh，结果如下图即说明安装成功，如果还未装成功则执行5和6。 OpenSSH默认端口为2

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

install-sshd.ps1 添加环境变量：将“C:\Program Files\OpenSSH-xx”（路径中包含ssh可执行exe文件）添加到环境系统变量中。重新打开CMD，并执行ssh，结果如下图即说明安装成功，如果还未装成功则执行5和6。 OpenSSH默认端口为2

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

单击kubectl配置时，会弹出图3步骤页面。图2 配置中心根据图3，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图3 kubectl访问集群配置在节点机器中，输入命令，查看Kubernetes集群信息。如果显示如图图4的内容，则配置成功。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作

总条数： 1282

上一页
1
...
55
56
57
...
65
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

使用ModelArts Studio的Qwen2-7B模型框架实现对话问答 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建开发环境实例 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

我的Gallery介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线