搜索_华为云

执行训练任务（推荐） - AI开发平台ModelArts

超参：dataset中则直接选中数据集文件，超参：processed_data_dir则需选中存放已处理好数据集的目录文件夹。 “输入”和“输出”中的获取方式全部选择为：超参。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置超参

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
执行训练任务（历史版本） - AI开发平台ModelArts

ATA_PATH中则直接选中数据集文件，USER_CONVERTED_CKPT_PATH则需选中存放已处理好数据集的目录文件夹。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。 Step3 配置环境变量

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

Notebook无法执行代码，如何处理？当Notebook出现无法执行时，您可以根据如下几种情况判断并处理。如果只是Cell的执行过程卡死或执行时间过长，如图1中的第2个和第3个Cell，导致第4个Cell无法执行，但整个Notebook页面还有反应，其他Cell也还可以单击

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

i.com不通过公网代理，huaweicloud.com域名在no_proxy/NO_PROXY中包含，就访问不了。解决方式执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包

 帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
构建条件节点控制分支执行 - AI开发平台ModelArts

构建条件节点控制分支执行功能介绍主要用于执行流程的条件分支选择，可以简单的进行数值比较来控制执行流程，也可以根据节点输出的metric相关信息决定后续的执行流程。主要应用场景如下：可以用于需要根据不同的输入值来决定后续执行流程的场景。例如：需要根据训练节点输出的精度信息来决

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
执行微调训练任务 - AI开发平台ModelArts

选用单机启动。进入代码目录/home/ma-user/ws/llm_train/LLaMAFactory下执行启动脚本，先修改以下命令中的参数，再复制执行。 # 单机执行命令为：sh demo.sh <MASTER_ADDR=localhost> <NNODES=1> <NODE_RANK=0>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
执行LoRA微调训练任务 - AI开发平台ModelArts

ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数，再复制执行启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
执行LoRA微调训练任务 - AI开发平台ModelArts

ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数，再复制执行启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
执行训练任务（历史版本） - AI开发平台ModelArts

执行训练任务（历史版本）步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
配置节点参数控制分支执行 - AI开发平台ModelArts

配置节点参数控制分支执行功能介绍支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过，同时可以基于此能力完成对执行流程的控制。应用场景主要用于存在多分支选择执行的复杂场景，在每次启动执行后需要根据相关配置信息决定哪些分支需要执行，哪些分支需要跳过，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
执行LoRA微调训练任务 - AI开发平台ModelArts

ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数，再复制执行启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行LoRA微调训练任务 - AI开发平台ModelArts

ain/AscendSpeed 下执行启动脚本。先修改以下命令中的参数，再复制执行启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_lora_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

定”，启动特征分析任务。图3 启动特征分析查看任务进度任务执行过程中，可以单击“任务历史”，查看任务进度。当任务状态变为“成功”时，表示任务执行完成。图4 特征分析任务进度查看特征分析结果特征分析任务执行完成后，可以在“数据特征”页签下，选择“数据集版本”、“类型”和

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
配置多分支节点数据 - AI开发平台ModelArts

配置多分支节点数据功能介绍仅用于存在多分支执行的场景，在编写构建工作流节点时，节点的数据输入来源暂不确定，可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后，才会根据实际执行情况自动获取有效输出作为输入。使用案例 from modelarts import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
执行SFT全参微调训练任务 - AI开发平台ModelArts

in/AscendSpeed 下执行启动脚本，先修改以下命令中的参数，再复制执行。启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_sft_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911）
执行SFT全参微调训练任务 - AI开发平台ModelArts

in/AscendSpeed 下执行启动脚本，先修改以下命令中的参数，再复制执行。启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_sft_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）
执行SFT全参微调训练任务 - AI开发平台ModelArts

in/AscendSpeed 下执行启动脚本，先修改以下命令中的参数，再复制执行。启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_sft_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910）
执行SFT全参微调训练任务 - AI开发平台ModelArts

in/AscendSpeed 下执行启动脚本，先修改以下命令中的参数，再复制执行。启动训练脚本可使用以下两种启动命令，二选一即可，其中区别如下：传递参数形式：将主节点IP地址、节点个数、节点RANK的参数传递至运行的脚本中执行。 # 单机执行命令为：sh scripts/llama2/0_pl_sft_13b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1865

上一页
1
2
3
4
5
...
94
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

用户执行huaweicloud.com相关API超时 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

入门案例：快速创建一个物体检测的数据集 - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

执行SFT全参微调训练任务 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线