搜索_华为云

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决？ - AI开发平台ModelArts

问题现象或原因分析可能为/home/ma-user/work磁盘空间不足。解决方法删除/home/ma-user/work路径下无用文件。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
数据集图片无法显示，如何解决？ - AI开发平台ModelArts

可能由于没有OBS桶的访问权限导致，请检查数据集输入位置所在的OBS桶，是否具有访问权限。可能是OBS桶加密或者OBS文件加密导致。可能跟OBS桶的存储类别有关，并行文件系统不支持图像处理，所以无法展示缩略图。解决方案以Chrome浏览器为例，“F12”打开浏览器Console，锁定该图片，获取图片链接并复制。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。注意：训练作业的资源池以及ECS都需要联通外网，否则会安装和下载失败。 ECS获取和上传基础镜像创建ECS。下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
训练的数据集预处理说明 - AI开发平台ModelArts

放路径，与HF权重存放在一个文件夹下。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

} Step3 创建OBS桶并上传文件将上一步中的数据和代码文件、推理代码文件与推理配置文件，从本地上传到OBS桶中。在ModelArts上运行训练作业时，需要从OBS桶中读取数据和代码文件。登录OBS管理控制台，按照如下示例创建OBS桶和文件夹。 {OBS桶}

帮助中心 > AI开发平台ModelArts > 快速入门
自动学习为什么训练失败？ - AI开发平台ModelArts

是，建议您参考华为云账户充值，为您的账号充值。否，执行2。检查存储图片数据的OBS路径。是否满足如下要求：此OBS目录下未存放其他文件夹。文件名称中无特殊字符，如~`@#$%^&*{}[]:;+=<>/ 如果OBS路径符合要求，请您按照服务具体情况执行3。自动学习项目不同导致的失败原因可能不同。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

04-x86_64" } 步骤三：创建OBS桶并上传文件将上一步中的数据和代码文件、推理代码文件与推理配置文件，从本地上传到OBS桶中。在ModelArts上运行训练作业时，需要从OBS桶中读取数据和代码文件。登录OBS管理控制台，按照如下示例创建OBS桶和文件夹。创建的OBS桶所在区域和后续

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
训练的数据集预处理说明 - AI开发平台ModelArts

放路径，与HF权重存放在一个文件夹下。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
预置算法运行故障 - AI开发平台ModelArts

预置算法运行故障日志提示“label_map.pbtxt cannot be found” 日志提示“root: XXX valid number is 0” 日志提示“ValueError: label_map not match” 日志提示“Please set the train_url

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
SFT微调数据处理 - AI开发平台ModelArts

SFT微调数据处理 SFT微调（Supervised Fine-Tuning）前需要对数据集进行预处理，转化为.bin和.idx格式文件，以满足训练要求。这里以Qwen-14B为例，对于Qwen-7B和Qwen-72B，操作过程与Qwen-14B相同，只需修改对应参数即可。下载数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
数据管理（旧版） - AI开发平台ModelArts

数据管理（旧版）查询数据集列表创建数据集查询数据集详情更新数据集删除数据集查询数据集的统计信息查询数据集监控数据查询数据集的版本列表创建数据集标注版本查询数据集版本详情删除数据集标注版本查询样本列表批量添加样本批量删除样本查询单个样本信息获取样本搜索条件

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API
SFT全参微调权重转换 - AI开发平台ModelArts

本章节主要介绍如何将HuggingFace权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练 HuggingFace权重转换操作下载Llama2-70B的预训练权重和词表文件，并上传到/home/ma-user/ws/tokenizers/L

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
预训练任务 - AI开发平台ModelArts

执行训练启动命令后，等待模型载入，当出现“training”关键字时，表示开始训练。训练过程中，训练日志会在最后的Rank节点打印。图1 等待模型载入更多查看训练日志和性能操作，请参考查看日志和性能章节。如果需要使用断点续训练能力，请参考断点续训练章节修改训练脚本。父主题：预训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
SFT全参微调权重转换 - AI开发平台ModelArts

本章节主要介绍如何将HuggingFace权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练。 HuggingFace权重转换操作下载GLM3-6B的预训练权重和词表文件，并上传到/home/ma-user/ws/tokenizers/GL

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
提交训练作业报错“Invalid OBS path” - AI开发平台ModelArts

权配置，推荐使用委托授权的方式。完成访问授权配置后，再次提交作业即可。请排查所填写的Data Path in OBS是否存在，文件夹下是否有数据文件，如果没有，需要在OBS创建目录并上传训练数据到该目录。父主题： PyCharm Toolkit使用

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
SFT全参微调权重转换 - AI开发平台ModelArts

权重转换为Megatron格式。此处的HuggingFace权重文件和转换操作结果同时适用于SFT全参微调和LoRA微调训练。 HuggingFace权重转换操作下载baichuan2-13b的预训练权重和词表文件，并上传到/home/ma-user/ws/tokenizers

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调
SFT微调训练任务 - AI开发平台ModelArts

erted_weights 必填。加载的权重文件路径。SFT微调权重转换章节中将HuggingFace格式转化为Megatron格式的权重文件。 WORK_DIR /home/ma-user/ws 非必填。容器的工作目录，训练的权重文件保存在此路径下。默认值为：/home/ma-user/ws。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
SFT全参微调任务 - AI开发平台ModelArts

_ma_input/GLM3-6B/converted_weights 必填。加载的权重文件路径。SFT全参微调权重转换章节中将HuggingFace格式转化为Megatron格式的权重文件。 MODEL_TYPE 6B 必填。模型加载类型。 TRAIN_ITERS 200 非必填。训练迭代周期。根据实际需要修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT全参微调训练
训练的数据集预处理说明 - AI开发平台ModelArts

放路径，与HF权重存放在一个文件夹下。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
GPU相关问题 - AI开发平台ModelArts

GPU相关问题日志提示"No CUDA-capable device is detected" 日志提示“RuntimeError: connect() timed out” 日志提示“cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业

总条数： 1257

上一页
1
...
28
29
30
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决？ - AI开发平台ModelArts

数据集图片无法显示，如何解决？ - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

自动学习为什么训练失败？ - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

预置算法运行故障 - AI开发平台ModelArts

SFT微调数据处理 - AI开发平台ModelArts

数据管理（旧版） - AI开发平台ModelArts

SFT全参微调权重转换 - AI开发平台ModelArts

预训练任务 - AI开发平台ModelArts

SFT全参微调权重转换 - AI开发平台ModelArts

提交训练作业报错“Invalid OBS path” - AI开发平台ModelArts

SFT全参微调权重转换 - AI开发平台ModelArts

SFT微调训练任务 - AI开发平台ModelArts

SFT全参微调任务 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

GPU相关问题 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线