搜索_华为云

训练tokenizer文件说明 - AI开发平台ModelArts

训练tokenizer文件说明在训练开始前，需要针对模型的tokenizer文件进行修改，不同模型的tokenizer文件修改内容如下，您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前，针对ChatGLMv3-6B模型中的tokenizer文件，需要修

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

timed out”提示，不显示详细的构建日志。处理方法预先准备需要编译下载的依赖包，减少依赖包下载和编译的时间。可通过线下wheel包方式安装运行环境依赖。线下wheel包安装，需确保wheel包与模型文件放在同一目录。优化模型代码，提高构建模型镜像的编译效率。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

导出ModelArts数据集中的数据到OBS 针对数据集中的数据，用户可以选中部分数据或者通过条件筛选出需要的数据，当需要将数据集中的数据存储至OBS用于后续导出使用时，可通过此种方式导出成新的数据集。用户可以通过任务历史查看数据导出的历史记录。目前只有“图像分类”、“物体检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导出ModelArts数据集中的数据
标注声音分类数据 - AI开发平台ModelArts

在数据标注页面，单击右侧的“标签管理”，在标签管理页，显示全部标签的信息。修改标签：单击操作列的“修改”按钮，在弹出的对话框中输入修改后的标签名、选择修改后的快捷键，然后单击“确定”完成修改。修改后，之前添加了此标签的音频，都将被标注为新的标签名称。删除标签：单击操作列的“删除”按钮，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时，需配置训练作业节点间SSH免密互信，否则训练会失败。配置节点间SSH免密互信涉及代码适配和训练作业参数配置，本文提供了一个操作示例。准备一个预装OpenSSH的自定义镜像，使用的训练框架是MPI或Horovod。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
系统容器异常退出 - AI开发平台ModelArts

系统容器异常退出问题现象在训练创建后出现“系统容器异常退出”的故障。 [ModelArts Service Log]2022-10-11 19:18:23,267 - file_io.py[1ine:748] - ERROR: stat:404 errorCode:NoSuchKey

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
创建Workflow数据集节点 - AI开发平台ModelArts

MA_IMAGE_CLASSIFICATION_V1 MA_IMAGENET_V1 MA_PASCAL_VOC_V1 YOLO MA_IMAGE_SEGMENTATION_V1 MA_TEXT_CLASSIFICATION_COMBINE_V1 MA_TEXT_CLASSIFICATION_V1 MA_AUDIO

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
创建训练任务 - AI开发平台ModelArts

资源池：在“专属资源池”页签选择GPU规格的专属资源池。规格：选择8卡GPU规格。计算节点：1。 SFS Turbo：增加挂载配置，选择SFS名称，云上挂载路径为“/home/ma-user/work”。为了和Notebook调试时代码路径一致，保持相同的启动命令，因此云上挂载路径需要

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
数据标注场景介绍 - AI开发平台ModelArts

团队标注功能当前仅支持“图像分类”、“物体检测”、“文本分类”、“命名实体”、“文本三元组”、“语音分割”类型的数据集。不同类型数据集支持的功能列表其中，不同类型的数据集，支持不同的功能，详细信息请参见表1。表1 不同类型数据集支持的功能数据集类型标注类型人工标注智能标注团队标注图片图像分类支持

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 准备工作
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 准备工作
Standard Workflow - AI开发平台ModelArts

Workflow是开发者基于实际业务场景开发用于部署模型或应用的流水线工具，核心是将完整的机器学习任务拆分为多步骤工作流，每个步骤都是一个可管理的组件，可以单独开发、优化、配置和自动化。Workflow有助于标准化机器学习模型生成流程，使团队能够大规模执行AI任务，并提高模型生成的效率。 ModelArts W

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

BS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。训练时，可直接从OBS下载此压缩文件至/cache目录。此操作仅需执行一次，无需训练过程反复与OBS交互导致训练效率低。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
AI开发基本流程介绍 - AI开发平台ModelArts

、物体检测等等。不同的项目对数据的要求，使用的AI开发手段也是不一样的。准备数据数据准备主要是指收集和预处理数据的过程。按照确定的分析目的，有目的性的收集、整合相关数据，数据准备是AI开发的一个基础。此时最重要的是保证获取数据的真实可靠性。而事实上，不能一次性将所有数据都采

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

准备数据本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集本教程使用Alpaca数据集，数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 准备工作
Standard数据管理 - AI开发平台ModelArts

Standard数据管理 ModelArts Standard数据管理提供了一套高效便捷的管理和标注数据框架。支持图片、文本、语音、视频等多种数据类型，涵盖图像分类、目标检测、音频分割、文本分类等多个标注场景，适用于计算机视觉、自然语言处理、音视频分析等AI项目场景。 ModelArts

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
配置Lite Cluster存储 - AI开发平台ModelArts

如果没有挂载任何外部存储，此时可用存储空间根据dockerBaseSize的配置来决定，可访问的存储空间比较小，因此建议通过挂载外部存储空间解决存储空间受限问题。容器中挂载存储有多种方式，不同的场景下推荐的存储方式不一样，详情如表1所示。容器存储的基础知识了解请参见存储基础知识，有助您理解本章节内容

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。训练前需要修改数据集路径、模型路径。数据集路径格式为/datasets/pokemon-dataset/image_0

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

Boxes 横坐标：目标框的面积占比，即目标框的面积占整个图片面积的比例，越大表示物体在图片中的占比越大。纵坐标：框数量（统计所有图片中的框）。主要判断模型中使用的anchor的分布，如果目标框普遍较大，anchor就可以选择较大。按边缘化程度统计框数量的分布 Marginalization

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
配置Workflow参数 - AI开发平台ModelArts

参数相关的配置使用Placeholder对象来表示，以占位符的形式实现用户数据运行时配置的能力，当前支持的数据类型包括：int、str、bool、float、Enum、dict、list。开发者可根据场景需要，将节点中的相关字段（如算法超参）通过Placeholder的形式透出，支持设置默认值，供用户修改配置使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考

总条数： 1747

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练tokenizer文件说明 - AI开发平台ModelArts

创建模型失败，提示模型镜像构建任务超时，没有构建日志 - AI开发平台ModelArts

导出ModelArts数据集中的数据到OBS - AI开发平台ModelArts

标注声音分类数据 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

系统容器异常退出 - AI开发平台ModelArts

创建Workflow数据集节点 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

数据标注场景介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

Standard Workflow - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

Standard数据管理 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线