搜索_华为云

查询数据集导入任务列表 - AI开发平台ModelArts

cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

下载数据在AI Gallery中，您可以下载满足业务需要的数据集。前提条件注册并登录华为云，且创建好OBS桶用于存储数据。下载数据集登录“AI Gallery”。选择“资产集市 > 数据集”，进入数据页面，该页面展示了所有共享的数据集。搜索业务所需的数据集，请参见查找和收藏资产。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
查询数据集同步任务的状态 - AI开发平台ModelArts

查询数据集同步任务的状态功能介绍查询数据集同步任务的状态。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datase

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
SFT微调数据处理 - AI开发平台ModelArts

SFT微调和LoRA微调训练使用的是同一个数据集，数据处理一次即可，训练时可以共用。数据预处理说明使用数据预处理脚本preprocess_data.py脚本重新生成.bin和.idx格式的SFT全参微调数据。preprocess_data.py存放在llm_train/As

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > SFT微调训练
预训练数据处理 - AI开发平台ModelArts

ment.idx文件。图1 处理后的数据自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例： #1.将准备好的json格式数据集存放于/home/ma-user/w

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
训练的数据集预处理说明 - AI开发平台ModelArts

ta.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

ta.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
标注数据如何导出 - AI开发平台ModelArts

标注数据如何导出只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。 “物体检测”只支持导出Pascal VOC格式的XML标注文件。 “图像分割”只支持导出Pascal VOC格式的XML标注文件以及Mask图像。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
预训练数据处理 - AI开发平台ModelArts

ment.idx文件。图1 处理后的数据自定义数据如果是用户自己准备的数据集，可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。 #示例 #1.将准备好的json格式数据集存放于/home/ma-user/ws

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 预训练
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备AscendSpeed训练代码、分词器Tokenizer和推理代码。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备镜像准备训练模型适用的容器镜像。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、训练任务、性能查看。微调训练 SFT全参微调

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Turbo的数据存储方案，不适用于仅使用OBS的存储方案。通过OBS对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现数据灵活管理、高性能读取数据等。通过OBS上传训练所需的模型文件、训练数据等，再将OBS中的数据文件导入到SFS

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
查询数据集列表 - AI开发平台ModelArts

Schema列表。 status Integer 数据集状态。当前可选值： 0：数据集创建中 1：数据集正常 2：数据集删除中 3：数据集已删除 4：数据集异常 5：数据集同步中 6：数据集发布中 7：数据集版本切换中 8：数据集导入中 third_path String 第三方路径。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
从OBS导入数据到ModelArts数据集 - AI开发平台ModelArts

从OBS导入数据到ModelArts数据集从OBS导入数据到数据集场景介绍从OBS目录导入数据到数据集从Manifest文件导入数据到数据集从OBS目录导入数据规范说明从Manifest文件导入规范说明父主题：导入数据到ModelArts数据集

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
数据集版本管理 - AI开发平台ModelArts

数据集版本管理查询数据集版本列表创建数据集版本查询数据集版本详情删除数据集版本父主题：数据管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理
创建ModelArts数据校验任务 - AI开发平台ModelArts

创建ModelArts数据校验任务前提条件数据已准备完成：已经创建数据集或者已经将数据上传至OBS。确保您使用的OBS与ModelArts在同一区域。创建数据处理任务登录ModelArts管理控制台，在左侧的导航栏中选择“资产管理>数据处理”，进入“数据处理”页面。在“数据处理”页

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）
训练的数据集预处理说明 - AI开发平台ModelArts

a.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明

总条数： 2334

上一页
1
...
5
6
7
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查询数据集导入任务列表 - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

查询数据集同步任务的状态 - AI开发平台ModelArts

SFT微调数据处理 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

标注数据如何导出 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

预训练数据处理 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

从OBS导入数据到ModelArts数据集 - AI开发平台ModelArts

数据集版本管理 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线