搜索_华为云

Standard数据管理 - AI开发平台ModelArts

数据集版本管理找不到新建的版本如何查看数据集大小如何查看新版数据集的标注详情标注数据如何导出找不到新创建的数据集数据集配额不正确数据集如何切分如何删除数据集图片从AI Gallery下载到桶里的数据集，再在ModelArts里创建数据集，显示样本数为0

帮助中心 > AI开发平台ModelArts > 常见问题
数据准备与处理 - AI开发平台ModelArts

数据准备与处理数据准备使用流程创建ModelArts数据集导入数据到ModelArts数据集处理ModelArts数据集中的数据标注ModelArts数据集中的数据发布ModelArts数据集中的数据版本分析ModelArts数据集中的数据特征导出ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
训练数据集预处理说明 - AI开发平台ModelArts

训练数据集预处理说明以 llama2-13b 举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。若未进行数据集预处理，则会自动执行 scripts/llam

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

a.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

创建项目的时候，数据集输入位置没有可选数据可能原因创建的OBS桶与创建项目不在同一个区域。账号没有配置全局授权。 OBS桶里的数据格式不符合要求。解决方法查看ModelArts创建的项目与创建的OBS桶是否在同一区域。查看创建的OBS桶所在区域。登录OBS管理控制台。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 创建项目
复制数据卡死 - AI开发平台ModelArts

复制数据卡死问题现象调用mox.file.copy_parallel拷贝数据时卡死。解决方案拷贝文件和文件夹均可采用： import moxing as mox mox.file.set_auth(is_secure=False) 拷贝单个大文件5G以上时可采用： from

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
创建数据集 - AI开发平台ModelArts

"dataset-image" # 数据集名称 data_type = "IMAGE" # 数据集类型，图像类型数据集 data_sources = dict() # 数据集数据来源 data_sources["type"] = 0 # 数据来源类型，0表示OBS

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 ModelArts在数据准备过程中，针对同一数据源的数据，对不同时间处理或标注后的数据，按照版本进行区分方便后续模型构建和开发时选择对应的数据集版本进行使用。关于数据集版本针对刚创建的数据集（未发布前），无数据集版本信息，必须执行发布操作后，才能应用于模型开发或训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
查询数据集导入任务的详情 - AI开发平台ModelArts

cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
数据标注 - AI开发平台ModelArts
数据标注 - AI开发平台ModelArts

数据标注物体检测图片标注，一张图片是否可以添加多个标签？在物体检测作业中上传已标注图片后，为什么部分图片显示未标注？父主题： Standard自动学习

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

a.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

a.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：alpaca_gpt4_data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的数据集预处理说明 - AI开发平台ModelArts

ta.sh 。预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Cluster上的训练方案。训练框架使用的是ModelLink。本方案目前仅适用于企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909）
旧版数据集中的数据是否会被清理？ - AI开发平台ModelArts

旧版数据集中的数据是否会被清理？旧版数据集中创建的数据不会被清理，旧版数据集中会自动关联一个数据标注任务。但是在新版数据集中创建的数据，在旧版的数据集列表不会展示。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。数据特征分析的数据范围，不同类型的数据集，选取范围不同：对于标注任务类型为“物体检测”的数据集版本，当已标注样本数为0时，发布版本后，数据特征页签版本置灰不可选，无法显示数据特征。否则，显示已标注的图片的数据特征。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

存在待发布的数据集。发布数据集进入AI Gallery首页，选择“资产集市 > 数据集”，进入数据页面。单击“发布”弹出“选择云服务区域”，选择区域后单击“确定”进入发布数据集页面，填写相关信息。如果选择ModelArts已有的数据集发布，则参见表1配置数据集信息。图1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
更新数据集 - AI开发平台ModelArts

更新数据集更新数据集的名称和描述信息。 dataset.update_dataset(dataset_name=None, description=None) 示例代码更新数据集名称 from modelarts.session import Session from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理

总条数： 2334

上一页
1
...
4
5
6
...
117
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Standard数据管理 - AI开发平台ModelArts

数据准备与处理 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

创建项目的时候，数据集输入位置没有可选数据 - AI开发平台ModelArts

复制数据卡死 - AI开发平台ModelArts

创建数据集 - AI开发平台ModelArts

发布ModelArts数据集中的数据版本 - AI开发平台ModelArts

查询数据集导入任务的详情 - AI开发平台ModelArts

数据标注 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

旧版数据集中的数据是否会被清理？ - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

更新数据集 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线