搜索_华为云

数据处理场景介绍 - AI开发平台ModelArts

则的数据选择可以进一步提升旧模型精度。数据增强：数据扩增通过简单的数据扩增例如缩放、裁剪、变换、合成等操作直接或间接的方式增加数据量。数据生成应用相关深度学习模型，通过对原数据集进行学习，训练生成新的数据集的方式增加数据量。数据域迁移应用相关深度学习模型，通过对原域和目标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？当数据集存在较多数据文件（即海量小文件），数据存储在OBS中，训练过程需反复从OBS中读取文件，导致训练过程一直在等待文件读取，效率低。解决方法建议将海量小文件，在本地压缩打包。例如打包成.zip格式。将此压缩后的文件上传至OBS。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 训练过程读取数据
指令监督微调训练任务 - AI开发平台ModelArts

指令监督微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件、自定义数据集，可以忽略此步骤。未上传训练权重文件，具体参考上传代码和权重文件到工作环境。使用自定义数据集训练未上传自定义数据集。具体参考上传自定义数据到指定目录章节并更新dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907）
NFS服务安装与配置 - AI开发平台ModelArts

NFS服务是ModelArts边缘资源池提供的数据存储卷服务，创建部署时可通过NFS挂载的方式访问共享数据，比如obs的模型文件。涉及以下场景时，必须为资源池配置NFS服务：创建AI应用时，元模型来源选择“从对象存储服务（OBS）中选择”，且AI引擎选择“Custom”。创建部署时，数据存储使用NFS类型的存储卷。

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 部署AI应用（部署上线） > 部署AI应用（边缘服务）
Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

被调度到相同的机器上。由于训练数据对于ps没有用，因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”，实际下载的数据会翻倍。例如只下载了2.5TB的数据，程序就显示空间不够而失败，因为/cache只有4TB的可用空间。处理方法在使用Tensor

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
删除数据集版本 - AI开发平台ModelArts

删除数据集版本删除数据集的指定版本。 dataset.delete_version(version_id) 示例代码删除数据集指定版本 from modelarts.session import Session from modelarts.dataset import Dataset

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理
查询数据集版本详情 - AI开发平台ModelArts

查询数据集版本详情根据版本ID查询数据集指定版本的详细信息。 dataset.get_version_info(version_id) 示例代码查询数据集指定版本的详细信息 from modelarts.session import Session from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集版本管理
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。随后可通过以下两种方式，将下载到本地的模型文件上传至SFS Turbo中。本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单，但是数据传输速度比较慢，费时间。方式二操作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
如何查看数据集大小 - AI开发平台ModelArts

如何查看数据集大小数据管理目前只统计数据集的样本数量，无法查看数据集大小。父主题： Standard数据管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
配置Grafana数据源 - AI开发平台ModelArts

配置Grafana数据源在Grafana配置数据源后，即可通过Grafana查看ModelArts的监控数据。前提条件已安装Grafana。配置Grafana数据源获取Grafana数据源配置代码。进入AOM管理控制台。图1 AOM管理控制台在左侧导航栏中选择“Prometheus监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
人工标注视频数据 - AI开发平台ModelArts

栏中选择“数据管理> 数据标注”，进入“数据标注”管理页面。在标注作业列表右侧“所有类型”页签下拉选择标注类型，基于“标注类型”选择需要进行标注的标注作业，单击标注作业名称进入标注作业标注详情页。图1 下拉选择标注类型在标注作业标注详情中，展示此标注作业下全部数据。标注视频

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone 会下载历史版本占用磁盘空间。在创建OBS桶创建的桶下创建文件夹用以存放权重和词表文件，例如在桶standard-llama2-13b中创建文件夹llama2-13B-chat-hf。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
启动/停止/删除实例 - AI开发平台ModelArts

“开发空间>Notebook”，进入Notebook页面。在Notebook列表中，单击操作列的“删除”，在弹出的确认对话框中，确认信息无误，然后输入“DELETE”，单击“确定”，完成删除操作。 Notebook删除后不可恢复，请谨慎操作。实例删除后，挂载目录下的数据也将一并删除，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
创建数据集标注版本 - AI开发平台ModelArts

remove_sample_usage 否 Boolean 发布时是否清除数据集已有的usage信息。可选值如下： true：发布时清除数据集已有的usage信息（默认值） false：发布时不清除数据集已有的usage信息 train_evaluate_sample_ratio

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
如何上传数据至OBS？ - AI开发平台ModelArts

建议根据业务情况及使用习惯，选择OBS使用方法。如果您的数据量较小（小于100MB）或数据文件少（少于100个），建议您使用控制台上传数据。控制台上传无需工具下载或多余配置，在少量数据上传时，更加便捷高效。如果您的数据量较大或数据文件较多，建议选择OBS Browser+或obsutil工具上传。OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
LoRA微调训练 - AI开发平台ModelArts

Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。如果想详细

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905）
查询数据集版本详情 - AI开发平台ModelArts

发布时是否需要解析子样本序号，用于医疗数据集。可选值如下： true：解析子样本序号 false：不解析子样本序号（默认值） include_dataset_data Boolean 发布时是否包含数据集源数据。可选值如下： true：包含数据集源数据 false：不包含数据集源数据 is_current

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 1265

上一页
1
...
8
9
10
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

数据处理场景介绍 - AI开发平台ModelArts

大量数据文件，训练过程中读取数据效率低？ - AI开发平台ModelArts

指令监督微调训练任务 - AI开发平台ModelArts

NFS服务安装与配置 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left - AI开发平台ModelArts

删除数据集版本 - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

如何查看数据集大小 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

创建数据集标注版本 - AI开发平台ModelArts

如何上传数据至OBS？ - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线