检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表1 创建数据集 参数名称 说明 英文名称 必填项,数据集的英文名称。 如果没有填写“中文名称”,则资产发布后,在数据集页签上会显示该“英文名称”。 中文名称 数据集的中文名称。 如果填写了“中文名称”,则资产发布后,在数据集页签上会显示该“中文名称”。 许可证 数据集资产遵循的
调优数据集异常日志说明 调优任务创建后,状态显示为“运行失败”,报错“Modelarts.6001:Unknown error, please contact the operation and maintenance personnel or check the log to locate
注以及数据采集筛选过程中,将自动标注出难例,建议对难例数据进一步确认标注,然后将其加入训练数据集中,使用此数据集训练模型,可得到精度更高的模型。首先,针对智能标注和采集筛选任务,难例的发现操作是系统自动执行的,无需人工介入,仅需针对标注后的数据进行确认和修改即可,提升数据管理和标
项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 图片标注 在新版自动学习页面单击“实例详情”按钮,前往数据标注页面。单击任意一张图片,进入图片标注界面。
配置多分支节点数据 功能介绍 仅用于存在多分支执行的场景,在编写构建工作流节点时,节点的数据输入来源暂不确定,可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后,才会根据实际执行情况自动获取有效输出作为输入。 使用案例 from modelarts import
ModelArts Standard数据管理相关计费FAQ ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。 建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。
目前只能指定切分比例,随机将样本划分到训练集或者验证集,不支持指定。 切分比例的指定: 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在
发布时是否需要解析子样本序号,用于医疗数据集。可选值如下: true:解析子样本序号 false:不解析子样本序号(默认值) include_dataset_data Boolean 发布时是否包含数据集源数据。可选值如下: true:包含数据集源数据 false:不包含数据集源数据 is_current
MA_AUDIO_CLASSIFICATION_DIR_V1 使用案例 主要包含两种场景的用例。 基于未标注数据创建数据集 基于已标注的数据创建数据集,并自动导入标注信息 基于未标注数据创建数据集 数据准备:存储在OBS文件夹中的未标注的数据。 from modelarts import workflow as wf
ECS服务器挂载SFS Turbo存储 本小节介绍如何在ECS服务器挂载SFS Turbo存储,挂载完成后可在后续步骤中,将训练所需的数据通过ECS上传至SFS Turbo。 前提条件 已创建SFS Turbo,如果未创建,请参考创建文件系统。 数据及算法已经上传至OBS,如果未
String 导出数据集版本的格式。 export_dataset_version_name String 导出数据集版本的名称。 export_dest String 数据集导出类型。可选值如下: DIR:导出到OBS(默认值) NEW_DATASET:导出到新数据集 export_new_dataset_name
如何将本地标注的数据导入ModelArts? ModelArts支持通过导入数据集的操作,导入更多数据。本地标注的数据,当前支持从OBS目录导入或从Manifest文件导入两种方式。导入之后您还可以在ModelArts数据管理模块中对数据进行重新标注或修改标注情况。 从OBS目录
a.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。
a.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。
ta.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:moss-003-sft-data)。
如何删除ModelArts数据集中的图片? 登录ModelArts管理控制台,左侧菜单栏选择“数据管理>数据标注”,进入数据标注列表,单击需要删除图片的数据集,进入标注详情页。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者“选择当前页”选中该页面所有图片
a.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。
上传镜像,参考单机单卡训练的上传镜像章节操作。 操作步骤 登录Imagenet数据集下载官网地址,下载Imagenet21k数据集:http://image-net.org/ 下载格式转换后的annotation文件:ILSVRC2021winner21k_whole_map_train.txt和ILSVRC2
创建Workflow数据集导入节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的数据导入功能。数据集导入节点主要用于将指定路径下的数据导入到数据集或者标注任务中,主要应用场景如下: 适用于数据不断迭代的场景,可以将一些新增的原始数据或者已标注数据导入到标注任务中,并通过后续的数据集标注节点进行标注。