检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。
数据集版本管理 查询数据集版本列表 创建数据集版本 查询数据集版本详情 删除数据集版本 父主题: 数据管理
策略。 检查OBS桶是否具备权限。 下方步骤描述中所指的OBS桶,指创建自动学习项目时,指定的OBS桶,或者是创建项目时选择的数据集,其数据存储所在的OBS桶。 检查当前账号具备OBS桶的读写权限(桶ACLs) 进入OBS管理控制台,选择当前自动学习项目使用的OBS桶,单击桶名称进入概览页。
ModelArts Standard数据管理相关计费FAQ ModelArts上传数据集收费吗? ModelArts中的数据集管理、标注等操作不收费,但是由于数据集存储在OBS中,因此会根据您使用的OBS桶进行收费。 建议您前往OBS服务,了解OBS计费详情,创建相应的OBS桶用于存储ModelArts使用的数据。
通过人工标注方式标注数据 创建ModelArts人工标注作业 人工标注图片数据 人工标注文本数据 人工标注音频数据 人工标注视频数据 管理标注数据 父主题: 标注ModelArts数据集中的数据
数据集中的数据导入有5个入口。 创建数据集时直接从设置的数据导入路径中自动同步数据。 创建完数据集后,在数据集列表页面的操作栏单击“导入”,导入数据。 图1 在数据集列表页导入数据 在数据集列表页面,单击某个数据集的名称,进入数据集详情页中,单击“导入>导入”,导入数据。 图2 在数据集详情页中导入数据
公共参数 状态码 错误码 获取项目ID和名称 获取帐号名和帐号ID 获取用户名和用户ID
>数据集”,进入“数据集”管理页面。 在数据集所在行,单击操作列的“导入”。 或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“导入”。 在“导入”对话框中,参考如下说明填写参数,然后单击“确定”。 “数据来源”:“本地上传” “上传数据存储路径”:数据存储的OBS路径。 “上传
"dataset-image" # 数据集名称 data_type = "IMAGE" # 数据集类型,图像类型数据集 data_sources = dict() # 数据集数据来源 data_sources["type"] = 0 # 数据来源类型,0表示OBS
在ModelArts中使用Moxing复制数据时如何定义路径变量? 问题描述 mox.file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), m
后就可以将.xlsx格式数据集转换为.csv格式。 表格数据集对训练数据的要求: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有
更新数据集 更新数据集的名称和描述信息。 dataset.update_dataset(dataset_name=None, description=None) 示例代码 更新数据集名称 from modelarts.session import Session from modelarts
include_dataset_data Boolean 发布时是否包含数据集源数据。可选值如下: true:包含数据集源数据 false:不包含数据集源数据 is_current Boolean 是否为数据集当前版本。可选值如下: true:数据集当前版本 false:非数据集当前版本 label_stats Array
查看到此账号的委托配置信息。 图2 查看委托配置信息 Step1 准备训练数据 本案例使用的数据是MNIST数据集,您可以在浏览器中搜索“MNIST数据集”下载如图3所示的4个文件。 图3 MNIST数据集 “train-images-idx3-ubyte.gz”:训练集的压缩包文件,共包含60000个样本。
使用MoXing复制数据报错 问题现象 调用moxing.file.copy_parallel()将文件从开发环境的OBS桶中复制到其他OBS桶里,但是桶内没有出现目标文件。 使用MoXing复制数据不成功,出现报错。如: ModelArts开发环境使用MoXing复制OBS数据报错:keyError:
更新数据集 功能介绍 修改数据集的基本信息,如数据集名称、描述、当前版本或标签等信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{projec
同步或添加图片 在“数据标注”节点单击“实例详情”进入数据标注页面,数据标注的图片来源有两种,通过本地添加图片和同步OBS中的图片数据。 图3 添加本地图片 图4 同步OBS图片数据 添加数据:您可以将本地图片快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击
否 Boolean 是否导入数据,此参数当前仅表格数据集使用。可选值如下: true:创建数据集时导入数据 false:创建数据集时不导入数据(默认值) label_format 否 LabelFormat object 标签格式信息,此参数仅文本类数据集使用。 labels 否 Array