检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
更新数据集 更新数据集的名称和描述信息。 dataset.update_dataset(dataset_name=None, description=None) 示例代码 更新数据集名称 from modelarts.session import Session from modelarts
创建ModelArts数据增强任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在“数据处理”页
目前只能指定切分比例,随机将样本划分到训练集或者验证集,不支持指定。 切分比例的指定: 在发布数据集时,仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 一般默认不启用该功能。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只
创建ModelArts数据清洗任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在“数据处理”页
后就可以将.xlsx格式数据集转换为.csv格式。 表格数据集对训练数据的要求: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有
页面中。 一旦标注数据完成验收,团队成员无法再修改标注信息,只有数据集创建者可修改。 表1 完成验收的参数设置 参数 说明 对已标注数据修改 不覆盖:针对同一个数据,不使用当前团队标注的结果覆盖已有数据。 覆盖:针对同一个数据,使用当前团队标注的结果覆盖已有数据。覆盖后无法恢复,请谨慎操作。
支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分类 物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 支持 可以导入未标注或已标注数据 已标注数据格式规范:物体检测 图像分割 支持 可以导入未标注或已标注数据 已标注数据格式规范:图像分割 支持 可以导入未标注或已标注数据
“确认”,完成难例确认。 将数据集中的数据标注为难例 针对标注作业中,已标注或未标注数据,也可以将图片数据标注为难例。标注为难例的数据,对后续模型训练中,通过内置规则提升模型精度。 登录ModelArts管理控制台,在左侧菜单栏中选择“数据准备>数据标注”,单击“我创建的”页签可查看所有作业列表。
标注文本分类数据 项目创建完成后,将会自动跳转至新版自动学习页面,并开始运行,当数据标注节点的状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 双击“数据标注”节点,单击实例详情按钮,打开数据标注页面。
数据一般是不能直接满足训练要求的。为了保障数据质量,以免对后续操作(如数据标注、模型训练等)带来负面影响,开发过程通常需要进行数据处理。 常见的数据处理类型有以下四种: 数据校验:通常数据采集后需要进行校验,保证数据合法。 数据校验是指对数据可用性的基本判断和验证的过程。通常,用
创建OBS桶用于ModelArts存储数据 由于ModelArts本身没有数据存储的功能,ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。 AI开发过程中的输入数据、输出数据、中间缓存数据都可以在
Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。 在上传数据时,请选择非加密桶进行上传,否则会由于加密桶无法解密导致后期的训练失败。 用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目
数据集版本管理 查询数据集版本列表 创建数据集版本 查询数据集版本详情 删除数据集版本 父主题: 数据管理
意义的数据。“数据处理”又分为“数据校验”、“数据清洗”、“数据选择”和“数据增强”四类。 “数据校验”表示对数据集进行校验,保证数据合法。 “数据清洗”表示对数据进行去噪、纠错或补全的过程。 “数据选择”表示从全量数据中选择数据子集的过程。 “数据增强”表示通过简单的数据扩增例
训练数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:obs_pipeline.sh 训练脚本后,脚本自动执行数据集预处理,并检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行训练任务。若未进行数据集预处理,则会自动执行 scripts/llam
删除处理任务 功能介绍 删除处理任务,支持删除“特征分析”任务和“数据处理”两大类任务。可通过指定路径参数“task_id”来删除某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
功能介绍 更新处理任务,支持更新“特征分析”任务和“数据处理”两大类任务,仅支持更新任务的描述。可通过指定路径参数“task_id”来更新某个具体任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
添加标签 如果您还不太清楚如何进行标注,可参考数据集详情页面的“标注样例说明”完成标注。 登录ModelArts管理控制台,选择“数据准备 > 数据标注”进入数据标注页。 在“我创建的”或“我参与的”页签下,找到您需要标注的数据集。 单击数据集名称,进入标注详情页。(默认直接进入“未标注”页签)。
删除数据集 根据数据集ID删除指定的数据集 delete_dataset(session, dataset_id) 示例代码 删除数据集 from modelarts.session import Session from modelarts.dataset import Dataset
通过人工标注方式标注数据 创建ModelArts人工标注作业 人工标注图片数据 人工标注文本数据 人工标注音频数据 人工标注视频数据 管理标注数据 父主题: 标注ModelArts数据集中的数据