检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
父主题: 数据管理(旧版)
tools:描述可用的外部工具或功能的信息,这些工具可能被模型用来执行某些任务或获取更多信息。
创建目录“training_data”,将原始数据存放在/mnt/sfs_turbo/training_data目录下。 通过拖拽文件的方式,上传文件。使用CloudShell或者其它SSH远程工具。
basepath:为大模型权重地址 bs:为batch大小 其中,要获取模型config文件, 首先到https://github.com/SafeAILab/EAGLE/页找到对应eagle模型地址。
CLI工具的获取和使用请参见Gallery CLI配置工具指南。 文件合集大小不超过50GB。 文件上传完成前,请不要刷新或关闭上传页面,防止意外终止上传任务,导致数据缺失。 如果上传的文件名称和已有文件重名,系统会自动用新文件内容覆盖已有文件内容。
数据路径或工作路径位于KMS加密桶的数据集,不支持启动主动学习和自动分组任务,支持预标注任务。 “智能标注”是指基于当前标注阶段的标签及图片学习训练,选中系统中已有的模型进行智能标注,快速完成剩余图片的标注操作。“智能标注”又包含“主动学习”和“预标注”两类。
存储数据的逻辑 存放的是文件,会以文件和文件夹的层次结构来整理和呈现数据。 存放的是对象,可以直接存放文件,文件会自动产生对应的系统元数据,用户也可以自定义文件的元数据。 存放的是二进制数据,无法直接存放文件,如果需要存放文件,需要先格式化文件系统后使用。
父主题: 数据管理(旧版)
使用当前账户登录OBS管理控制台,去查找对应的OBS桶、文件夹、文件是否存在。 通过接口判断路径是否存在。在代码中执行如下命令,检查路径是否存在。
父主题: 数据管理(旧版)
方式二:通过查看ModelArts-Ascend代码仓库,根据每个模型的configs文件获取已知的shape大小。 下文主要介绍如何通过方式一获取模型shape。
获取方法请参见获取项目ID和名称。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 annotation_format 否 String 标注格式。
数据源路径不支持设置为KMS加密桶中的OBS路径。 name 是 String 数据处理任务名称。 template 是 TemplateParam object 数据处理模板,如算法ID和参数等。 version_id 否 String 数据集版本ID。
如果需要通过VS Code连接Notebook方式进行代码调试,则需开启“SSH远程开发”并选择密钥对,请参考VS Code连接Notebook方式介绍。 参数填写完成后,单击“立即创建”进行规格确认。 参数确认无误后,单击“提交”,完成Notebook的创建操作。
CLI工具的获取和使用请参见Gallery CLI配置工具指南。 文件合集大小不超过50GB。 文件上传完成前,请不要刷新或关闭上传页面,防止意外终止上传任务,导致数据缺失。 当文件状态变成“上传成功”表示数据文件成功上传至AI Gallery仓库进行托管。
准备OBS桶 在ModelArts Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。
为了能帮用户快速准备大量高质量的数据,ModelArts数据管理提供了全流程的数据准备、数据处理和数据标注能力。 图1 ModelArts数据准备全流程 ModelArts数据管理为用户准备高质量的AI数据提供了以下主要能力: 解决用户获取数据的问题。
获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 create_version 否 Boolean 创建任务时是否同步创建一个任务版本。
查询数据集的标注任务列表 查询当前数据集的所有标注任务列表。 dataset.get_label_tasks(is_workforce_task=False, **kwargs) 示例代码 示例一:查询数据集下所有的标注任务,根据标注任务创建时间降序排序。
basepath:为大模型权重地址 bs:为batch大小 其中,要获取模型config文件, 首先到https://github.com/SafeAILab/EAGLE/页找到对应eagle模型地址。