检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
模型训练存储加速 针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo H
填写训练输入路径 选择挂载SFS路径时,下拉框只显示有权限的SFS路径,显示“只读”的文件夹只支持只读功能,不显示的读写均支持。可参考权限管理文档修改SFS Turbo权限。 图9 输入数据设置完成界面 设置训练输出路径:新建“output”文件夹设置为输出。(如果本地有output文件夹,无需新建)
导入成功的前提是,数据源的schema需要与创建数据集指定的schema保持一致。其中schema指表格的列名和类型,创建数据集时一旦指定,不支持修改。 从OBS导入csv文件,不会校验数据类型,但是列数需要跟数据集的schema保持一致。如果数据格式不合法,会将数据置为null,详见表4。
用户AK-SK认证模式 本模式支持OBS管理、训练管理、模型管理、服务管理模块的鉴权。 示例代码 1 2 from modelarts.session import Session session = Session(access_key='***',secret_key='***'
数据集导入相关的配置信息。 是 ImportDataInfo title title信息,主要用于前端的名称展示。 否 str description 数据集导入节点的描述信息。 否 str policy 节点执行的policy。 否 StepPolicy depend_steps
模型,可得到精度更高的模型。首先,针对智能标注和采集筛选任务,难例的发现操作是系统自动执行的,无需人工介入,仅需针对标注后的数据进行确认和修改即可,提升数据管理和标注效率。其次,您可以基于难例的情况,补充类似数据,提升数据集的丰富性,进一步提升模型训练的精度。 在数据集管理中,对难例的管理有如下场景。
参数 参数类型 说明 id String SFS Turbo 文件系统 ID。 src_path String SFS Turbo 文件系统地址。 dest_path String 训练作业的本地路径。 read_only Boolean dest_path 是否为只读权限,默认为读写权限。
import cv2 cv2.imread('obs://bucket_name/xxx.jpg', cv2.IMREAD_COLOR) 修改为如下代码: 1 2 3 4 import cv2 import numpy as np import moxing as mox img
否 String 根据样本名称搜索(含后缀名)。 sample_time 否 String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。
填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 设置场景类别。场景类别当前支持“图像分类”和“物体检测”。 设置数据处理类型“数据选择
sample_name String 根据样本名称搜索(含后缀名)。 sample_time String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本
(可选)Session鉴权 Session鉴权概述 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。当成功建立Session后,您可以直接调用ModelArts的SDK接口。 ModelArts开发环境
参数 参数类型 说明 id String SFS Turbo 文件系统 ID。 src_path String SFS Turbo 文件系统地址。 dest_path String 训练作业的本地路径。 read_only Boolean dest_path 是否为只读权限,默认为读写权限。
参数类型 说明 id 是 String SFS Turbo 文件系统 ID。 src_path 是 String SFS Turbo 文件系统地址。 dest_path 是 String 训练作业的本地路径。 read_only 否 Boolean dest_path 是否为只读权限,默认为读写权限。
参数类型 说明 id 是 String SFS Turbo 文件系统 ID。 src_path 是 String SFS Turbo 文件系统地址。 dest_path 是 String 训练作业的本地路径。 read_only 否 Boolean dest_path 是否为只读权限,默认为读写权限。
sample_name String 根据样本名称搜索(含后缀名)。 sample_time String 样本加入到数据集时,会根据样本在OBS上的最后修改时间(精确到天)建立索引,此处可以根据此时间进行搜索。可选值如下: month:搜索往前30天至今天内添加的样本 day:搜索昨天(往前1天)至今天内添加的样本
_id}/data-annotations/labels modelarts:dataset:updateDataset - √ √ 批量修改标签 PUT /v2/{project_id}/datasets/{dataset_id}/data-annotations/labels
Standard支持的AI框架 ModelArts Standard的开发环境Notebook、训练作业、模型推理(即模型管理和部署上线)支持的AI框架及其版本,请参见如下描述。 统一镜像列表 ModelArts提供了ARM+Ascend规格的统一镜像,包括MindSpore、P