检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 数据集下载 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以
在线服务和批量服务有什么区别? 在线服务 将模型部署为一个Web服务,您可以通过管理控制台或者API接口访问在线服务。 批量服务 批量服务可对批量数据进行推理,完成数据处理后自动停止。 批量服务一次性推理批量数据,处理完服务结束。在线服务提供API接口,供用户调用推理。 父主题:
如何在Notebook中安装外部库? ModelArts Notebook中已安装Jupyter、Python程序包等多种环境,包括TensorFlow、MindSpore、PyTorch、Spark等。您也可以使用pip install在Notobook或Terminal中安装外部库。
如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载
从MRS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 文件型数据来源 文件型数据集支持从两种数据源导入数据:“OBS”和“本地上传”。导入后,导入目录下的数据会复制至数据集的数据源路径下。 OBS:又分为从O
/v2/{project_id}/datasets/{dataset_id} 表1 路径参数 参数 是否必选 参数类型 描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型
导入数据到ModelArts数据集 数据导入方式介绍 从OBS导入数据到ModelArts数据集 从DWS导入数据到ModelArts数据集 从DLI导入数据到ModelArts数据集 从MRS导入数据到ModelArts数据集 从本地上传数据到ModelArts数据集 父主题:
径。 “输出路径”:表示新数据集的输出路径,即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径,且“输出路径”不能是“保存路径”的子目录。 图1 导出新数据集 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。当导出方式选择为新数据集时,在导出
处理ModelArts数据集中的数据 数据处理场景介绍 创建ModelArts数据校验任务 创建ModelArts数据清洗任务 创建ModelArts数据选择任务 创建ModelArts数据增强任务 管理和查看数据处理任务 父主题: 数据准备与处理
标注ModelArts数据集中的数据 数据标注场景介绍 通过人工标注方式标注数据 通过智能标注方式标注数据 通过团队标注方式标注数据 管理标注作业 父主题: 数据准备与处理
径。 “输出路径”:表示新数据集的输出路径,即新数据集在完成标注后输出的路径。“输出路径”不能与“保存路径”为同一路径,且“输出路径”不能是“保存路径”的子目录。 图1 导出新数据集 数据导出成功后,您可以前往您设置的保存路径,查看到存储的数据。当导出方式选择为新数据集时,在导出
使用AI案例 在AI Gallery中,您可以根据您的业务场景和诉求,查找并订阅相应的场景化AI案例。订阅后可以一键运行案例。 AI Gallery中分享的案例支持免费订阅,但在使用过程中如果消耗了硬件资源进行部署,管理控制台将根据实际使用情况收取硬件资源的费用。 前提条件 注册
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。 默认不启用。启用后,需设置对应的训练验证比例。 输入“训练集比例”,数值只能是0~1区间内的数。设置好“训练集比例”后,“验证集比例”自动填充。“训练集比例”加“验证集比例”等于1。 说明: 为确保训练模型的精度,建议将训练集比例设置为0
Brightness 图片亮度,值越大代表观感上亮度越高。 一般呈正态分布,可根据分布中心判断数据集整体偏亮还是偏暗。可根据使用场景调整,比如使用场景是夜晚,图片整体应该偏暗。 图片饱和度 Saturation 图片的色彩饱和度,值越大表示图片整体色彩越容易分辨。 一般呈正态分布,一般用于比较训练集和真实场景数据集的差异。
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
步新数据”,快速将数据集中的数据添加到标注作业中。 问题现象: 将已标注好的数据上传至OBS,同步数据后,显示为未标注。 原因分析: 可能是OBS桶设置了自动加密导致此问题。 解决方法: 需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 筛选数据 在标注作业详情页面
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前指令微调数据集支持alpaca格式和sharegpt格式的数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
数据标注 物体检测图片标注,一张图片是否可以添加多个标签? 在物体检测作业中上传已标注图片后,为什么部分图片显示未标注? 父主题: Standard自动学习
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info