检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
local_model_dir) 以此,OBS中的数据已迁移至SFS Turbo中,并可通过Notebook随时访问并编辑SFS Turbo中的数据。 Step3 Notebook中安装依赖包并保存镜像 在后续训练步骤中,训练作业启动命令中包含sh scripts/install.sh,该命令用于git
ModelArts中的作业为什么一直处于等待中? 当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。 饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现
准备数据 本教程使用自定义数据集,数据集的介绍及下载链接参考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言
准备数据 本教程使用自定义数据集,数据集的介绍及下载链接参考自定义数据。 自定义数据 Qwen-VL指令微调数据:Qwen-VL-Chat微调的数据需要用户自行制作,需要准备一个JSON文件存放训练样本,每个样本需包含id和对话内容。对话内容按user和assistant轮流发言
从DWS导入数据 集群名称:系统自动将当前账号下的DWS集群展现在列表中,您可以在下拉框中选择您所需的DWS集群。 数据库名称:根据选择的DWS集群,填写数据所在的数据库名称。 表名称:根据选择的数据库,填写数据所在的表。 用户名:输入DWS集群管理员用户的用户名。 密码:输入DWS集群管理员用户的密码。
删除数据处理任务的版本 功能介绍 删除数据处理任务的版本。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/proce
查询数据集的统计信息 功能介绍 查询数据集的统计信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/datasets/{
如果type是DATASET,source为数据集ID。 type String 工作路径的类型。可选值如下: OBS:OBS路径 DATASET:数据集 version_id String 数据集的版本。 version_name String 数据集的版本名称,名称仅包含数字、字母、中划线和下划线,长度是0-32位。
已标注的数据集做变换操作来增加训练图片的数量,同时会生成相应的标签。在深度学习领域,增强有重要的意义,能提升模型的泛化能力,增加抗扰动的能力。数据扩增过程不会改动原始数据,扩增后的图片或xml文件保存在指定的输出路径下。 ModelArts提供以下数据扩增算子: 表1 数据扩增算子介绍
izer的存放路径,与HF权重存放在一个文件夹下。 --handler-name:生成数据集的用途,这里是生成的指令数据集,用于微调。 GeneralInstructionHandler:用于sft、lora微调时的数据预处理过程中,会对数据集full_prompt中的user_prompt进行mask操作。
创建ModelArts数据清洗任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在“数据处理”页
支持 导入的是未标注数据 支持 可以导入未标注或已标注数据 已标注数据格式规范:语音分割 文本 文本分类 支持 导入的是未标注或已标注数据 已标注数据格式规范:文本分类 支持 可以导入未标注或已标注数据 已标注数据格式规范:文本分类 命名实体 支持 导入的是未标注数据 支持 可以导入未标注或已标注数据
从MRS导入数据到ModelArts数据集 ModelArts支持从MRS服务中导入存储在HDFS上的csv格式的数据,首先需要选择已有的MRS集群,并从HDFS文件列表选择文件名称或所在目录,导入文件的列数需与数据集schema一致。MRS的详细功能说明,请参考MRS用户指南。
从本地上传数据到ModelArts数据集 前提条件 已存在创建完成的数据集。 创建一个空的OBS桶,OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。 本地上传 文件型和表格型数据均支持从本地上传。从本地上传的数据存储在OBS目录中,请先提前创建OBS桶。
/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。 注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config
ModelArts为用户提供了标注数据的能力: 人工标注:用户创建单人标注作业,对数据进行手工标注。 智能标注:在标注一定量的数据情况下,用户可以通过启动智能标注任务对数据进行自动标注,提高标注的效率。 团队标注:对于大批量的数据,用户可以通过创建团队标注作业,进行多人协同标注。 人工标注 对
obsutils安装和配置 (可选)工作空间配置 训练: 线下容器镜像构建及调试 上传镜像 上传数据和算法至OBS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 单机多卡 资源购买: 购买虚拟私有云VPC 购买弹性文件服务SFS 购买容器镜像服务SWR 创建网络 购买ModelArts专属资源池
授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。 将自定义策略授权给开发者用户组user_group。 在统一身份认证服务控制台的左侧菜单栏中,选择“用户组”。在用户组页面单击对应用户组名称user_group操作列的“授权”,勾选策
/saved_models/pretrain_hf/ 目录下查看转换后的权重文件。 注意:权重转换完成后,需要将例如saved_models/pretrain_hf中的文件与原始Hugging Face模型中的文件进行对比,查看是否缺少如tokenizers.json、tokenizer_config
在标注作业详情页中,展示了此数据集中“全部”、“未标注”和“已标注”的图片,默认显示“未标注”的图片列表。单击图片,即可进行图片的预览,对于已标注图片,预览页面下方会显示该图片的标签信息。 在“未标注”页签,勾选需进行标注的图片。 手工点选:在图片列表中,单击勾选图片左上角的选择框,进