检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建视频类数据集评估标准 ModelArts Studio大模型开发平台针对视频类数据集预设了一套基础评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。
创建文本类数据集评估标准 ModelArts Studio大模型开发平台针对文本类数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 创建文本类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
变量取值:输入参数的各个变量取值。取值可以是数据集中的字段变量,也可以自定义变量值。 保存至任务输出参数(可选):该参数为输出的结果。由于输出结果为问答对形式,因此生成的问题必须选择context参数,回答必须选择target参数。 模型选择:选择平台预置的大模型,用于指令合成。
直到达到所需的标注粒度。如图2,首先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。 图2 多层级分类示例-声音分类 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。
创建文本类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的文本类数据集,单击“下一步”。 进入“清洗步骤编
请求体参数配置完成后,单击“调试”,在响应结果中单击“响应头”,其中,X-Subject-Token参数的值为获取到的Token,如图4。 图4 获取Token值 获取的文本翻译API调用地址。华北-北京四区域的调用地址的格式如下: https://nlp-ext.cn-north-4.myhuaweicloud
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。
可部分标注”,则可在标注部分数据后,单击右上角的“提交全部标注数据”,让AI大模型自动标注剩余数据。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的图片类数据集 如
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
创建图片类数据集评估标准 ModelArts Studio大模型开发平台针对图片类数据集预设了一套基础评估标准,涵盖了图像清晰度、分辨率、标签准确性、图像一致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。
创建图片类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的图片类数据集,单击“下一步”。 进入“清洗步骤编