检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
续的模型训练和优化提供高质量的数据支持。 视频数据质量标准 V1.0:ModelArts Studio大模型开发平台针对视频数据集预设了一套评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度。该标准帮助用户评估和优化视频数据的质量,确保数据符合大模型训练的要求,
加工数据集 数据集加工场景介绍 数据集加工算子介绍 加工文本类数据集 加工视频类数据集 加工图片类数据集 加工气象类数据集 父主题: 使用数据工程准备与处理数据集
发布数据集 数据集发布场景介绍 发布文本类数据集 发布视频类数据集 发布图片类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 父主题: 使用数据工程准备与处理数据集
为了帮助用户高效、准确地完成数据标注任务,ModelArts Studio大模型开发平台提供了标注审核功能(即对标注后的数据集进行审核),确保标注结果经过验证和质量控制,提升数据的可靠性和可用性。同时,平台支持对视频类和图片类数据集进行AI预标注,标注员可以在此基础上进行审核和修正,从而有效减少人工标注的工作量,并保证原始数据集内容的完整性。
数据集格式要求 文本类数据集格式要求 视频类数据集格式要求 图片类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程准备与处理数据集
图片支持tar,Caption支持jsonl,详见图片类数据集格式要求。 图片+QA对 图片支持tar,QA对支持jsonl,详见图片类数据集格式要求。 视频类 视频 支持mp4、avi,详见视频类数据集格式要求。 气象类 海洋气象 支持nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib
说明。 视频+CV标注 视频+分类标注 数据源样本格式为.mp4格式,标注格式为.txt。每种类别的视频数需要大于50个,类别数量需要大于2,才能进行模型训练。数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 用文本标签对视频文件进行标识,文本和视频放在同一目录下且同名。具体示例如下:
支持数据加工的数据集类型 当前支持加工操作的数据集类型如下: 文本类数据集,加工算子清单详见文本类加工算子能力清单。 视频类数据集,加工算子清单详见视频类加工算子能力清单。 图片类数据集,加工算子清单详见表1、表2。 气象类数据集,加工算子清单详见表1。 父主题: 加工数据集
基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图片去重 通过把图片结构化处理后,过滤重复的图片/图文对数据。 数据打标 图片鉴黄评分 对图片的涉黄程度进行评分,分数越高越危险。评分范围(0,100),默认评分超过50分的视频可视为涉黄视频。 父主题: 数据集加工算子介绍
大模型开发基本概念 大模型相关概念 概念名 说明 大模型是什么 大模型是大规模预训练模型的简称,也称预训练模型或基础模型。所谓预训练模型,是指在一个原始任务上预先训练出一个初始模型,然后在下游任务中对该模型进行精调,以提高下游任务的准确性。大规模预训练模型则是指模型参数达到千亿、
安全 责任共担 身份认证与访问控制 数据保护技术 审计
加工文本类数据集 创建文本类数据集加工任务 上线加工后的文本类数据集 父主题: 加工数据集
开发盘古大模型Agent应用 Agent开发平台概述 手工编排Agent应用 创建与管理工作流
手工编排Agent应用 手工编排Agent应用流程 配置Prompt builder 配置插件 配置知识 配置开场白和推荐问题 调试Agent应用 父主题: 开发盘古大模型Agent应用
评估文本类数据集 创建文本类数据集评估标准 创建文本类数据集评估任务 获取文本类数据集评估报告 父主题: 评估数据集
加工图片类数据集 创建图片类数据集加工任务 上线加工后的图片类数据集 父主题: 加工数据集
调用NLP大模型 使用“能力调测”调用NLP大模型 使用API调用NLP大模型 统计模型调用信息 父主题: 开发盘古NLP大模型
准备工作 申请试用盘古大模型服务 配置服务访问授权 创建并管理盘古工作空间
开发盘古大模型提示词工程 什么是提示词工程 获取提示词模板 撰写提示词 横向比较提示词效果 批量评估提示词效果 发布提示词
部署NLP大模型 创建NLP大模型部署任务 查看NLP大模型部署任务详情 管理NLP大模型部署任务 父主题: 开发盘古NLP大模型