检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注图片类数据集 创建图片类数据集标注任务 审核图片类数据集标注结果 上线标注后的图片类数据集 父主题: 标注数据集
发布预测类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
先制定一个能够明确表达主题的提示词(若模型训练时包含相似任务,可参考模型训练使用的提示词),再由简至繁,逐步增加细节和说明。打好基础是后续提示词优化的前提,基础提示词生成效果差,优化只会事倍功半。 例如,文学创作类可以使用“请创作一个关于{故事主题}的故事”,邮件写作类可以使用“根据以下信息,写一封商务电子邮件。{邮
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时支持导入mp4或avi格式文件,同一文件夹下mp4或avi格式的所有视频文件会被同时上传导入,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi
发布视频类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 视频类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
发布气象类数据集 原始数据集和加工后的数据集不可以直接用于模型训练,需要独立创建一个“发布数据集”。 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“数据工程
数据集加工场景介绍 数据加工概念 数据加工是数据工程中的核心环节,旨在通过使用数据集加工算子对原始数据进行清洗、转换、提取和过滤等操作,以确保数据符合模型训练的标准和业务需求。 通过这一过程,用户能够优化数据质量,去除噪声和冗余信息,提升数据的准确性和一致性,为后续的模型训练提供
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,每个数据点都有一个时间戳,表示数据在时间上的位置。它用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg
API进行的封装,通过该SDK可以处理用户的输入,生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions) Java、Python、Go、.NET、NodeJs 基于对话问答功能
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
Studio大模型开发平台针对视频数据集预设了一套评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts
算子编排过程中,可以单击右上角“保存为新模板”将当前算子编排流程保存为模板,后续创建新的数据加工任务时,可以直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的加工步骤。 图4 算子编排 图5 选择加工模板 算子编排完成后,单击“立即执行”,平台会直接启动数据加工
Studio大模型开发平台针对文本数据集预设了一套基础评估标准,涵盖了数据准确性、完整性、一致性、格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts
一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。 困惑度 用来衡量大语言模型预测一个语言样本的能力,数值越低,准确率也就越高,表明模型性能越好。 指标看板 bleu-1:模型生成句子与实际句子在单字层面的匹配度,数值越高,表明模型性能越好。
气象类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单
在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理” 在“标注管理”页面,单击操作列的“上线”对数据集进行上线。 图2 上线标注后的数据集 对不再使用的数据集可在操作列执行下线操作。若对当前标注数据集已执行发布操作发布文本类数据集,则不可将该标注数据集下线。 父主题: 标注文本类数据集
在左侧导航栏中选择“数据工程 > 数据标注 > 标注管理” 在“标注管理”页面,单击操作列的“上线”对数据集进行上线。 图2 上线标注后的数据集 对不再使用的数据集可在操作列执行下线操作。若对当前标注数据集已执行发布操作发布视频类数据集,则不可将该标注数据集下线。 父主题: 标注视频类数据集
通过阅读本文,您可以快速了解盘古大模型的计费模式、计费项、续费、欠费等主要计费信息。 计费模式 盘古大模型提供包周期计费、按需计费两种计费模式,以满足不同场景下的用户需求。关于计费模式的详细介绍请参见计费模式。 包周期计费是一种预付费模式,即先付费再使用,按照订单的购买周期进行结算,因此在购买之前,您必须确保账户余额充足。