检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标注图片类数据集 创建图片类数据集标注任务 标注图片类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建图片类数据集标注任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
将不同来源和格式的数据导入平台。 支持的接入方式:通过OBS服务导入数据。 支持的数据类型:文本、图片、视频、气象、预测、其他。 自定义格式:用户可以根据业务需求上传自定义格式的数据,提升数据获取的灵活性和可扩展性。 通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。
集流程见表3。 表3 盘古NLP大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 清洗文本类数据集 通过专用的清洗算子对数据进行预处理
准备工作 注册华为账号并开通华为云,并完成实名认证,账号不能处于欠费或冻结状态。 检查开发环境要求,确认本地已具备开发环境。 登录“我的凭证 > 访问密钥”页面,依据界面操作指引获取Access Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials
单击“下一步”。 在“文件类型”页面,选择文件类型。 导入文本文档数据。支持上传txt、doc、docx、pdf、ppt、pptx格式的文本文档,要求单个文件不超过10M。 导入表格数据。支持上传xlsx、xls、csv格式的表格数据,要求单个文件不超过10M。 单击“点此上传
件下载至本地。 导入插件。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的插件将在“工作台
件下载至本地。 导入应用。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的应用将在“工作台
下载至本地。 导入工作流。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的工作流将在“工作台
能如下: 数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据
<filename>bike_1_1593531469339.png</filename> <source> <database>Unknown</database> </source> <size> <width>554</width>
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
型更好地收敛。 数据批量大小 数据批量是指训练过程中将数据集分成小批次进行读取,并设定每个批次的数据大小。 通常,较大的批量能够使梯度更加稳定,有助于模型的收敛。然而,较大的批量也会占用更多显存,可能导致显存不足,并延长每次训练时间。 单步迭代时处理的数据批量大小 指定每次迭代时处理的数据批量大小。
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需要输入的变量值信息,可以通过“导入”功能进行上传。 图1 效果预览 单击“查看效果”,输出模型回复结果,用户可以基于预览的效果调整提示词文本和变量。 父主题: 撰写提示词
中下载的用户证书。设置完成后单击“确定”导出模型。 图2 导出模型 导入其他局点盘古大模型 导入盘古大模型前,请确保当前空间为该用户所创建的空间。 导入模型功能可以将其他局点训练的模型导入本局点进行使用。 导入模型前,请参考导出盘古大模型至其他局点完成模型导出操作。 登录ModelArts
参数配置 输入参数 参数名称:从插件元信息中导入,用户无需手动添加。 类型、值:支持“引用”和“输入”两种类型。 引用:支持用户选择工作流中已包含的前置节点的输出变量值。 输入:支持用户自定义取值。 输出参数 输出参数所有信息从插件元信息中导入,用户无需手动添加。 节点配置完成后,单击“确定”。
发布提示词 通过横向比较提示词效果和批量评估提示词效果,如果找到高质量的提示词,可以将这些提示词发布至“提示词模板”中。 在提示词“候选”页面,选择质量好的提示词,并单击“保存到模板库”。 图1 保存提示词至模板库 进入“Agent 开发 > 提示词工程 > 提示词模板”页面,查看发布的提示词。
步骤。 数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数
据集流程见表2。 表2 盘古CV大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工图片、视频类数据集 清洗图片、视频类数据集 通过专用的清洗算子对数
配置盘古访问OBS的权限。 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数