检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布文本类数据集 评估文本类数据集 发布文本类数据集 父主题: 发布数据集
发布视频类数据集 评估视频类数据集 发布视频类数据集 父主题: 发布数据集
数据集加工算子介绍 文本类加工算子介绍 视频类加工算子介绍 图片类加工算子介绍 气象类加工算子介绍 父主题: 加工数据集
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
在左侧导航栏中选择“数据工程 > 数据管理 > 数据集 > 发布数据集”。 单击数据集名称查看发布数据集的基本信息、数据预览、数据血缘以及操作记录。 在“基本信息”页签可查看数据集的详细信息。 在“数据预览”页签可查看发布后的数据内容。 在“数据血缘”页签查看该数据集所经历的操作,如导入、合成、训练等操作。
在完成数据加工后,如果无需使用数据标注、数据合成功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工图片类数据集
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至发布图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
在左侧导航栏中选择“数据工程 > 数据发布 > 发布任务”,单击界面右上角“创建发布任务”。 在“创建发布任务”页面,选择数据集模态,如“图片 > 图片+Caption”类型的数据集。 图3 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。
评估图片类数据集 发布图片类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布图片类数据集。 创建图片类数据集评估标准 ModelArts Stu
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
整策略。一般微调参数的影响会受到以下几个因素的影响: 目标任务的难度:如果目标任务的难度较低,模型能较容易的学习知识,那么少量的训练轮数就能达到较好的效果。反之,若任务较复杂,那么可能就需要更多的训练轮数。 数据量级:如果微调数据很多,从客观上来说越多的数据越能接近真实分布,那么
整策略。一般微调参数的影响会受到以下几个因素的影响: 目标任务的难度:如果目标任务的难度较低,模型能较容易的学习知识,那么少量的训练轮数就能达到较好的效果。反之,若任务较复杂,那么可能就需要更多的训练轮数。 数据量级:如果微调数据很多,从客观上来说越多的数据越能接近真实分布,那么
加工图片类数据集 加工图片类数据集 标注图片类数据集 配比图片类数据集 父主题: 加工数据集
发布图片类数据集 评估图片类数据集 发布图片类数据集 父主题: 发布数据集
如何对盘古大模型的安全性展开评估和防护 盘古大模型的安全性主要从以下方面考虑: 数据安全和隐私保护:大模型涉及大量训练数据,这些数据是重要资产。为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面选择数据集模态并选择数据集文件。 单击“下一步”,选择发布格式,填写名称,选择数据集可见性,单击“下一步”。
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
构建微调训练任务数据集 获取源数据 科学计算大模型微调训练所需的数据为气象再分析数据。 气象再分析数据集是利用现代数值天气预报模型和数据同化系统,对过去的观测数据进行重新处理后得到的。这些数据集可以是全球范围的,也可以是特定区域的。再分析数据集的目的是通过整合历史观测数据和现代计算技
气象类加工算子介绍 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集加工算子介绍