检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景
使用数据工程构建预测大模型数据集 预测大模型支持接入的数据集类型 盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据
数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。 使用数据导入功能:通过平台提供的“数据导入”功能,将数据从OBS导入到平台。 父主题: 大模型使用类问题
智能文档解析 从PDF(支持扫描版)或图片中提取文本,转化为结构化数据,持文本、表格、表单、公式等内容提取。 数据转换 个人数据脱敏 对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。
骤操作: 进入平台的“空间资产 > 模型 > 预置”页面。 在该页面中,单击所需的模型,即可查看历史版本及相关操作记录。 父主题: 大模型使用类问题
} ], "temperature": 0.9, "max_tokens": 600 } 父主题: 大模型使用类问题
请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 Verification failed. Please check the content format is consistent with the template requirements. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
发布文本类数据集 评估文本类数据集 配比文本类数据集 流通文本类数据集 父主题: 发布数据集
发布视频类数据集 评估视频类数据集 流通视频类数据集 父主题: 发布数据集
加工文本类数据集 清洗文本类数据集 合成文本类数据集 标注文本类数据集 父主题: 加工数据集
加工视频类数据集 清洗视频类数据集 标注视频类数据集 父主题: 加工数据集
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
质量评估和合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,促进数据的高效流通和应用。 数据发布不仅包括将数据发布为适合使用的格式,还要求根据任务需求评估数据集效果,并科学调整数据比例,确保数据集在规模、质量和内容上符合模型训练的标准。 数据评估 平台预置了多种
发布气象类数据集 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象
发布其他类数据集 其他类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他