检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
适用于数据加工,用于正则类算子加工。 不同数据加工算子所需数据资源类型详见数据集加工算子介绍。 按需(时长)计费、包年/包月 ModelArts Studio-数据智算单元 适用于数据加工,用于AI类算子加工。 不同数据加工算子所需数据资源类型详见数据集加工算子介绍。 按需(时长)计费、包年/包月
总体而言,数据加工不仅提升了数据处理的效率,还可通过优化数据质量和针对性处理,支持高效的模型训练。通过数据加工,用户能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据加工
将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 对气象类数据集进行加工操作。 加工气象类数据集 发布气象类数据集 对气象类数据集进行发布操作。 发布气象类数据集 开发盘古科学计算大模型 训练科学计算大模型 进行模型的训练,如预训练、微调等训练方式。 训练科学计算大模型
优化训练数据的质量 在数据科学和机器学习领域,数据的质量和多样性对模型的效果至关重要。通过有效的数据预处理和数据优化方法,通过提升训练数据的质量可以显著提升训练所得模型的效果。以下是一些关键的数据优化方法及其具体过程: 数据加工 错误数据过滤 :在大规模数据集中,噪声和错误数据是不可
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数
管理盘古数据资产 数据资产介绍 数据资产是指在平台中被纳入管理、存储并可供使用的数据集。 数据资产包含以下两种形式: 用户自行发布的数据集。 用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery等操作。
在左侧导航栏中选择“数据工程 > 数据获取 > 原始数据集”,单击需要查看的数据集名称。 查看数据集基本信息。在“基本信息”页签,可以查看数据详情、数据来源以及扩展信息。 下载原始数据集。在“数据预览”页签,可以查看数据内容,单击右上角“下载”即可下载原始数据集。 查看数据血缘。在“数据血缘”
和代表性,避免因数据分布不均而引发的问题。 发布数据集 评估数据集 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 发布数据集 数据发布是将数据集发布为特定格式
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
jsonl 训练NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表2。 表2 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景
科学计算大模型 气象/降水模型 海洋模型 父主题: API
务成功的提示。 在完成数据标注后,如果无需进行标注审核,可直接在“标注任务 > 任务管理”页签单击“生成”,生成加工数据集。 生成的加工数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 审核标注后的文本类数据集 如果在创建文本类数据集标注任务时启用了标注审
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至发布文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
频类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务状态显示为“运行成功”时,说明数据发布任务执行成功,生成的“发布数据集”可在“数据工程 > 数据管理 > 数据集 > 发布数据集”中查看。 父主题: 发布视频类数据集
在完成数据加工后,如果无需使用数据标注、数据合成功能,可直接在“加工任务”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据管理 > 数据集 > 加工数据集”中查看。 父主题: 加工文本类数据集
在“创建发布任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“基本配置”中选择数据用途、数据集可见性、适用场景。当前预测类数据集仅支持发布标准格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。 当任务
异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,
评估文本类数据集 发布文本类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布文本类数据集。 创建文本类数据集评估标准 ModelArts Stu
文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。
评估视频类数据集 发布视频类数据集前,ModelArts Studio大模型开发平台支持对数据集进行评估操作,帮助用户优化数据质量,确保数据满足高标准,提升模型性能。 如果无需使用数据评估操作,可跳过此章节至发布视频类数据集。 创建视频类数据集评估标准 ModelArts Stu