检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前气象类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当
清洗气象类数据集 清洗气象类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建气象类数据集清洗任务 创建气象类数据集清洗任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
加工气象类数据集 清洗气象类数据集 父主题: 加工数据集
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
气象类清洗算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单
气象/降水模型 创建推理作业 查询推理作业详情 父主题: 科学计算大模型
标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 清洗气象类数据集 发布气象类数据集 流通气象类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 发布气象类数据集 父主题: 开发盘古科学计算大模型
发布数据集 数据集发布场景介绍 发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转
加工数据集 数据集加工场景介绍 数据集清洗算子介绍 加工文本类数据集 加工图片类数据集 加工视频类数据集 加工气象类数据集 管理加工后的数据集 父主题: 使用数据工程构建数据集
平台提供的数据发布功能,用户能够根据具体任务需求,灵活选择数据发布格式,保证数据的兼容性与一致性,从而为后续模型训练和应用部署打下坚实基础。 支持数据发布的数据集类型 支持数据发布的数据集类型见表1。 表1 支持数据发布的数据集类型 数据类型 数据评估 数据配比 数据流通 文本类
通过这些功能,用户可以轻松将大量数据导入平台,为后续的数据加工和模型训练等操作做好准备。 数据加工:平台提供了数据清洗、数据合成、数据标注的加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。 数据清洗:数据清洗旨在通过使用数据集清洗算子对数据进行预处理操作,针对不同类型的数据集,平台设计
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
盘古科学计算大模型能力与规格 盘古科学计算大模型面向气象、医药、水务、机械、航天航空等领域,融合了AI数据建模和AI方程求解方法。该模型从海量数据中提取数理规律,利用神经网络编码微分方程,通过AI模型更快速、更精准地解决科学计算问题。 ModelArts Studio大模型开发平
ObsStorageDto objects 输入数据的OBS信息。 表5 ObsStorageDto 参数 是否必选 参数类型 描述 bucket 是 String 输入数据的OBS桶名称。 path 是 String 初始场数据的存放路径。 表6 TaskOutputDto 参数
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
数据集清洗算子介绍 文本类清洗算子能力清单 视频类清洗算子能力清单 图片类清洗算子能力清单 气象类清洗算子能力清单 父主题: 加工数据集
Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 参数类型 描述 bucket String 输入数据的OBS桶名称。 path String 初始场数据的存放路径。 表5 TaskOutputDto 参数 参数类型
能够快速构建高质量的数据集,推动大模型的成功开发。 支持数据加工的数据集类型 当前支持数据加工操作的数据集类型见表1。 表1 支持数据加工操作的数据集类型 数据类型 数据清洗 数据合成 数据标注 文本类 √ √ √ 图片类 √ - √ 视频类 √ - √ 气象类 √ - - 父主题:
NLP大模型-文本对话 基于对话问答功能,用户可以与模型进行自然而流畅的对话和交流。 文本对话 科学计算大模型-气象/降水模型 支持创建推理作业并查询推理作业详情。 气象/降水模型 科学计算大模型-海洋模型 支持创建推理作业并查询推理作业详情。 海洋模型 Agent开发-应用 创建