检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 模型开发工具链 模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案。
表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。
图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。
同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。
结果存储路径 用于存放模型推理结果的OBS路径。 输入数据 支持选择用于存放作为初始场数据的文件路径。 预报天数 支持选择以起报时间点为开始,对天气要素或降水进行预报的天数,范围为1~14天。
表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。
"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 单个文件大小不超过50GB,文件数量最多1000个。。 多轮问答(人设) jsonl jsonl格式:数组格式,至少由一组问答对构成。
服务使用OBS存储训练数据和评估数据,如果需要对OBS的访问权限进行细粒度的控制。可以在盘古服务的委托中增加Pangu OBSWriteOnly、Pangu OBSReadOnly策略,控制OBS的读写权限。
自定义知识库:平台提供了知识库功能来管理和存储数据,支持为AI应用提供自定义数据,并与之进行互动。多种格式的本地文档(支持docx、pptx、pdf等)都可以导入至知识库。 灵活的工作流设计:平台提供灵活的工作流设计,用于开发者处理逻辑复杂、且有较高稳定性要求的任务流。
表2 盘古CV大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。
表3 盘古NLP大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。
数据资源:数据通算单元适用于数据加工,用于正则类算子加工、数据智算单元适用于数据加工,用于AI类算子加工,数据托管单元适用于数据工程,用于存储数据集。 训练资源:训练单元可用于所有大模型的模型训练、模型压缩功能。
如对象存储服务(OBS)、内容分发网络(CDN)等。 选择完成后,单击“确定”。 图4 设置最小授权范围 单击“完成”,完成用户组授权。 图5 完成授权 创建盘古子用户 创建盘古子用户步骤如下: 使用主账号登录IAM服务控制台。
表4 TaskInputDto 参数 是否必选 参数类型 描述 type 是 String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。
表2 盘古科学计算大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。
表4 TaskInputDto 参数 是否必选 参数类型 描述 type 是 String 存储类型,取值为obs。 data 是 Array of ObsStorageDto objects 输入数据的OBS信息。