检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
管理盘古数据资产 数据资产介绍 数据资产是指在平台中被纳入管理、存储并可供使用的数据集。 数据资产包含以下两种形式: 用户自行发布的数据集。 用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery等操作。
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
正式使用盘古大模型服务前,需要完成服务的订购操作。 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。
单个评测集:由用户指定评测指标(F1分数、准去率、BLEU、Rouge)并上传评测数据集进行评测。 选择“单个评测集”时需要上传待评测数据集。 评测结果存储位置 模型评测结果的存储位置。 基本信息 评测任务名称 填写评测任务名称。 描述 填写评测任务描述。 参数填写完成后,单击“立即创建”,回退至“模型评测
意图识别用户query输入/引用解析失败。 检查用户query格式和内容。 101094 意图识别prompt模板构建失败。 检查内置模板以及输入的system prompt格式与内容。 提问器节点 101043 当单个提问器内的对话轮数超过预设轮数上限时触发该错误码,对话状态回到开始节点状态。
功能限制 功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求 使用ModelArts
入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需要输入的变量值信息,可以通过“导入”功能进行上传。 图1 效果预览 单击“查看效果”,输出模型回复结果,用户可以基于预览的效果调整提示词文本和变量。
大模型使用类问题 盘古大模型是否可以自定义人设 如何将本地的数据上传至平台 导入数据过程中,为什么无法选中OBS的具体文件进行上传 如何查看预置模型的历史版本
objects 多轮对话问答对,包含两个属性:role和content。 role表示对话的角色,取值是system或user。 如果需要模型以某个人设形象回答问题,可以将role参数设置为system。不使用人设时,可设置为user。在一次会话请求中,人设只需要设置一次。 content表示对话的内容,可以是任意文本。
选择。 INT8:该压缩策略将模型参数压缩至8位字节,可以有效降低推理显存占用。 INT4:该压缩策略与INT8相比,可以进一步减少模型的存储空间和计算复杂度。 配置资源。选择计费模式并设置训练单元。 可选择开启订阅提醒。开启后,系统将在本次压缩任务状态变更时,向用户发送短信/邮件提醒。
平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
在“从资产选模型”选择所需模型。 部署方式 选择“云上部署”。 作业输入方式 选择 “OBS”表示从OBS中读取数据。 作业输出方式 选择 “OBS”表示将输出结果存储在OBS中。 作业配置参数 设置模型部署参数信息,平台已给出默认值。 安全护栏 选择模式 安全护栏保障模型调用安全。 选择类型 当前支持安
TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 提取JSON文件中的键值对信息。 HTML内容提取
户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮
数据提取 图文提取 提取图文压缩包中的JSON文本和图片,并对图片进行结构化解析(BASE64编码)。 数据过滤 图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图文文本长度过滤 过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。
训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 模型开发工具链 模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案。
TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数
训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 支持区域: 西南-贵阳一 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台
数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合
TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述 type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数