检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
jsonl格式的文件下载至本地。 导入工作流。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的工作流将在“工作台
气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
ensemble_noise_perlin_scale 否 Double 集合预报的Perlin加噪scale。取值范围:(0, 0.5)。 ensemble_noise_perlin_octave 否 Long 用于选择集合预报的Perlin加噪octave。Perlin噪音的octave指的是噪音的频率,在
type. 请检查上传的数据集文件类型与平台要求的标准文件类型是否一致。 data management query dataset data invalid. 请检查数据集中是否有异常格式的数据。 dataset obs file empty. 检查数据集文件是否还存在于原先的OBS桶中。
数据导入成功。 如果任务状态为“运行失败”,可能由以下原因导致: 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。
功能限制 功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求 使用ModelArts
请求URI 参数 说明 URI-scheme 传输请求的协议,当前所有API均采用HTTPS协议。 Endpoint 承载REST服务端点的服务器域名或IP。 resource-path 资源路径,即API访问路径。从具体API的URI模块获取。 query-string 查询参数,可选
大模型使用类问题 盘古大模型是否可以自定义人设 如何将本地的数据上传至平台 导入数据过程中,为什么无法选中OBS的具体文件进行上传 如何查看预置模型的历史版本
平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 提取JSON文件中的键值对信息。 HTML内容提取
要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式 盘古-CV-物体检测-N 微调 图片+检测标注 图片+xml 训练CV大模型所需数据量 初期启动训练时,每种模型类别先提供100
获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文件、离线excel表格、离线PDF文件、扫描版word文档、扫描版PDF文件等。 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下:
盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据 csv 回归模型 异常检测模型 分类模型 回归分类数据 csv 训练预测大模型所需数据量 训练预
、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下: 注册并登录数据下载平台,在高空变量数据下载链接中: Product type选择Reanalysis。 Variab
Studio大模型开发平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求。 表1 平台支持的数据类型 数据类型 数据内容 支持的文件格式 文本类 文档 txt、mobi、epub、docx、pdf 网页 html 预训练文本 jsonl 单轮问答 jsonl、csv 单轮问答(人设)
表1 安装推理SDK SDK语言 安装方法 Java 在您的操作系统中下载并安装Maven,安装完成后您只需要在Java项目的pom.xml文件中加入相应的依赖项即可。 <dependency> <groupId>com.huaweicloud.sdk</groupId>
数据标注”,单击页面右上角“创建标注任务”。 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。 单击“下一步”,可查看效果预览。 单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置
多用肯定句,少用否定句,比如“你不能A -> 你必须保证^A”,“你不能生成重复的问题 -> 你需要保证生成的问题的多样性”。 中文里的形容词+名词结构需要加“的”,少了“的”模型有时候会难以理解。例如,真实场景,它可能理解为truth situation而不是true situation。 搭结构
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据