检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入数据过程中,为什么无法选中OBS的具体文件进行上传 在数据导入过程中,平台仅支持通过OBS服务导入文件夹类型的数据,而不支持直接导入单个文件。 您需要将文件整理到文件夹中,并选择该文件夹进行上传。 父主题: 大模型使用类问题
练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。 父主题: 数据集格式要求
jpg”,那么标注文件的文件名应为“IMG_2.xml” 图片支持jpg、jpeg、png、bmp格式,标注文件为xml格式,标注文件说明请参见物体检测数据集标注文件说明。 单个文件大小不超过50GB,文件数量最多1000个。 图像分类 图片+txt 由图片文件和对应的标注文件构成,要求
详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹下,每个文件夹下可以同时包含mp4或avi格式的视频。 单个文件大小不超过50GB,文件数量最多1000个。 事件检测 视频+json
气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能
格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。 预训练文本 jsonl j
盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1 训练NLP大模型数据集类型要求 基模型 训练场景 数据集类型 数据集内容 文件格式 NLP 预训练
表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指
数据导入成功。 如果任务状态为“运行失败”,可能由以下原因导致: 文件后缀校验不通过,需要检查文件后缀是否一致。例如,选择创建csv格式的数据集时,文件后缀应为“.csv”。 文件内容校验不通过,需要检查上传的文件数据格式是否正确。可以在“创建导入任务”页面下载数据样例进行比对。
t、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分析结构化数据,包括:xlsx、xls、csv格式。 无论是文本文档、演示文稿,还是电子表格文件,用户都可以轻松地将数据导入知识库,无需额外的转换或格式处理。 父主题: 创建与管理知识库
标,单击“下一步”。 在“文件类型”页面,选择文件类型。 导入文本文档数据。支持上传txt、doc、docx、pdf、ppt、pptx格式的文本文档,要求单个文件不超过10M。 导入表格数据。支持上传xlsx、xls、csv格式的表格数据,要求单个文件不超过10M。 单击“点此上
Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 使用推理SDK章节示例代码均以ak和sk保存在环境变量中来实现身份验证。
批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。
功能限制 功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求 使用ModelArts
入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需要输入的变量值信息,可以通过“导入”功能进行上传。 图1 效果预览 单击“查看效果”,输出模型回复结果,用户可以基于预览的效果调整提示词文本和变量。
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 提取JSON文件中的键值对信息。 HTML内容提取
个jsonl格式的文件下载至本地。 导入插件。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的插件将在“工作台
jsonl格式的文件下载至本地。 导入工作流。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的工作流将在“工作台
个jsonl格式的文件下载至本地。 导入应用。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的应用将在“工作台