检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹下,每个文件夹下可以同时包含mp4或avi格式的视频。 单个文件大小不超过50GB,文件数量最多1000个。 事件检测 视频+json
type. 请检查上传的数据集文件类型与平台要求的标准文件类型是否一致。 data management query dataset data invalid. 请检查数据集中是否有异常格式的数据。 dataset obs file empty. 检查数据集文件是否还存在于原先的OBS桶中。
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。 预训练文本 jsonl j
功能限制 功能类型 使用限制 数据工程-数据格式要求 ModelArts Studio平台支持接入的数据需要满足格式要求,包括文件格式、单个文件大小、所有文本大小以及文件数量等,请参考《用户指南》“使用数据工程构建数据集 > 数据集格式要求”。 模型开发-训练、评测最小数据量要求 使用ModelArts
jackson.datatype.jsr310.JavaTimeModule 用户本地工程引入了jackson框架,和华为云sdk引入的jackson框架冲突了,导致会报找不到某个类,建议客户在本地引入bundle包报来避免出现依赖冲突。 <dependency> <groupId>com
gent开发平台。 进入“工作台 > 知识库”页面。 单击所需知识库,进入详情页面。 新增知识库中知识文档。单击右上角“继续上传”,可上传本地文档至当前知识库。 删除知识库中知识文档。在“知识文档”中单击操作列“删除”可删除当前知识文档。 获取知识库ID、删除知识库 登录ModelArts
表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指
气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能
获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文件、离线excel表格、离线PDF文件、扫描版word文档、扫描版PDF文件等。 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下:
个插件,并供Agent调用。 自定义知识库:平台提供了知识库功能来管理和存储数据,支持为AI应用提供自定义数据,并与之进行互动。多种格式的本地文档(支持docx、pptx、pdf等)都可以导入至知识库。 灵活的工作流设计:平台提供灵活的工作流设计,用于开发者处理逻辑复杂、且有较高稳定性要求的任务流。
要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景 文件内容 文件格式 盘古-CV-物体检测-N 微调 图片+检测标注 图片+xml 训练CV大模型所需数据量 初期启动训练时,每种模型类别先提供100
同时提高计算速度。当前,平台支持对NLP大模型进行压缩。 模型部署:平台提供了一键式模型部署功能,用户可以轻松将训练好的模型部署到云端或本地环境中。平台支持多种部署模式,能够满足不同场景的需求。通过灵活的API接口,模型可以无缝集成到各类应用中。 模型调用:在模型部署后,用户可
Studio大模型开发平台支持的数据类型见表1,各类型数据格式详细要求请参考数据集格式要求。 表1 平台支持的数据类型 数据类型 数据内容 支持的文件格式 文本类 文档 txt、mobi、epub、docx、pdf 网页 html 预训练文本 jsonl 单轮问答 jsonl、csv 单轮问答(人设)
平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
能越好。 表2 NLP大模型自动评测指标说明-使用评测模板 评测指标(自动评测-使用评测模板) 指标说明 评测得分 每个数据集上的得分为模型在当前数据集上的通过率;评测能力项中若有多个数据集则按照数据量的大小计算通过率的加权平均数。 综合能力 综合能力是计算所有数据集通过率的加权平均数。
TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 提取JSON文件中的键值对信息。 HTML内容提取
盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据 csv 回归模型 异常检测模型 分类模型 回归分类数据 csv 训练预测大模型所需数据量 训练预
表1 安装推理SDK SDK语言 安装方法 Java 在您的操作系统中下载并安装Maven,安装完成后您只需要在Java项目的pom.xml文件中加入相应的依赖项即可。 <dependency> <groupId>com.huaweicloud.sdk</groupId>
、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下: 注册并登录数据下载平台,在高空变量数据下载链接中: Product type选择Reanalysis。 Variab