检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导入数据过程中,为什么无法选中OBS的单个文件进行上传 当前,ModelArts Studio平台针对不同类别的数据集可使用OBS服务导入的文件形式不同: 文本、视频、预测和其他类(自定义)数据集支持文件夹或单个文件导入,导入界面提示用户:“请选择文件夹或文件”。 图1 支持导入单个文件示例 图片、视
录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。 单击页面右下角“立即创建”,回退至“导入任务”页面,在该页面可以查看数据集的任务状态,若状态为“运行成功”,则数据导入成功。
2.txt 单标签的标签文件示例,如1.txt文件内容如下所示。 猫 多标签的标签文件示例,如2.txt文件内容如下所示。 猫 狗 异常检测数据集标注文件说明 该说明适用于表1中的异常检测标注文件格式。 要求用户将标注文件和图片存于同一文件夹,正常和异常分文件夹创建。 当目录下存
提示词撰写完成后,可以通过输入具体的变量值,组成完整的提示词,查看不同提示词在模型中的使用效果。 在撰写提示词页面,找到页面右侧变量输入区域,在输入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需
盘古推理SDK简介 推理SDK概述 盘古大模型推理SDK是对REST API进行的封装,通过该SDK可以处理用户的输入,生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions)
除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。 父主题: 数据集格式要求
标,单击“下一步”。 在“文件类型”页面,选择文件类型。 导入文本文档数据。支持上传txt、doc、docx、pdf、ppt、pptx格式的文本文档,要求单个文件不超过10M。 导入表格数据。支持上传xlsx、xls、csv格式的表格数据,要求单个文件不超过10M。 单击“点此上
入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹下,每个文件夹下可以同时包含mp4或avi格式的视频。 单个文件大小不超过50GB,文件数量最多1000个。
数据量足够,为什么盘古大模型微调效果仍然不好 大模型使用类问题 如何将本地的数据上传至平台 导入数据过程中,为什么无法选中OBS的单个文件进行上传 训练/推理单元与算力的对应关系是什么 提示词工程类 如何让大模型按指定风格或格式回复 为什么其他大模型适用的提示词在盘古大模型上效果不佳 如何判断任务场景应通过调整提示词还是场景微调解决
知识库支持导入以下格式的本地文档: 文本文档数据。支持上传常见文本格式,包括:txt、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分析结构化数据,包括:xlsx、xls、csv格式。 无论是文本文档、演示文稿,还是电子表格文件,用户都可以
个jsonl格式的文件下载至本地。 导入应用。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的应用将在“工作台
建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过50GB,文件数量最多1000个。 网页 html 单个文件大小不超过50GB,文件数量最多1000个。
umber等多种类型支持选择。 位置 当前参数在请求信息中的位置,可选Body、Headers或Query。 默认值 参数的默认值。 描述 参数的描述,尽可能准确的描述参数的含义和要求,可提升Agent提取参数的准确率。 参数校验 可设置当前参数的校验规则。 必填 指定该参数是否为必填项。
时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例
两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 标注文本类数据集 配比文本类数据集 数据配比是将多个数据集按特定比例组合的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比文本类数据集 发布文本类数据集
批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。
单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。 单击“导入”,导入成功的插件将在“工作台 > 插件”页面中展示。 父主题:
Face团队推出的一种大模型请求格式。 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。 评测配置 评测类型 选择“自动评测”。 评测规则 选择“基于规则”。 评测数据集 评测模板:使用预置的专业数据集进行评测。
科学计算大模型微调训练所需的数据为气象再分析数据。 气象再分析数据集是利用现代数值天气预报模型和数据同化系统,对过去的观测数据进行重新处理后得到的。这些数据集可以是全球范围的,也可以是特定区域的。再分析数据集的目的是通过整合历史观测数据和现代计算技术,提供一个完整、统一且高质量的气象数据记录,
Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 使用推理SDK章节