检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
标准格式:适用于广泛的数据使用场景,满足大多数模型训练的标准需求。该格式的数据集将发布到资产中,但下游模型开发不可见。 盘古格式:专为盘古大模型训练设计的格式,确保数据集在盘古模型训练中的兼容性和一致性。该格式的数据集将被用于ModelArts Studio大模型开发平台的模型开发功能使用。
让模拟出的天气接近真实世界中的变化。 CNOP噪音通过在初始场中引入特定的扰动来研究天气系统的可预报性,会对扰动本身做一定的评判,能够挑选出预报结果与真实情况偏差最大的一类初始扰动。这些扰动不仅可以用来识别最可能导致特定天气或气候事件的初始条件,还可以用来评估预报结果的不确定性。
前训练任务。 停止。单击操作列的“更多 > 停止”,可以停止处于“排队中”或“运行中”状态的任务。 重试。单击操作列的“更多 > 重试”,可以重试处于“失败”状态的节点,重试该节点的训练。 删除。单击操作列的“更多 > 删除”,可以删除当前不需要的训练任务。 删除属于高危操作,删除前请确保当前任务不再需要。
发布文本类数据集 数据发布是将数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 文本类数据集支持发布的格式为: 标准格式:数据工程功能支持的原始格式。 标准格式的示例如下,其中,context和target是键值对。 {"context": "你好,请介绍自己"
导入数据过程中,为什么无法选中OBS的单个文件进行上传 当前,ModelArts Studio平台针对不同类别的数据集可使用OBS服务导入的文件形式不同: 文本、视频、预测和其他类(自定义)数据集支持文件夹或单个文件导入,导入界面提示用户:“请选择文件夹或文件”。 图1 支持导入单个文件示例
在“导出应用”页面选择应用,单击“导出”。应用将以一个jsonl格式的文件下载至本地。 导入应用。 单击页面右上角“导入”。 在“导入”页面,单击“选择文件”选择需要导入的jsonl文件。 选择导入文件后,选择解析内容。 平台将自动解析jsonl文件。如果解析的文件在平台中已存在,勾选该文件将自动覆盖平台现有文件。
法部署至平台提供的资源池中。边缘部署指算法部署至客户的边缘设备中(仅支持边缘部署的模型可配置边缘部署)。 部分模型资产支持边缘部署方式,若选择“边缘部署”: 本地挂载路径(选填):在容器内部将卷挂载的本地路径。挂载后,容器中的应用程序可以通过这个路径访问宿主机上的数据。 资源池:
请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 content type [%s] not support, only [%s] support. 数据集中的内容不支持,请保证上传的数据格式与平台要求的一致。 get obs bucket folders error. 请检查OBS服务是否正常,是否可以访问OBS桶数据。
数据量足够,为什么盘古大模型微调效果仍然不好 大模型使用类问题 如何将本地的数据上传至平台 导入数据过程中,为什么无法选中OBS的单个文件进行上传 训练/推理单元与算力的对应关系是什么 提示词工程类 如何让大模型按指定风格或格式回复 为什么其他大模型适用的提示词在盘古大模型上效果不佳 如何判断任务场景应通过调整提示词还是场景微调解决
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“模型开发 > 模型评测 > 任务管理”,可进行如下操作: 克隆。单击操作列的“ 克隆”,可以复制当前评测任务。 启动。单击操作列的“启动”,可以重启运行失败的评测任务。 删除。单击操作列的“删除”,可以删除当前不需要的评测任务。
升级配置后,需重新启动该部署任务,升级模式即为重启的方式。 修改部署配置 完成创建专业大模型部署任务后,可以修改已部署模型的描述信息并升级配置,但不可替换模型。具体步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“模型开发
平台。 数据标注功能支持创建标注任务、标注数据集(标注作业)、审核标注后的数据集(审核作业)与管理标注任务(任务管理)。其中,不同角色权限支持的功能及展示的前端界面略有差异,详见表1。 表1 不同角色支持的数据标注任务权限清单 角色名称 创建标注任务 标注作业任务 审核作业任务 任务管理任务
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 加工任务”,单击界面右上角“创建加工任务”。 在“创建加工任务”页面,选择需要加工的视频类数据集,单击“下一步”。 进入“加工步骤编排”页面。对于视频类数据集,可选择的加工算子请参见表1。
通过数据配比,确保数据集满足大模型训练的高标准。这不仅包括数据规模的要求,还涵盖了数据质量、平衡性和代表性的保证,避免数据不均衡或不具备足够多样性的情况,进而提高模型的准确性和鲁棒性。 提高数据的多样性和代表性 通过合理的数据配比,帮助用户按特定比例组合多个数据集,确保数据集在不同任务场景下的多样性和代表
从控制台获取项目ID 登录管理控制台。 在页面右上角的用户名的下拉列表中选择“我的凭证”。 图1 我的凭证 在“我的凭证”页面,获取项目ID(project_id),以及账号名、账号ID、IAM用户名和IAM用户ID。 在调用盘古API时,获取的项目id需要与盘古服务部署区域一致,例如盘古
在左侧导航栏中选择“数据工程 > 数据获取”,单击界面右上角“创建导入任务”。 在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式
意图识别节点响应意图的准确性。本实践的意图识别节点包含文本翻译意图和其他意图。 文本翻译意图:当用户请求翻译时,意图识别节点的关键任务是准确判断用户翻译的需求,执行翻译节点分支,并给出正确的翻译结果。 如图1,当用户输入翻译类问题时,“意图识别”节点对用户的意图分类为“文本翻译”
数据发布是将数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“标准格式”。 创建视频类数据集发布任务 创建视频类数据集发布任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。 父主题: 数据集格式要求