检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
Face团队推出的一种大模型请求格式。 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。 评测配置 评测类型 选择“自动评测”。 评测规则 选择“基于规则”。 评测数据集 评测模板:使用预置的专业数据集进行评测。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
2024年11月发布的版本,仅支持32K序列长度推理部署。 在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型评测、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。以下是盘古NLP大模型支持的具体操作: 表2 盘古NLP大模型支持的能力
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的视频类数据集,单击“下一步”。 进入“清洗步骤编排”页面。对于视频类数据集,可选择的清洗算子请参见表1。
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的文本类数据集,单击“下一步”。 进入“清洗步骤编排”页面。对于文本类数据集,可选择的清洗算子请参见文本类清洗算子能力清单。
低代码构建多语言文本翻译工作流 方案设计 构建流程 效果评估与优化 典型问题 附录 父主题: Agent应用实践
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的气象类数据集,单击“下一步”。 进入“清洗步骤编排”页面。对于气象类数据集,可选择的清洗算子请参见表1。
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。
流通图片类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 创建文本类数据集流通任务步骤如下: 登录ModelArts
附录 创建多语言文本翻译插件 父主题: 低代码构建多语言文本翻译工作流
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 配比文本类数据集 流通文本类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。
全球中期天气要素预测模型的训练类型选择建议: 全球中期天气要素预测模型的训练支持预训练、微调两种操作,如果直接使用平台预置的中期天气要素预测模型不满足您的使用要求时,可以进行预训练或微调。预训练、微调操作的适用场景如下: 预训练:训练用于添加新的高空层次、高空变量或表面变量。
描述不仅可以包含视频中的内容信息,还可以包括视频中的场景、动作、事件或其他细节。这种方式不局限于预设的分类标签,能够灵活地记录视频中一些更复杂的内容。 图3 文本描述示例-视频片段描述 单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置 参数类型 参数名称 参数说明
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下: 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。 顺序:表格中的行通常按照特定顺序排列。
请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 content type [%s] not support, only [%s] support. 数据集中的内容不支持,请保证上传的数据格式与平台要求的一致。 get obs bucket folders error. 请检查OBS服务是否正常,是否可以访问OBS桶数据。
供准确的预测结果。 应用与部署:当大模型训练完成并通过验证后,进入应用阶段。主要包括以下几个方面: 模型优化与部署:将训练好的大模型部署到生产环境中,可能通过云服务或本地服务器进行推理服务。此时要考虑到模型的响应时间和并发能力。 模型监控与迭代:部署后的模型需要持续监控其性能,并
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据清洗”,单击界面右上角“创建清洗任务”。 在“创建清洗任务”页面,选择需要清洗的图片类数据集,单击“下一步”。 进入“清洗步骤编排”页面。对于图片类数据集,可选择的清洗算子请参见表1。
单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 启用多人标注 关闭时,默认管理员单人标注。 启用时,可以指定参与标注的人员及标注数量。 标注要求 选择标注项为“图片Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”:
各节点的功能和设计思路: 开始节点:作为工作流的入口,开始节点负责接收用户输入的文本。无论是普通对话文本,还是包含翻译请求的文本,都将从此节点开始。 意图识别节点:该节点对用户输入的文本进行分类和分析,识别出用户的意图。主要包括以下两种意图: 文本翻译意图:系统识别出用户希望进行文本翻译的请求。