检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
和数据发布等功能,确保数据的高质量与一致性。工具链能够高效收集并处理各种格式的数据,满足不同训练任务的需求,并提供强大的数据存储和管理能力,为大模型训练提供坚实的数据支持。 模型开发工具链:模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案,涵盖模型训
模型部署”,在“我的服务”页签,模型部署列表单击模型名称,在“详情”页签中,可获取模型的请求URI。 图1 部署后的模型调用路径 若调用预置模型,可在左侧导航栏中选择“模型开发 > 模型部署”,在“预置服务”页签,模型列表单击“调用路径”,获取该模型的请求URI。 图2 预置模型的调用路径
使用盘古NLP大模型创建Python编码助手应用 场景描述 该示例演示了如何使用盘古NLP大模型创建Python编码助手执行应用,示例将使用Agent开发平台预置的Python解释器预置插件。 “Python解释器插件”能够执行用户输入的Python代码,并获取结果。此插件为应用
义信息。 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。
使用盘古应用百宝箱生成创意活动方案 场景描述 该示例演示了如何使用盘古应用百宝箱生成创意活动方案。 应用百宝箱是盘古大模型服务为用户提供的便捷AI应用集,用户可在其中使用盘古大模型预置的场景应用和外部应用,轻松体验大模型开箱即用的强大能力。 操作流程 使用盘古应用百宝箱生成创意活动方案的步骤如下:
清洗文本类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 清洗文本类数据集 合成文本类数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程
创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工图片、视频类数据集 清洗图片、视频类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下: 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。 顺序:表格中的行通常按照特定顺序排列。
加工数据集 数据集加工场景介绍 数据集清洗算子介绍 加工文本类数据集 加工图片类数据集 加工视频类数据集 加工气象类数据集 管理加工后的数据集 父主题: 使用数据工程构建数据集
数据集发布场景介绍 发布文本类数据集 发布图片类数据集 发布视频类数据集 发布气象类数据集 发布预测类数据集 发布其他类数据集 管理发布后的数据集 父主题: 使用数据工程构建数据集
清洗气象类数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 清洗气象类数据集 发布气象类数据集 流通气象类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。
以下示例要求模型以幼儿园老师的风格回答问题: { "messages": [ { "role": "system", "content": "请用幼儿园老师的口吻回答问题,注意语气温和亲切,通过提问、引导、赞美等方式,激发学生的思维和想象力。"
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
应用提示词实现智能客服系统的意图匹配 应用场景说明:智能客服系统中,大模型将客户问题匹配至语义相同的FAQ问题标题,并返回标题内容,系统根据匹配标题调出该FAQ问答对,来解答客户疑问。 父主题: 提示词应用示例
Studio大模型开发平台针对视频类数据集预设了一套基础评估标准,涵盖了视频的清晰度、帧率、完整性、标签准确性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下:
数据发布功能通过数据评估和配比,确保发布的数据集满足大模型训练的高标准。这不仅包括数据规模的要求,还涵盖了数据质量、平衡性和代表性的保证,避免数据不均衡或不具备足够多样性的情况,进而提高模型的准确性和鲁棒性。 提高数据的多样性和代表性 通过合理的数据配比,帮助用户按特定比例组合多个数
格式规范等多个维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
模型训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 数据合成 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成
obs file failed. 请检查网络是否正常,是否可以访问OBS桶中的数据。 数据评估 annotate type is invalid. 请检查上传的数据中,使用的数据标注类型、数据标注要求与平台要求的是否一致。 annotate data not exist. 待评测数据