检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同
创建提示词工程 通过精心设计和优化提示词,可以引导大模型生成用户期望的输出。提示词工程任务的目标是通过设计和实施一系列的实验,来探索如何利用提示词来提高大模型在各种任务上的表现。 撰写提示词前需要先创建提示词工程,用于对提示词进行统一管理。 登录ModelArts Studio大模型开发平台
文本类加工算子介绍 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持文本类数据集的加工操作,分为数据提取、数据转换、数据过滤、数据打标四类,文本类加工算子能力清单见表
优化推理超参数 推理参数(解码参数)是一组用于控制模型生成预测结果的参数,其可以用于控制模型生成结果的样式,比如长度、随机性、创造性、多样性、准确性、丰富度等等。 当前,平台支持的推理参数包括:温度、核采样以及话题重复度控制,表1提供了典型推理参数的建议值和说明,供您参考: 表1
管理盘古数据资产 数据资产介绍 数据资产是指在平台中被纳入管理、存储并可供使用的数据集。 数据资产包含以下两种形式: 用户自行发布的数据集。 用户可以通过“数据工程 > 数据发布 > 数据流通”功能将数据集发布为数据资产。发布的数据集支持查看详细信息、编辑、删除以及发布至AI Gallery
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至发布图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts Studio
编排工作流 Agent平台支持对工作流编排多个节点,以实现复杂业务流程的编排。 工作流包含两种类型: 对话型工作流。面向多轮交互的开放式问答场景,基于用户对话内容提取关键信息,输出最终结果。适用于客服助手、工单助手、娱乐互动等场景。 任务型工作流。面向自动化处理场景,基于输入内容直接输出结果
如何调整推理参数,使盘古大模型效果最优 推理参数(解码参数)是一组用于控制模型生成预测结果的参数,其可以用于控制模型生成结果的样式,如长度、随机性、创造性、多样性、准确性和丰富度等等。 当前,平台支持的推理参数包括:温度、核采样以及话题重复度控制,如下提供了这些推理参数的建议值和说明
盘古工作空间介绍 工作空间功能旨在为用户提供灵活、高效的资产管理与协作方式。平台支持用户根据业务需求或团队结构,自定义创建独立的工作空间。 每个工作空间在资产层面完全隔离,确保资产的安全性和操作的独立性,有效避免交叉干扰或权限错配带来的风险。用户可以结合实际使用场景,如不同的项目管理
如何判断盘古大模型训练状态是否正常 判断训练状态是否正常,通常可以通过观察训练过程中Loss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势
应用介绍 在Agent开发平台上,用户可以构建两种类型的应用: 知识型Agent:以大模型为任务执行核心,适用于文本生成和文本检索任务,如搜索问答助手、代码生成助手等。用户通过配置Prompt、知识库等信息,使得大模型能够自主规划和调用工具。 优点:零代码开发,对话过程智能化。 缺点
发布图片类数据集 数据发布是将数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 图片类数据集支持发布的格式为: 标准格式:如图1,平台默认的格式。该格式的数据集可发布到资产中,但下游模型开发不可见。 图1 图片类数据集标准格式示例 盘古格式:如图2,训练盘古大模型时
高频常见问题 大模型概念类问题 如何对盘古大模型的安全性展开评估和防护 训练智能客服系统大模型需考虑哪些方面 大模型微调训练类问题 如何调整训练参数,使盘古大模型效果最优 如何判断盘古大模型训练状态是否正常 为什么微调后的盘古大模型评估结果很好,但实际场景表现很差 数据量足够,为什么盘古大模型微调效果仍然不好
创建边缘资源池 边缘部署是指将模型部署到用户的边缘设备上,这些设备通常是用户自行采购的服务器,通过ModelArts服务纳管为边缘资源池,然后利用盘古大模型服务将模型部署到这些边缘资源池中。 ModelArts边缘节点是ModelArts平台提供的用于部署边缘服务的终端设备。创建边缘资源池之前需先创建
盘古推理SDK简介 推理SDK概述 盘古大模型推理SDK是对REST API进行的封装,通过该SDK可以处理用户的输入,生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions
使用数据工程构建NLP大模型数据集 NLP大模型支持接入的数据集类型 盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1
NLP大模型训练流程与选择建议 NLP大模型训练流程介绍 NLP大模型的训练分为两个关键阶段:预训练和微调。 预训练阶段:在这一阶段,模型通过学习大规模通用数据集来掌握语言的基本模式和语义。这一过程为模型提供了处理各种语言任务的基础,如阅读理解、文本生成和情感分析,但它还未能针对特定任务进行优化
数据工程使用流程 高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的获取、加工、合成、标注、配比、评估、发布等环节,成为数据开发中不可或缺的重要步骤
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
约束与限制 本节介绍盘古大模型服务在使用过程中的约束和限制。 规格限制 盘古大模型服务的规格限制详见表1。 表1 规格限制 资产、资源类型 规格 说明 模型资产、数据资源、训练资源、推理资源 所有按需计费、包年/包月中的模型资产、数据资源、训练资源、推理资源。 购买的所有类型的资产与资源仅支持在西南