检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 数据合成 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 数据标注 为无标签数据集添加准确的标签,确保模型训练所需的高质
导入数据至盘古平台 数据集是一组用于处理和分析的相关数据样本。 用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。 创建导入任务 创建导入任务前,请先按照数据集格式要求提前准备数据。 平台支持使用O
Agent开发 Agent开发平台为开发者提供了一个全面的工具集,帮助您高效地开发、优化和部署应用智能体。无论您是新手还是有经验的开发者,都能通过平台提供的提示词工程、插件扩展、灵活的工作流设计和全链路调测功能,快速实现智能体应用的开发与落地,加速行业AI应用的创新与应用。 对于零码开发者(无代码开发经验的用户):
配置Prompt Builder步骤如下: 在“Prompt builder”模块,可依据模板填写Prompt,单击“示例”,输入框中将自动填入角色指令模板。 示例如图2,您可以依据模板进行填写。 图2 配置Prompt 填写后可通过大模型进行优化,单击“智能优化”,在 “Prompt优化”窗口中单击“确定”。
查看不同提示词在模型中的使用效果。 在撰写提示词页面,找到页面右侧变量输入区域,在输入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需要输入的变量值信息,可以通过“导入”功能进行上传。
“核采样”参数为1的生成结果1 图3 “核采样”参数为1的生成结果2 将“核采样”参数调小至0.1,保持其他参数不变,单击“重新生成”,再单击“重新生成”,可以观察到模型前后两次回复内容的多样性降低。 图4 “核采样”参数为0.1的生成结果1 图5 “核采样”参数为0.1的生成结果2 预置
口数量上全覆盖。 数据中需要提供JSON的字段解释,以及Query和JSON生成逻辑解释。这些信息需要拼入Prompt,并确保人以及大模型可以根据Query、字段解释、Query到JSON的生成逻辑生成符合客户要求的JSON。Prompt会作为输入(context字段)的内容组成
在“预览调试”的左下角,选择是否开启“代码解释器”。 如果开启,应用将支持生成并运行Python代码来解决用户数据处理和分析、数据可视化、数学计算等方面的需求。 如果关闭,应用将不具备生成、运行代码的能力。 在右侧“预览调试”的文本框中输入对话,应用将根据对话生成相应的回答。 应用调试成功后,可执行后续的调用操作调用应用。
参数 参数类型 描述 data String stream=true时,执行Agent的消息以流式形式返回。 生成的内容以增量的方式逐步发送回来,每个data字段均包含一部分生成的内容,直到所有data返回,响应结束。 表5 流式输出的数据单元 参数 参数类型 描述 event String
温度系数(temperature)控制生成语言模型中生成文本的随机性和创造性,调整模型的softmax输出层中预测词的概率。其值越大,则预测词的概率的方差减小,即很多词被选择的可能性增大,利于文本多样化。 多样性与一致性 多样性和一致性是评估LLM生成语言的两个重要方面。 多样性指模型生成的不同输出之间
据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。
数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类清洗算子,算子能力清单见表1。 表1 图片类清洗算子能力清单 算子分类 算子名称 算子描述 数据提取
数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述
checkpoints:在模型训练过程中,用于保存模型权重和状态的机制。 关闭:关闭后不保存checkpoints,无法基于checkpoints执行续训操作。 自动:自动保存训练过程中的所有checkpoints。 自定义:根据设置保存指定数量的checkpoints。 训练参数 训练轮数 表示完成全部训
在完成数据合成后,若无需使用数据标注功能,可直接在“数据合成”页面单击操作列“生成”,生成加工数据集。 加工数据集列表可在“数据工程 > 数据加工 > 加工数据集”中查看。 创建自定义数据合成指令 平台支持用户创建自定义数据合成指令。 本章节将以“生成主题散文”的场景为例,详细介绍自定义数据合成指令的配置步骤。
数据清洗算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的清洗操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。 表1 视频类清洗算子能力清单
有数据标注完成后,页面会出现标注任务成功的提示。 在完成数据标注后,如果无需进行标注审核,可直接在“数据标注 > 任务管理”页面单击“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 审核标注后的文本类数据集 如果在创建文本类数据集标
在空间成员以及编辑所在空间成员角色的权限。 模型开发工程师 可以执行模型开发工具链模块的所有操作,但是不能创建或者删除计算资源,也不能修改所在空间本身。 应用开发工程师 应用开发工程师具备执行应用开发工具链模块所有操作的权限,其余角色不具备。 标注管理员 拥有数据工程数据标注-标注管理模块的所有权限,其余角色不具备。
获取提示词模板 平台提供了多种任务场景的提示词模板,可以帮助用户更好地利用大模型的能力,引导模型生成更准确、更有针对性的输出,从而提高模型在特定任务上的性能。 在创建提示词工程前,可以先使用预置的提示词模板,或基于提示词模板进行改造 。如果提示词模板满足不了使用需求可再单独创建。
创建提示词工程 通过精心设计和优化提示词,可以引导大模型生成用户期望的输出。提示词工程任务的目标是通过设计和实施一系列的实验,来探索如何利用提示词来提高大模型在各种任务上的表现。 撰写提示词前需要先创建提示词工程,用于对提示词进行统一管理。 登录ModelArts Studio大模型开发平台,进入所需空间。