检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
述,单击“确定”,进入配置合成指令页面。 选择变量标识符为“双大括号{{}}”,输入指令为“请以{{topic}}为主题,写一篇字数不超过{{num}}的散文。” 单击“确定”,再单击“确定”。 图2 配置指令 按照表1进行变量配置。 表1 数据指令变量配置 变量类型 变量名称 变量类型
度语义理解与生成能力的人工智能大语言模型。可进行对话互动、回答问题、协助创作。 盘古大模型在ModelArts Studio大模型开发平台部署后,可以通过API调用推理接口。 表1 API清单 API 功能 操作指导 NLP大模型-文本对话 基于对话问答功能,用户可以与模型进行自然而流畅的对话和交流。
针对不同的任务类型,所需数据量会所有不同。从经验上来说,对于简单的任务,数据量的要求会少一点,如3000到5000条;对于复杂的任务,需要的数据条数更大一些,如2万~10万条。在构造指令微调数据的成本可以接受的情况下,至少准备1万条以上指令微调数据为宜。 数据质量要求: 保证微调数据的正确性,多样性,复杂性。 保
对任务进行补充说明,如补充任务要求、规范输出的格式等。将想要的逻辑你梳理表达出来,会让生成效果更加符合预期。说明需要逻辑清晰、无歧义。 设计任务要求 要求分点列举: 要求较多时需要分点列举,可以使用首先\然后,或1\2\3序号分点提出要求。每个要求步骤之间最好换行(\n)分隔断句,单个要求包含一项内容,不能太长。
息生成一个或多个预测的补全,还可以返回每个位置上不同词语的概率。它可以用来做文本生成、自动写作、代码补全等任务。 开发环境要求 华为云盘古大模型推理SDK要求: Java SDK适用于JDK 1.8及其以上版本。 Python SDK适用于Python3及以上版本。 Go SDK支持go
明确任务需求 需要站在模型的角度理解相关任务的真实底层任务,并清晰描述任务要求。 例如,在文档问答任务中,任务本质不是生成,而是抽取任务,需要让模型“从文档中抽取出问题的答案,不能是主观的理解或解释,不能修改原文的任何符号、字词和格式”, 如果使用“请阅读上述文档,并生成以下问题
在“创建流通任务”页面,选择数据集模态,如“图片 > 图片+Caption”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式:
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据工程常见报错与解决方案
在“创建流通任务”页面,选择数据集模态,如“文本 > 预训练文本”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘古大模型或三方大模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式:
题解决的逻辑。 引导模型分析:如果没有直接的示例或现有示例不适用,可以引导模型首先进行“详细分析”,然后再给出答案。这意味着在提示词中明确要求模型逐步分析问题的各个方面,帮助模型消耗更多的计算资源进行全面推理。这样,模型能够在多个推理步骤后得出更准确的结论,而不是直接跳到最终答案,减少了过度简化或跳跃推理的可能性。
导入文本文档数据。支持上传txt、doc、docx、pdf、ppt、pptx格式的文本文档,要求单个文件不超过10M。 导入表格数据。支持上传xlsx、xls、csv格式的表格数据,要求单个文件不超过10M。 单击“点此上传”上传本地文件至知识库。支持单次上传文件个数不超过300个。
获取模型请求URI。 若调用部署后的模型,可在左侧导航栏中选择“模型开发 > 模型部署”,在“我的服务”页签,模型部署列表单击模型名称,在“详情”页签中,可获取模型的请求URI。 图1 部署后的模型调用路径 若调用预置模型,可在左侧导航栏中选择“模型开发 > 模型部署”,在“预置服务”页
running or have been deleted. 推理服务状态异常。 请检查调用API时deploymentId是否正确,并检查模型的部署状态是否存在异常,如果仍无法解决请联系服务技术支持协助解决。 PANGU.3267 qps exceed the limit. QPS超出限制。
在“创建流通任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前其他类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。
数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合
在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前气象类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。
在“创建流通任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前预测类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。
知识库介绍 平台提供了知识库功能来管理和存储数据,支持为应用提供自定义数据,并与之进行互动。 知识库支持导入以下格式的本地文档: 文本文档数据。支持上传常见文本格式,包括:txt、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分
为什么微调后的盘古大模型评估结果很好,但实际场景表现很差 为什么多轮问答场景的盘古大模型微调效果不好 数据量足够,为什么盘古大模型微调效果仍然不好 数据量和质量均满足要求,为什么盘古大模型微调效果不好
is 0. 该日志表示数据集中的有效样本量为0,可能有如下原因: 数据未标注。 标注的数据不符合规格。 请检查数据是否已标注或标注是否符合算法要求。 父主题: 训练科学计算大模型