检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包年/包月和按需计费模式有什么区别 包年/包月和按需计费模式的区别如下: 包年/包月计费模式:包年/包月的计费模式是一种预付费方式,按订单的购买周期计费,适用于可预估资源使用周期的场景。 按需计费模式:按需付费是后付费方式,可以随时开通/关闭对应资源,支持秒级计费,系统会根据云服
识,但预训练对数据量的要求较大,如果您的无监督文档量级过小,达不到预训练要求,您可以通过一些手段将其转换为有监督数据,再将转换后的领域知识与目标任务数据混合,使用微调的方式让模型学习。 这里提供了一些将无监督数据转换为有监督数据的方案,供您参考: 基于规则构建:您可以通过采用一些简单的规则来构建有监督数据。比如:
撰写提示词 提示词是用来引导模型生成的一段文本。撰写的提示词应该包含任务或领域的关键信息,如主题、风格、格式等。 撰写提示词时,可以设置提示词变量。即在提示词中通过添加占位符{{ }}标识表示一些动态的信息,让模型根据不同的情况生成不同的文本,增加模型的灵活性和适应性。例如,将提
为什么其他大模型适用的提示词在盘古大模型上效果不佳 提示词与训练数据的相似度关系。 提示词的效果通常与训练数据的相似度密切相关。当提示词的内容与模型在训练过程中接触过的样本数据相似时,模型更容易理解提示词并生成相关的输出。这是因为模型通过学习大量的训练数据,逐渐建立起对特定模式、
可选择开启“多人作业”功能,开启后,可选择多人协同完成作业,并增加审核功能可供选择。参考表2配置标注分配与审核。 表2 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 标注员 添加标注人员与数量。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若
通过统一管理空间资产,平台不仅帮助用户高效组织和利用资源,还保障了资产的安全性、一致性与灵活性。这些功能的结合,确保了平台上资源的高效利用与智能配置,为用户提供了更为便捷的开发和管理体验。 父主题: 产品功能
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
可选择开启“多人作业”功能,开启后,可选择多人协同完成作业,并增加审核功能可供选择。参考表2配置标注分配与审核。 表2 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 标注员 添加标注人员与数量。 标注要求 选择标注项为“图片Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”:
打基础 先制定一个能够明确表达主题的提示词(若模型训练时包含相似任务,可参考模型训练使用的提示词),再由简至繁,逐步增加细节和说明。打好基础是后续提示词优化的前提,基础提示词生成效果差,优化只会事倍功半。 例如,文学创作类可以使用“请创作一个关于{故事主题}的故事”,邮件写作类可以使
功能总览 功能总览 全部 数据工程工具链 模型开发工具链 应用开发工具链 能力调测 应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。
数据工程介绍 数据工程介绍 数据工程是ModelArts Studio大模型开发平台(下文简称“平台”)为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
IAM用户ID。 在调用盘古API时,获取的项目id需要与盘古服务部署区域一致,例如盘古大模型当前部署在“西南-贵阳一”区域,需要获取与贵阳一区域的对应的项目id。 图2 获取项目ID 多项目时,展开“所属区域”,从“项目ID”列获取子项目ID。 调用API获取项目ID 项目ID
可选择开启“多人作业”功能,开启后,可选择多人协同完成作业,并增加审核功能可供选择。参考表2配置标注分配与审核。 表2 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 标注员 添加标注人员与数量。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若
性知识时,可能提供过时的回答。 当前,大模型对于私域数据的利用仍然面临一些挑战。私域数据是由特定企业或个人所拥有的数据,通常包含了领域特定的知识。将大模型与私域知识进行结合,将发挥巨大价值。私域知识从数据形态上又可以分为非结构化与结构化数据。对于非结构化数据,如文档,可以利用大模型+外挂检索库(如Elastic
数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv
为什么微调后的盘古大模型的回答中会出现乱码 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成的结果中出现了其他语言、异常符号、乱码等字符。这种情况可能是由于以下几个原因导致的,建议您依次排查: 数据质量:请检查训练数据中是否存在包含异常字符的数据,可以通过规则进行清洗。
创建NLP大模型评测数据集 NLP大模型支持人工评测与自动评测,在执行模型评测任务前,需创建评测数据集。 评测数据集的创建步骤与训练数据集一致,本章节仅做简单介绍,详细步骤请参见使用数据工程构建NLP大模型数据集。 登录ModelArts Studio平台,进入所需空间。 在左侧导航栏中选择“数据工程
> Token计算器”。 NLP大模型训练类型选择建议 平台针对NLP大模型提供了两种训练类型,包括预训练、微调,二者区别详见表3。 表3 预训练、微调训练类型区别 训练方式 训练目的 训练数据 模型效果 应用场景举例 预训练 关注通用性:预训练旨在让模型学习广泛的通用知识,建立词
计费FAQ 包年/包月和按需计费模式有什么区别 包年/包月和按需计费模式哪个更划算 同一资源是否同时支持包年/包月和按需计费两种模式 包年/包月和按需计费模式是否支持互相切换 资源到期了如何续费
当您在微调过程中,发现模型评估的结果很好,一旦将微调的模型部署以后,输入一个与目标任务同属的问题,回答的结果却不理想。这种情况可能是由于以下几个原因导致的,建议您依次排查: 测试集质量:请检查测试集的目标任务和分布与实际场景是否一致,质量较差的测试集无法反映模型的真实结果。 数据质量: