检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发盘古NLP大模型 使用数据工程构建NLP大模型数据集 训练NLP大模型 压缩NLP大模型 部署NLP大模型 评测NLP大模型 调用NLP大模型
评测NLP大模型 创建NLP大模型评测数据集 创建NLP大模型评测任务 查看NLP大模型评测报告 管理NLP大模型评测任务 父主题: 开发盘古NLP大模型
批量评估提示词效果 创建提示词评估数据集 创建提示词评估任务 查看提示词评估结果 父主题: 开发盘古大模型提示词工程
盘古科学计算大模型微调训练实践 微调场景介绍 构建微调训练任务数据集 构建微调训练任务 构建部署任务 微调典型问题 父主题: 模型训练实践
选择所需微调的基础模型,可从“已发布模型”或“未发布模型”中进行选择。 数据配置 训练数据 选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业,加工时需选择气象预处理算子。 训练集 选择训练数据中的部分时间数据,训练数据集尽可能多一些。 验证集 选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。
大模型节点:用于在工作流中引入大模型能力。 意图识别节点:用于根据用户的输入进行意图分类并导向后续不同的处理流程。 提问器节点:提供了在对话过程中向用户收集更多信息的能力。 插件节点:用于引入API插件,根据节点的输入,执行用户定义的插件,将插件执行结果作为节点的输出。 判断节
步骤1:获取文本翻译服务Token与调用地址 本样例场景实现文本翻译服务Token与调用地址的获取。 步骤2:创建并配置多语言文本翻译插件 本样例场景实现多语言文本翻译插件的创建与配置。 步骤1:获取文本翻译服务Token与调用地址 在创建多语言文本翻译工作流的实践中,需要调用华为云文本翻
ModelArts Studio-数据托管单元 用于数据存储(包括数据集,prompt模板等)。 包年/包月 ModelArts Studio-数据通算单元 适用于数据加工,用于正则类算子加工。 不同数据加工算子所需数据资源类型详见数据集加工算子介绍。 按需(时长)计费、包年/包月 ModelArts
的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。 优化举例: 某数据集中,盐度(S)变量在下载过程中存在数据块缺失与数据块偏移的问题,如图1、图2,导致在训练过程中盐度损失异常,波动大且不收敛,如图3。在删除
表1 微调参数的建议和说明 训练参数 范围 建议值 说明 训练轮数(epoch) 1~50 2/4/8/10 训练轮数是指需要完成全量训练数据集训练的次数。训练轮数越大,模型学习数据的迭代步数就越多,可以学得更深入,但过高会导致过拟合;训练轮数越小,模型学习数据的迭代步数就越少,过低则会导致欠拟合。
预训练或微调作业失败,提示验证集数据不足。 验证集选取时间区段是否不足。 验证集选择的时间区段需要满足表2对应关系,请相应地延长验证集的时间区段时长。 数据集中盐度(S)变量在下载过程中,如图1、图2,存在数据块缺失与数据块偏移的问题,将导致训练过程中盐度损失异常,波动大且不收敛,如图3。 模型训练前,未对数据进行加工。
表1 典型微调参数说明 训练参数 范围 建议值 说明 训练轮数(epoch) 1~50 2/4/8/10 训练轮数是指需要完成全量训练数据集训练的次数。训练轮数越大,模型学习数据的迭代步数就越多,可以学得更深入,但过高会导致过拟合;训练轮数越小,模型学习数据的迭代步数就越少,过低则会导致欠拟合。
检查内置模板以及输入的system prompt格式与内容。 提问器节点 101043 当单个提问器内的对话轮数超过预设轮数上限时触发该错误码,对话状态回到开始节点状态。 可通过调大对话轮数上限解决。 101047 初始化深度定制前后处理模块失败时触发该错误码。 可检查护栏配置是否符合要求。
预训练或微调作业失败,提示验证集数据不足。 验证集选取时间区段是否不足。 验证集选择的时间区段需要满足表2对应关系,请相应地延长验证集的时间区段时长。 数据集中盐度(S)变量在下载过程中,如图1、图2,存在数据块缺失与数据块偏移的问题,将导致训练过程中盐度损失异常,波动大且不收敛,如图3。 模型训练前,未对数据进行加工。
户的语音或文本指令。它们可以回答问题、提供信息、完成任务,甚至预测用户需求,为用户提供个性化的服务体验。常见的应用场景包括智能手机、智能家居设备、车载系统等。 二、人工智能助手的功能特点 智能对话:通过先进的自然语言处理技术,人工智能助手能够理解和回应用户的语音或文本输入,实现流畅的人机交互。
低代码构建多语言文本翻译工作流 方案设计 构建流程 效果评估与优化 典型问题 附录 父主题: Agent应用实践
Token计算器 功能介绍 为了帮助用户更好地管理和优化Token消耗,平台提供了Token计算器工具。Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。 URI POST /v1/{project_id}/deployments/{de
附录 创建多语言文本翻译插件 父主题: 低代码构建多语言文本翻译工作流
典型问题 在构建和运行多语言文本翻译工作流时,可能会遇到的常见典型问题如下: 问题一:文本翻译插件运行失败,报错信息如图1。 图1 文本翻译插件运行失败 可能原因:可能存在调用文本翻译API的Token错误或失效问题,具体原因可在界面右上角单击“调试”,在“调用详情 > 调用链”中查看插件输出的错误信息。
令牌(Token)是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token,然后根据模型的概率分布进行采样或计算。 例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个token:“over”、“weight”。在中文中,有些