检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择要包含在每个新API请求中的过去消息数。这有助于为新用户查询提供模型上下文。参数设置为10,表示包括5个用户查询和5个系统响应。该参数只涉及多轮对话功能。 体验预置模型文本补全能力 进入“文本补全”页签,选择模型与示例,参数设置为默认参数,在输入框输入问题,单击“生成”,模型将基于问题进行回答。
问题设置为“以下是一篇文章的第一个句子:xxx/第一段落:xxx。请根据以上的句子/段落,续写为一段不少于xx个字的文本。”,再将回答设置为符合要求的段落。 扩写:根据段落的其中一句或者一段续写成完整的段落。 若您的无监督文档没有任何结构化信息,可以将有监督的问题设置为“以下是一
会被转换成Token,然后根据模型的概率分布进行采样或者计算。 例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个Token:“over”和“weight”。在中文中,有些汉字会根据语义被整合,如“等于”、“王者荣耀”。 例如,在盘古NLP大模型中,1token≈0
int: return a + b @Tool说明: name。工具的标识,建议为英文且与实际工具含义匹配,在同一个Agent中唯一。 description。工具的描述,建议为中文,尽可能的简短描述工具。 principle。何时使用该工具,为重要参数,该描述直接影响
估。 支持对用例集的创建、查询、修改、删除。 提示词工程任务管理 提示词工程平台以提示词工程任务为管理维度,一个任务代表一个场景或一个调优需求,在提示词工程任务下可以进行提示词的调优、比较和评估。 提示词工程任务管理支持工程任务的创建、查询、修改、删除。 提示词调优 提示词调优支
"context":"诗仙指的是哪位诗人?","target": "唐代诗人李白为诗仙。"} 有监督多轮,JSONL格式 编码格式为UTF-8。 每一行表示一段文本,为数组格式,至少一组问答对,形式为[{"context":"context内容1","target":"target内容1"}
审计 云审计服务(Cloud Trace Service,CTS)是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建、配置追踪器后,CTS可记录用户使用盘古的管理事件和数据事件用于审计。
盘古大模型「应用百宝箱」上线 应用百宝箱是盘古大模型为用户提供的便捷AI应用集,首批支持14个开箱即用的大模型应用。用户可在其中使用盘古大模型预置的场景应用和外部应用,轻松体验大模型开箱即用的强大能力。 公测 体验盘古驱动的应用百宝箱 3 盘古大模型「能力调测」功能上线 为用户提供了文本补全和多轮对话两
decay)的机制,可以有效地防止过拟合(overfitting)的问题。 学习率衰减比率 0.00001 0~1 学习率衰减后,最小不会低于的学习率。计算公式为:学习率*学习率衰减比率。 热身比例 0.1 0~1 热身阶段占整体训练的比例。 模型刚开始训练时,如果选择一个较大的学习率,可能导致模型训
移除文本尾部冗余的信息。 冗余段落过滤 移除文本中的冗余段落。 字符归一化 将文本中不同的字符风格统一显示,如①,⑴,㊀,⒈,⓵,➊,❶,➀统一显示为1.,1.,1.,1.,1.,1.,1.,1.。 数据过滤 符号比率过滤 如果文本中符号比例大于指定阈值时,则过滤文本,符号包括特殊符号、标点符号、大中小。
org.apache.commons.io.FileUtils; // 加载原始内容, 需根据文件源自行实现读取步骤 // 以txt文件为例; String context = FileUtils.readFileToString(new File("D:/test.txt")
消息头,从而通过身份认证,获得操作API的权限。 Token的有效期为24小时,需要使用一个Token鉴权时,可以先缓存起来,避免频繁调用。 如果您的华为云账号已升级为华为账号,将不支持获取账号Token。建议为您自己创建一个IAM用户,获取IAM用户的Token。 获取Token方法:
/** * Agent的状态为RUNNING,不为FINISHED,所以需要调用工具, * 示例:调用的工具为meeting_room_status_query,入参为{"start": "2024-05-07 14:00",
step:已完成的训练步数。 batch_size:每个训练步骤中使用的样本数据量。 sequence:每个数据样本中的token数量。 数据量以token为单位。 优化器 adamw adamw 优化器参数指的是用于更新模型权重的优化算法的相关参数,可以选择adamw。 adamw是一种改进的A
复上采样方式来扩充数据,但该方法不适用于大模型微调的场景,这将导致模型的过拟合。因此可以通过一些规则来扩充数据,比如:同义词替换、语法结构修改、标点符号替换等,保证数据的多样性。 基于大模型的数据泛化:您可以通过调用大模型(比如盘古提供的任意一个规格的基础功能模型)来获取目标场景
指标看板使用BLEU指标评价模型,其核心思想是计算准确率。例如,给定一个标准译文(reference)和一个算法生成的句子(candidate),BLEU-1的计算公式为候选句中出现于标准译文中的单词数(m)与候选句总单词数(n)的比值,即m/n。指标看板通过BLEU-1、BLEU-2与BLEU-4评价模型性能。
换成token,然后根据模型的概率分布进行采样或计算。不同系列模型在读取中文和英文内容时,字符长度转换为token长度的转换比如下。以N1为例,盘古模型1token≈0.75个英文单词,1token≈1.5汉字。 表3 token比 模型规格 token比(token/英文单词)
以采用PPL(困惑度),或训练一个二分类模型等方式过滤脏数据。 数据增强:您可以通过一些规则来提升数据的多样性,比如:同义词替换、语法结构修改、标点符号替换等,保证数据的多样性。 基于大模型的数据泛化:您可以通过调用大模型(比如盘古提供的任意一个规格的基础功能模型)来获取目标场景