检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
选择预置标准作为参考项,并填写“评估标准名称”和“描述”。 单击“下一步”,编辑评估项。 用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,填写时确保描述无歧义。 单击“完成创建”以创建评估标准。 评估标准创建完成
选择预置标准作为参考项,并填写“评估标准名称”和“描述”。 单击“下一步”,编辑评估项。 用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,填写时确保描述无歧义。 单击“完成创建”以创建评估标准。 评估标准创建完成
选择预置标准作为参考项,并填写“评估标准名称”和“描述”。 单击“下一步”,编辑评估项。 用户可以基于实际需求删减评估项,或创建自定义评估项。创建自定义评估项时,需要将评估类别、评估项、评估项说明填写清晰,填写时确保描述无歧义。 单击“完成创建”以创建评估标准。 评估标准创建完成
参数设置为默认参数,在输入框输入问题,单击“生成”,模型将基于问题进行回答。 图1 使用预置服务进行文本对话 可以尝试修改参数并查看模型效果。以修改“核采样”参数为例,核采样控制生成文本的多样性和质量: 当“核采样”参数设置为1时,保持其他参数不变,单击“重新生成”,再单击“重
在Agent开发平台,单击左侧导航栏“工作台”,在“插件”页签,单击右上角“创建插件”。 输入插件名称及插件描述,配置完成单击“下一步”。 图6 创建插件 为保证插件检索的效果,平台限制插件名称必须为英文、下划线组合,插件描述会影响插件的选用。 填写“插件URL”(步骤1:获取文本翻译服务Token与调用地址中获
于候选提示词进行比较和评估。 提示词比较 提示词比较支持选择两个候选提示词对其文本和参数进行比较,支持对选择的候选提示词设置相同变量值查看效果。 提示词评估 提示词评估以任务维度管理,支持评估任务的创建、查询、修改、删除。支持创建评估任务,选择候选提示词和需要使用的变量数据集,设
准确性越高。 真实值和预测值 真实值和预测值在图表中的对比情况。 准确率 模型预测结果中,所有预测正确的样本占总样本的比例。数值越高,模型效果越好。 精准率 精准率是指在模型预测为正类的样本中,真正类样本的比例。数值越高,表明模型在检测正类样本时的准确性越高。 召回率 召回率是指
智能体应用的开发与落地,加速行业AI应用的创新与应用。 对于零码开发者(无代码开发经验的用户): 平台提供了Prompt提示词工程和插件自定义等功能,帮助用户在无需编写代码的情况下,快速构建、调优并运行属于自己的大模型应用。通过简单的配置,用户可以轻松创建Agent应用,快速体验智能化应用的便捷性。
、核心技能、执行步骤。 应用会根据盘古NLP大模型对提示词的理解,来响应用户问题。因此,一个好的提示词可以让模型更好地理解并执行任务,应用效果与提示词息息相关。 配置Prompt Builder步骤如下: 在“Prompt builder”模块,可依据模板填写Prompt,单击“
了极大的便利。它们可以根据具体需求,利用盘古大模型构建或优化业务流程,提高工作效率,降低运营成本,并为客户提供更精准、个性化的服务。 模型效果优秀 经过海量数据训练,盘古大模型在各种自然语言处理任务中展现出卓越的性能。无论是文本分类、情感分析、机器翻译,还是问答系统,模型都能以高
在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。 单击“下一步”,可查看效果预览。 单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 启用多人标注 关闭时,默认管理员单人标注。
码实现,也可以人工模拟每一步的执行情况。检索模块可以使用Elastic Search来搭建,也可以利用外部web搜索引擎。在初步验证大模型效果时,可以假设检索出的文档完全相关,将其与query及特定prompt模板拼接后输入模型,观察输出是否符合预期。 选择基模型/基础功能模型
模型生成句子与实际句子基于评估指标得到的评分后,统计得分为5分的占比。 badcase 模型生成句子与实际句子基于评估指标得到的评分后,统计得分1分以下的占比。 用户自定义的指标 由用户定义的指标,如有用性、逻辑性、安全性等。 父主题: 评测NLP大模型
如果选择“图片Caption”标注项,则可开启“AI预标注”功能。AI预标注将自动生成标注内容,不会覆盖原始数据集,供标注人员参考,以提高标注效率。 单击“下一步”,可查看效果预览。 单击“下一步”,参考表1配置标注分配与审核。 表1 标注分配与审核配置 参数类型 参数名称 参数说明 标注分配 启用多人标注 关闭时,默认管理员单人标注。
如果选择“视频Caption”标注项,则可开启“AI预标注”功能。AI预标注将自动生成标注内容,不会覆盖原始数据集,供标注人员参考,以提高标注效率。 如果选择“自定义”标注项,则可自定义添加标注内容及名称,包括单层级分类、多层级分类、文本描述。 单层级分类:单层级分类是最简单的一种标注方式,通常指对视频内容进行单
间,同时保持或接近模型的最佳性能。 过拟合 过拟合是指为了得到一致假设而使假设变得过度严格,会导致模型产生“以偏概全”的现象,导致模型泛化效果变差。 欠拟合 欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。 损失函数 损失函数(Loss
需要提供密钥鉴权参数名和密钥值,安全性较低。 请求头 插件服务的请求头。添加请求的数据格式等说明,敏感信息请通过权限校验的方式实现。 自定义插件使用HTTP服务,或不增加鉴权方式可能存在安全风险。 单击“下一步”,在“参数信息”页面,参照表2完成参数配置。 表2 插件参数配置说明
编排完成的工作流见图12。 图12 多语种翻译工作流编排 步骤2:试运行多语言文本翻译工作流 完成工作流编排后,需要对该工作流进行试运行,以查看工作流效果。工作流试运行步骤如下: 配置文本翻译插件的Token。 单击右上角“试运行”,在“插件配置”中单击“添加参数”,填写X-Auth-Token和Token值,单击“开始运行”。
用户提出的问题,作为运行工作流的输入,与工作流开始节点输入参数对应。 plugin_configs 否 List<PluginConfig> 插件配置,当工作流有配置用户自定义插件节点时,可能需要配置鉴权信息等,具体结构定义详见表4。 表4 PluginConfig参数 参数 是否必选 参数类型 描述 plugin_id
3 核采样(top_p) 0.8 话题重复度控制(presence_penalty) 0 部署推理服务后,可以采用人工评测的方案来评估模型效果。如下提供了本场景可能存在的常见问题,若在评测过程中出现如下问题,可以参考解决: 问题一:JSON字段缺失、JSON字段或值错误。 解决方