检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
这种情况可能是由于以下几个原因导致的,建议您依次排查: 测试集质量:请检查测试集的目标任务和分布与实际场景是否一致,质量较差的测试集无法反映模型的真实结果。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,则会加剧该现象。
模型评估:使用平台的“模型评估”功能,“模型评估”将对您之前上传的测试集进行评估。通过查看测试集样本的PPL、BLEU和ROUGE等指标,进行横向(相同训练数据+不同规格的通用模型)或纵向(不同训练数据训练的多个模型版本)对比来判断训练过程是否出现了问题。
目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。
图3 多场景测试-不同语言对 复杂对话场景:如图4,当用户在对话中频繁切换意图时,测试意图识别节点的应答能力,确保其能够理解并适应多变的对话上下文。
模型在测试集上表现不佳,泛化能力差。 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。 对于异常值,视情况进行删除、替换、保留等操作,兼顾模型的收敛与鲁棒性。
表2 验证集选择的时间区段 时间分辨率 推理步数 验证集选择的时间区段(需要至少在以下时间点内,且有连续数据,才能得到1条测试数据。) 1h 24 24h内每1h的数据(例:0点,1点,2点…次日0点)。
这种情况可能是由于以下几个原因导致的,建议您依次排查: 测试集质量:请检查测试集的目标任务和分布与实际场景是否一致,质量较差的测试集无法反映模型的真实结果。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,则会加剧该现象。
'database': { 'video_name':{ // 训练集 train 测试集 test。
管理知识库 Agent开发平台支持对知识库执行获取知识库ID、删除、命中测试操作。 新增、删除知识库中知识文档 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“Agent开发”,跳转至Agent开发平台。
相关度阈值:超过相关度阈值的搜索结果会提交给大模型进行总结,否则被过滤,可以参考知识库中命中测试的相关度分值调整该阈值。 topk召回数量:召回的相关性阈值top切片数量,如topk召回数量为5,则相关性阈值为前5的切片将被召回提交给大模型总结。
模型在测试集上表现不佳,泛化能力差。 优化调整策略如下: 通过统计学方法如计算四分位距、Z-score、样本分布等排查异常值。 通过可视化方法,数据可视化或者使用箱线图进行异常值的排查。 结合数据自身特征,进行异常数据的筛选。
知识库命中测试 平台支持对创建的知识库进行命中测试,以评估知识库的效果和准确性。 命中测试通过将用户的查询与知识库中的内容进行匹配,最终输出与查询相关的信息,并根据匹配的程度进行排序。
相关度阈值 超过相关度阈值的搜索结果会提交给大模型进行总结,否则被过滤,可以参考知识库中命中测试的相关度分值调整该阈值。 取值范围为0.01~0.99。 topk召回数量 召回的相关性阈值top切片数量,如topk召回数量为5,则相关性阈值为前5的切片将被召回提交给大模型总结。
nfs 192.168.xx.xxx:/var/docker/hilens ~/data 挂载后,可以使用以下命令查看: mount 回显如下,则成功: ... ... 192.168.0.150:/var/docker/hilens on ~/data type nfs4 测试