检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据管理”,在“我的数据集”页签找到未发布的数据集,单击操作列“版本发布”执行发布数据集操作。 对不再使用的数据集可以单击“版本收回”撤销当前版本。 图1 发布数据集 父主题: 准备盘古大模型训练数据集
权限。 使用主账号登录盘古大模型套件平台。 在左侧菜单选择“平台管理 > 授权管理”,单击右上角“一键授权”进行授权。 图1 一键授权 父主题: 准备工作
低这些参数的值,降低过拟合的风险。 数据质量:请检查训练数据的质量,若训练样本出现了大量重复数据,或者数据多样性很差,则会加剧该现象。 父主题: 典型训练问题和优化策略
单击存储位置最右侧的图标,选择数据集文件所对应的obs路径,然后输入数据集名称、描述,创建数据集。 创建数据集前,请先将数据上传至OBS。 图4 创建数据集 父主题: 批量评估提示词效果
推理参数设置:请检查推理参数中的“温度”或“核采样”等参数的设置,适当减小其中一个参数的值,可以提升模型回答的确定性,避免生成异常内容。 父主题: 典型训练问题和优化策略
数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大、样本中存在异常数据、样本的多样性较差,都将影响模型训练的效果,建议提升您的数据质量。 父主题: 典型训练问题和优化策略
说明:https://support.huaweicloud.com/productdesc-obs/obs_03_0375.html 父主题: 安全
的长度已经超过模型上限,建议您替换可支持更长长度的模型。 数据质量:请检查训练数据中是否存在包含异常截断的数据,可以通过规则进行清洗。 父主题: 典型训练问题和优化策略
此,数据的收集和处理是大模型训练中的关键环节。 盘古大模型套件平台通过提供数据获取、清洗、配比与管理等功能,确保构建高质量的训练数据。 父主题: 准备盘古大模型训练数据集
清洗数据集(可选) 清洗算子功能介绍 获取数据清洗模板 创建数据集清洗任务 父主题: 准备盘古大模型训练数据集
登录盘古大模型套件平台。 在左侧导航栏中选择“数据工程 > 数据清洗”,进入“清洗模板”页面,在该页面查看预置的数据清洗模板。 图1 获取数据清洗模板 父主题: 清洗数据集(可选)
批量评估提示词效果 创建提示词评估数据集 创建提示词评估任务 查看提示词评估结果 父主题: 提示词工程
况调整“学习率”的值,帮助模型更好收敛。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,则会加剧该现象。 父主题: 典型训练问题和优化策略
息在被窃取后暴露。 系统安全:通过网络隔离、身份认证和鉴权、Web安全等技术保护大模型系统安全,增强自身防护能力,以抵御外部安全攻击。 父主题: 大模型概念类问题
crypt failed”报错,表示解密失败。 解决方案:请联系华为云排查环境变量ak、sk。 图4 Decrypt failed报错 父主题: 训练盘古大模型
根据每个客户的实际对话知识,如帮助文档、案例库和FAQ库等,可以使用“先搜后推”的解决方案。客户的文档库可以实时更新,大模型的应答可以无缝实时更新。(搜索+大模型解决方案) 父主题: 大模型概念类问题
模型规格:理论上模型的参数规模越大,模型能学到的知识就越多,能学会的知识就更难,若目标任务本身难度较大,建议您替换参数规模更大的模型。 父主题: 典型训练问题和优化策略
在评估结果中,“预期结果”即为变量值(问题)所预设的期望回答,“生成结果”即模型回复的结果。通过比较“预期结果”与“生成结果”的差异可以判断提示词效果。 图3 查看评估报告 父主题: 批量评估提示词效果
据质量差,比如数据存在噪声或者分布不均衡,导致训练过程不稳定。你可以尝试提升数据质量的方式来解决。 图5 异常的Loss曲线:异常抖动 父主题: 典型训练问题和优化策略
且文本中不能存在异常字符、分行异常等影响模型训练的问题。问题和答案需要匹配,且不能有空值。 当前仅支持对NLP大模型进行模型评估操作。 父主题: 评估盘古大模型