检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
检测数据集质量 数据集创建成功后,平台将对数据集中的数据进行质量校验,并给出健康度评分、合规度评分与数据长度分布。 检测数据集质量 在“数据工程 > 数据管理”页面,选择“我的数据集”或者“训练数据集”页签。 单击数据集名称,进入数据集详情页,查看详细的数据质量。 其中,数据长度
批量评估提示词效果 创建提示词评估数据集 创建提示词评估任务 查看提示词评估结果 父主题: 提示词工程
创建提示词评估任务 选择候选提示词进行批量自动化评估。 登录盘古大模型套件平台。 在左侧导航栏中选择“应用开发 > 提示词工程”,进入提示词工程页面。 在工程任务列表页面,找到所需要操作的工程任务,单击该工程名称,跳转工程任务下候选提示词页面。 图1 提示词工程 选中需要评估的候
预设的期望回答,“生成结果”即模型回复的结果。通过比较“预期结果”与“生成结果”的差异可以判断提示词效果。 图3 查看评估报告 父主题: 批量评估提示词效果
创建提示词评估数据集 批量评估提示词效果前,需要先上传提示词变量数据文件用于创建对应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。
启用模型内容审核 内容审核是文本的检测技术,可自动检测涉黄、涉暴、违规等内容,对用户向模型输入的内容、模型输出内容进行内容审核,帮助客户降低业务违规风险。 授权使用华为云内容审核,有效拦截大模型输入输出的有害信息,保障模型调用安全。 授权后,在调用盘古大模型能力时,模型的输入和输
安装SDK(Python SDK) pip直接安装 执行如下命令: pip install pangu_kits_app_dev_py 本地导入 从support网站上下载pangu-kits-app-dev-py的whl包。 建议使用conda创建一个新的python环境,python版本选择3.9。
准备盘古大模型训练数据集 训练数据集创建流程 模型训练所需数据量与数据格式要求 创建一个新的数据集 检测数据集质量 清洗数据集(可选) 发布数据集 创建一个训练数据集
创建一个新的数据集 创建一个新的数据集,用来管理上传至平台的训练或者评测数据。 创建一个新的数据集 数据集质量检测/数据清洗 对上传的数据进行质量检测,若质量有问题可以进行数据清洗。 检测数据集质量 清洗数据集(可选) 发布数据集 对无质量问题的数据集执行发布操作。 发布数据集 创建一个训练数据集
评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 支持区域: 西南-贵阳一 使用数据工程准备与处理数据集 检测数据集质量 清洗数据集 发布数据集 模型开发工具链
发布提示词 通过横向比较提示词效果和批量评估提示词效果,如果找到高质量的提示词,可以将提示词发布至“提示词管理”中。 登录盘古大模型套件平台。 在左侧导航栏中选择“应用开发 > 提示词工程”,进入提示词工程页面。 在工程任务列表页面,找到所需要操作的工程任务,单击该工程名称,跳转工程任务下候选提示词页面。
习率和较大的批量大小,以提高训练效率。如果微调数据量相对较少,则可以使用较小的学习率和较小的数据批量大小,避免过拟合。 通用模型的规格:如果模型参数规模较小,那么可能需要较大的学习率和较大的批量大小,以提高训练效率。如果规模较大,那么可能需要较小的学习率和较小的批量大小,防止内存溢出。
营异常风险") # 预期Agent返回reportType为经营异常风险检测的Json,呈现给终端用户 session = agent.run_step(session) # 终端用户反悔,想改成欠税信息检测,修改信息后继续让Agent执行 AgentSessionHelper.
组成部分,具备数据获取、清洗、配比和管理等功能。该套件能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程套件还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。
提示词工程 什么是提示词工程 获取提示词模板 撰写提示词 横向比较提示词效果 批量评估提示词效果 发布提示词
基础场景(文本分析、文本生成、文本翻译、query生成、开放问答、知识问答、改写、总结聚合、聊天) 数据批量大小 8 训练轮数 4 学习率 0.000075 优化器 adamw 学习率衰减比率 0.067 热身比例 0.01 NL2SQL场景 数据批量大小 8 训练轮数 4 学习率 0.00001 优化器 adamw
微调数据来源: 需要针对涉及的模块分别构造相关的微调数据。 query改写模块 来源:互联网开源数据集 问答模块 来源一:互联网开源数据集,如政府网站网页、政府在线问答公开数据、政务百科等。 来源二:特定的私域数据,针对于具体场景和项目需求,收集相关的文本数据。比如通过与当地政府的政数局
embedding = embedding_api.embed_query(text) print(embedding) embedding批量文档:把文档批量转换为向量数据。 text = "this is a test text." # embed documents. embeddings
自监督微调训练参数说明 不同模型训练参数默认值存在一定差异,请以前端页面展示的默认值为准。 表2 自监督训练参数说明 训练参数 默认值 范围 说明 数据批量大小 8 >=1 数据集进行分批读取训练,设定每个批次数据的大小。 一般来说,批大小越大,训练速度越快,但会占用更多的内存资源,且可能导致
础功能模型)来获取目标场景的数据,以此扩充您的数据集。为了能获取更高质量的数据,可以通过CoT(思维链)、self-instruct等方式批量调用大模型,来获取满足您要求的数据。 人工标注:如果以上两种方案均无法满足您的要求,您也可以使用“数据标注”功能,采用人工标注方式来获取数据。