检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Loss(损失函数值)的变化趋势。损失函数是一种衡量模型预测结果和真实结果之间的差距的指标,正常情况下越小越好。 您可以从平台的训练日志中获取到每一步的Loss,并绘制成Loss曲线,来观察其变化趋势。一般来说,一个正常的Loss曲线应该是单调递减的,即随着训练的进行,Loss值不断减小,直到收敛到一个较小的值。
者直接将插件添加到Agent中,丰富Agent的能力。 自定义插件:平台支持开发者创建自定义插件。支持开发者将工具、Function或者API通过配置方式快速创建为一个插件,并供Agent调用。 自定义知识库:平台提供了知识库功能来管理和存储数据,支持为AI应用提供自定义数据,并
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
此外,平台配备了完善的角色权限体系,覆盖超级管理员、管理员、模型开发工程师等多种角色。通过灵活的权限设置,每位用户能够在其对应的权限范围内安全高效地操作平台功能,从而最大程度保障数据的安全性与工作效率。 父主题: 创建并管理盘古工作空间
权限管理方式,既保证了数据的安全性,又提高了资源的高效利用。 在平台中,空间资产指的是存储在工作空间中的所有资源,包括数据资产和模型资产。这些资产是用户在平台上进行开发和管理的基础,集中存储和统一管理的方式有助于提升操作效率,并确保资源的规范性与安全性。 数据资产:数据资产是指用
bleu-2:模型生成句子与实际句子在词组层面的匹配度,数值越高,表明模型性能越好。 bleu-3:模型生成结果和实际句子的加权平均精确率,数值越高,表明模型性能越好。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型
可帮助用户了解每个数据集的使用情况,从而简化数据资产的维护更新流程。通过这样的统一管理,用户能够更高效地组织和利用数据资源,确保数据资产的安全性和一致性。 管理数据资产 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏“空间资产 > 数据”中可以查
过”。 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。 父主题: 评估视频类数据集
标记数据集问题 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。 父主题: 评估图片类数据集
关性,而负值则表示反向相关。 RQE 衡量预测值与真实值之间差距的指标。它是所有单个观测的相对误差的平方和。该值越小,代表模型性能越好。 获取训练日志 单击训练任务名称,可以在“日志”页面查看训练过程中产生的日志。对于训练异常或失败的任务也可以通过训练日志定位训练失败的原因。典型
标记数据集问题 全部数据评估完成后,评估状态显示为“100%”,表示当前数据集已经评估完成,可以回退到“评估任务”页面,查看,单击操作列“报告”,获取数据集质量评估报告。 父主题: 评估文本类数据集
小、配比比例等。同时,平台支持数据集的删除等管理操作,使用户能够统一管理数据集资源,以便在模型训练和分析时灵活调用,确保数据资产的规范性与安全性。 模型资产:平台提供的模型资产涵盖了预置或训练后发布的模型,所有这些模型将存放于空间资产中进行统一管理。用户可查看预置模型的历史版本和
和应用。 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力
应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力
容一致性、视频清晰度等。 创建数据集评估任务 创建数据集质量评估任务,并基于评估标注对数据逐一评估其质量,评估后的数据可以用于模型训练。 获取数据集评估报告 查看数据集评估任务的进展和数据集质量。 发布数据集 创建数据集发布任务 创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。
数据工程常见报错与解决方案 数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。
使用规则构建的优点是快速且成本低,缺点是数据多样性较低。 基于大模型的数据泛化:您可以通过调用大模型(比如盘古提供的任意一个规格的基础功能模型)来获取有监督场景。一个比较常见的方法是,将无监督的文本按照章节、段落、字符数进行切片,让模型基于这个片段生成问答对,再将段落、问题和答案三者组装
的各种技能和技术。提示工程在实现和大语言模型交互、对接,以及理解大语言模型能力方面都起着重要作用。用户可以通过提示词工程来提高大语言模型的安全性,还可以赋能大语言模型,如借助专业领域知识和外部工具来增强大语言模型的能力。 提示词基本要素 您可以通过简单的提示词(Prompt)获得
图片元数据过滤 基于图片存储大小、宽高比属性进行图片/图文数据清洗。 图片去重 通过把图片结构化处理后,过滤重复的图片/图文对数据。 数据打标 图片鉴黄评分 对图片的涉黄程度进行评分,分数越高越危险。评分范围(0,100),默认评分超过50分的视频可视为涉黄视频。 父主题: 数据集加工算子介绍
基于视频元数据进行过滤,包括帧率、分辨率和视频时长。注:电影标准帧率为24或30FPS。 宽高比过滤 根据视频的宽高比进行过滤。 数据打标 视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为涉黄视频。 视频暴恐评分 对视频的暴恐程