检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据工程常见报错及解决方案请详见表1。 表1 数据工程常见报错与解决方案 功能模块 常见报错 解决方案 数据获取 File format mismatch, require [{0}]. 请检查创建数据集时使用的数据,与平台要求的文件内容格式是否一致。 Verification failed. Please check
问OBS服务的权限。 登录ModelArts Studio大模型开发平台首页。 配置OBS访问授权。 方式1:在首页顶部单击“此处”,在“获取依赖服务的授权”弹窗选中授权,并单击“确认授权”。 图1 配置OBS访问授权提示 图2 配置OBS访问授权方式1 方式2:单击首页右上角“设置”,在“设置
单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。 在“数据
单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。 在“数据
横向比较提示词效果 将设置为候选的提示词横向比对,获取提示词的差异性和效果。 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏中选择“Agent 开发 > 提示词工程 > 提示词开发”。 在工程任务列表页面,找到所需要操作的工程任务,单击该工程任务右侧“撰写”。
单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。 在“数据
单击数据集名称查看加工任务的基本信息、加工详情、加工后的数据文件以及数据血缘。 在“基本信息”页签可查看数据集的详细信息及操作概览。 在“加工详情”页签可以查看数据集的加工步骤和运行日志。 在“数据文件”页签可下载加工后的数据文件,可以与原始数据进行比对,查看加工前后的差异。 在“数据
承载REST服务端点的服务器域名或IP。 resource-path 资源路径,即API访问路径。从具体API的URI模块获取。 query-string 查询参数,可选,查询参数前面需要带一个“?”,形式为“参数名=参数取值”。 获取请求URI的步骤详见请求URI,示例如下: https://{endpo
图片类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1、表2。 图文类加工算子能力清单 表1
执行应用,示例将使用Agent开发平台预置的Python解释器预置插件。 “Python解释器插件”能够执行用户输入的Python代码,并获取结果。此插件为应用提供了强大的计算、数据处理和分析功能,用户只需将其添加到应用中,即可扩展功能。 准备工作 请确保您有预置的NLP大模型,
视频类加工算子能力清单 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签和评分等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持视频类数据集的加工操作,分为数据提取、数据过滤、数据打标三类,视频类加工算子能力清单见表1。
入框中输入具体的变量值信息。 输入变量值后预览区域会自动组装展示提示词。也可以直接选择已创建的变量集填入变量值信息,变量集是一个excel文件,每行数据是需要输入的变量值信息,可以通过“导入”功能进行上传。 图1 效果预览 单击“查看效果”,输出模型回复结果,用户可以基于预览的效果调整提示词文本和变量。
盘古科学计算大模型能力与规格 盘古科学计算大模型面向气象、医药、水务、机械、航天航空等领域,融合了AI数据建模和AI方程求解方法。该模型从海量数据中提取数理规律,利用神经网络编码微分方程,通过 AI 模型更快速、更精准地解决科学计算问题。 ModelArts Studio大模型开
如何评估微调后的盘古大模型是否正常 评估模型效果的方法有很多,通常可以从以下几个方面来评估模型训练效果: Loss曲线:通过Loss曲线的变化趋势来评估训练效果,确认训练过程是否出现了过拟合或欠拟合等异常情况。 模型评估:使用平台的“模型评估”功能,“模型评估”将对您之前上传的测
理解底层任务 需要站在模型的角度理解相关任务的真实底层任务,并清晰描述任务要求。 例如,在文档问答任务中,任务本质不是生成,而是抽取任务,需要让模型“从文档中抽取出问题的答案,不能是主观的理解或解释,不能修改原文的任何符号、字词和格式”, 如果使用“请阅读上述文档,并生成以下问题答案”,“生
能较容易的学习知识,那么少量的训练轮数就能达到较好的效果。反之,若任务较复杂,那么可能就需要更多的训练轮数。 数据量级:如果微调数据很多,从客观上来说越多的数据越能接近真实分布,那么可以使用较大的学习率和较大的批量大小,以提高训练效率。如果微调数据量相对较少,则可以使用较小的学习率和较小的数据批量大小,避免过拟合。
表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指
见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 网页 html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本
数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型,单张图片大小不能超过5M,图片总大小不能超过500MB。
具体格式要求详见表1。 表1 其他类数据集格式要求 文件内容 文件格式 文件要求 图片+CV标注 图片+分割标注(图片+xml格式) 要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_2.jpg”,那么标注文件的文件名应为“IMG_2.xml”。具体示例如下: