检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
配置服务访问授权 配置OBS访问授权 ModelArts Studio大模型开发平台使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下:
取值范围:[0,1)。 给输入数据加噪音的概率 定义了给输入数据加噪音的概率,定义了给输入数据加噪音的概率。加噪音是一种正则化技术,它通过在输入数据中添加随机噪音来增强模型的泛化能力。 取值范围:[0,1]。 给输入数据加噪音的尺度 给输入数据加噪音的尺度,定义了给输入数据加噪音的尺度。这个
数据资产:数据资产是指用户在平台上发布的所有数据集。这些数据集会被存储在数据资产中,用户可以随时查看数据集的详细信息,如数据格式、大小、配比比例等,同时平台会自动记录每个数据集的操作历史,例如创建、发布及上线等过程。为了进一步简化管理,平台还支持数据集的删除功能,使用户能够对数据集进行灵活管理和调整。在模型训
进行选择。 数据配置 训练数据 选择数据集中已发布的数据集,这里数据集需为再分析类型数据,同时需要完成加工作业,加工时需选择气象预处理算子。 训练集 选择训练数据中的部分时间数据,训练数据集尽可能多一些。 验证集 选择验证集中的部分时间数据,验证集数据不能跟训练集数据重合。 层次
创建并管理盘古工作空间 使用数据工程构建NLP大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 对文本类数据集进行加工,包括加工、合成、标注、配比操作。 加工文本类数据集 发布文本类数据集 对文本类数据集进行发布,包括评估、发布操作。
json解析报错 服务端返回的数据格式不符合json格式,导致sdk侧解析json数据报错。 服务端返回的json数据不符合json反序列化的规则,和sdk定义的数据结构不一致,导致反序列化失败。 sdk json数据解析问题。 建议排查服务端返回的数据是否和服务SDK设计的结构、字段一致。
“核采样”等参数的设置,适当增大其中一个参数的值,可以提升模型回答的多样性。 数据质量:请检查训练数据中是否存在文本重复的异常数据,可以通过规则进行清洗。 训练参数设置:若数据质量存在问题,且因训练参数设置的不合理而导致过拟合,该现象会更加明显。请检查训练参数中的 “训练轮次”或
致,质量较差的测试集无法反映模型的真实结果。 数据质量:请检查训练数据的质量,若训练样本和目标任务不一致或者分布差异较大,则会加剧该现象。此外,若可预见实际场景会不断发生变化,建议您定期更新训练数据,对模型进行微调更新。 父主题: 大模型微调训练类
科学计算大模型训练常见报错与解决方案 科学计算大模型训练常见报错及解决方案请详见表1。 表1 科学计算大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。
NLP大模型训练常见报错与解决方案 NLP大模型训练常见报错及解决方案请详见表1。 表1 NLP大模型训练常见报错与解决方案 常见报错 问题现象 原因分析 解决方案 创建训练任务时,数据集列表为空。 创建训练任务时,数据集选择框中显示为空,无可用的训练数据集。 数据集未发布。 请
包年/包月方式购买的资源到期后,请在平台订购管理页面进行续订操作。具体步骤如下: 登录ModelArts Studio大模型开发平台,单击页面右上角“订购管理”。 在“订购管理”页面,单击“资源订购”页签。 在“资源订购”页签可进行数据资源、训练资源、推理资源的续费操作。 父主题: 计费FAQ
为了帮助用户更好地管理和优化Token消耗,平台提供了Token计算器工具。Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。 URI POST /v1/{project_id}/deployments/{deployment_id}/caltokens
功能总览 全部 数据工程工具链 模型开发工具链 应用开发工具链 能力调测 应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
按需计费模式下,若账户欠费,保留期时长同样依据“客户等级”定义。在保留期内的资源处理和费用请参见“保留期”。 如果保留期结束后仍未续订或充值,数据将被删除且无法恢复。
FAILED:表示任务运行失败。 input TaskInputDto object 输入数据的信息。 output TaskOutputDto object 输出数据的信息。 config TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述
创建NLP大模型评测任务 创建NLP大模型评测任务前,请确保已完成创建NLP大模型评测数据集操作。 预训练的NLP大模型不支持评测。 创建NLP大模型自动评测任务 创建NLP大模型自动评测任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
管理NLP大模型训练任务 在训练任务列表中,任务创建者可以对任务进行编辑、克隆(复制训练任务)、重试(重新训练任务)和删除操作。 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“模型开发 > 模型训练”,可进行如下操作:
图1 开始节点配置图 大模型节点配置说明 大模型节点提供了使用大模型的能力,可在节点中配置已部署的模型,用户可以通过编写Prompt、设置参数让模型处理相应任务。 大模型节点为可选节点,若无需配置,可跳过该步骤。 大模型节点配置步骤如下: 拖动左侧“大模型”节点至画布中,单击该节点以打开节点配置页面。
FAILED:表示任务运行失败。 input TaskInputDto object 输入数据的信息。 output TaskOutputDto object 输出数据的信息。 config TaskConfigDto object 科学计算大模型配置信息。 表3 TaskInputDto 参数 参数类型 描述