检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
平台还支持实时调整模型参数,以便更好地满足用户需求。 支持区域: 西南-贵阳一 使用盘古预置NLP大模型进行文本对话 应用百宝箱 应用百宝箱是盘古大模型为用户提供的便捷AI应用集,用户可在其中使用盘古大模型预置的场景应用和外部应用,轻松体验大模型开箱即用的强大能力。
在“资源订购”页签可进行数据资源、训练资源、推理资源的续费操作。 父主题: 计费FAQ
盘古格式:使用盘古大模型训练时所需要使用的数据格式,该数据集将被用于ModelArts Studio大模型开发平台的模型开发中使用。 如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式。 填写数据集名称、描述,设置扩展信息后,单击“确定”执行数据集发布操作。
为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中,通过数据脱敏、隐私计算等技术手段识别并保护敏感数据,有效防止隐私泄露,保障个人隐私数据安全。
预训练的NLP大模型不支持评测。 创建NLP大模型自动评测任务 创建NLP大模型自动评测任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
数据资源:数据通算单元适用于数据加工,用于正则类算子加工、数据智算单元适用于数据加工,用于AI类算子加工,数据托管单元适用于数据工程,用于存储数据集。 训练资源:训练单元可用于所有大模型的模型训练、模型压缩功能。
数据标注:数据标注旨在为无标签的数据集添加准确的标签,标注数据的质量直接影响模型的训练效果和精度。针对不同数据集平台支持人工标注与AI预标注两种形式。 其中,图片Caption、视频Caption标注项支持AI预标注功能。
ModelArts Studio大模型开发平台是盘古大模型服务推出的集数据管理、模型训练和模型部署为一体的一站式大模型开发平台及大模型应用开发平台,盘古NLP大模型、科学计算大模型、专业大模型能力通过ModelArts Studio大模型开发平台承载,它提供了包括盘古大模型在内的多种大模型服务
因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下: 登录ModelArts Studio大模型开发平台首页。 配置OBS访问授权。 方式1:在首页顶部单击“此处”,在弹窗中选择授权项,并单击“确认授权”。
在大模型的微调效果调优过程中,训练数据优化、训练超参数优化、提示词优化以及推理参数优化是最重要的几个步骤。 训练数据的优化是提升模型效果的基础。通过数据加工、去噪以及数据增强等手段,可以提高训练数据的质量和多样性,从而增强模型针对于训练场景的效果和模型的泛化能力。
使用“能力调测”调用NLP大模型 能力调测功能支持用户调用预置或训练后的NLP大模型。使用该功能前,请完成模型的部署操作,步骤详见创建NLP大模型部署任务。
如何查看预置模型的历史版本 ModelArts Studio平台支持查看预置模型的多个历史版本,并提供对历史版本进行训练等操作的功能。您还可以查看每个版本的操作记录、状态以及其他基础信息。
这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1。
数据预处理优化 模型训练前,需要对数据进行加工,防止某些特征存在极端异常值或大面积错误数据,导致模型训练不稳定。可能会引发如下问题: 模型对异常值过度敏感,导致拟合异常值而非整体数据分布。 训练过程中损失波动较大,甚至出现梯度爆炸。 模型在测试集上表现不佳,泛化能力差。
创建科学计算大模型部署任务 平台支持部署训练后的模型或预置模型,操作步骤如下: 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“创建部署”。 在“创建部署”页面,参考表1完成部署参数设置。
该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 标注数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。
导入数据至盘古平台 加工气象类数据集 加工气象类数据集 通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。
创建NLP大模型部署任务 平台支持部署训练后的模型或预置模型,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“模型开发 > 模型部署”,单击界面右上角“创建部署”。
目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。
训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使用的限制和许可,从而保护数据版权并避免版权纠纷。