检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的采集、清洗、标注、评估、发布等环节,成为数据开发中不可或缺的重要步骤。 数据工程操作流程见图1、表1。
String 模型的部署ID,获取方法请参见获取模型部署ID。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 用于获取操作API的权限。获取Token接口响应消息头中X-Subject-Token的值即为Token。
Face团队推出的一种大模型请求格式。 接口的响应体需要按照jsonpath语法要求进行填写,jsonpath语法的作用是从响应体的json字段中提取出所需的数据。 评测配置 评测类型 选择“自动评测”。 评测规则 选择“基于规则”。 评测数据集 评测模板:使用预置的专业数据集进行评测。
数据发布功能通过数据评估和配比,确保发布的数据集满足大模型训练的高标准。这不仅包括数据规模的要求,还涵盖了数据质量、平衡性和代表性的保证,避免数据不均衡或不具备足够多样性的情况,进而提高模型的准确性和鲁棒性。 提高数据的多样性和代表性 通过合理的数据配比,帮助用户按特定比例组合多个数
部署CV大模型 创建CV大模型部署任务 查看CV大模型部署任务详情 管理CV大模型部署任务 父主题: 开发盘古CV大模型
部署预测大模型 创建预测大模型部署任务 查看预测大模型部署任务详情 管理预测大模型部署任务 父主题: 开发盘古预测大模型
部署专业大模型 创建专业大模型部署任务 查看专业大模型部署任务详情 管理专业大模型部署任务 父主题: 开发盘古专业大模型
部署NLP大模型 创建NLP大模型部署任务 查看NLP大模型部署任务详情 管理NLP大模型部署任务 父主题: 开发盘古NLP大模型
标准化列 指定需要进行最大最小值标准化处理的数值特征的列表。格式为["列名1","列名2"],默认设置为[],表示没有特征需要标准化。标准化将特征值缩放到0到1的范围,处理分布差异较大的数值特征。 预测目标列 指定预测目标变量的列名,仅支持单目标变量预测。格式为["列名"],
流通图片类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个图片类数据集支持发布的格式为: 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要将数据集格式发布为“盘古格式”。 创建文本类数据集流通任务步骤如下: 登录ModelArts
部署科学计算大模型 创建科学计算大模型部署任务 查看科学计算大模型部署任务详情 管理科学计算大模型部署任务 父主题: 开发盘古科学计算大模型
了Token计算器工具。Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。 Token计算器 用户在部署服务的过程中,建议开启“安全护栏”功能,以保证内容的安全性。 父主题: 使用前必读
压缩NLP大模型 模型在部署前,通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。 当前仅支持对NLP大模型进行压缩。 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“模型开发 > 模型压缩”,单击界面右上角“创建压缩任务”。
s Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 使用推理SDK章
流通文本类数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 单个文本类数据集支持发布的格式为: 默认格式:平台默认的格式。 在默认格式中,context和target是键值对。示例如下: {"context": "你好,请介绍自己", "target":
数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、数据合成、数据标注、数据评估、数据配比、数据流通和管理等功能。 该工具链能够高效收集和处理各种格式的数据,满足不同训练和评测任务的需求。通过提供自动化的质量检测和
登录管理控制台。 在页面右上角的用户名的下拉列表中选择“我的凭证”。 图1 我的凭证 在“我的凭证”页面,获取项目ID(project_id),以及账号名、账号ID、IAM用户名和IAM用户ID。 在调用盘古API时,获取的项目id需要与盘古服务部署区域一致,例如盘古大模型当前部署在“西南-贵阳
登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测 > 时序”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择
登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象 > 气象数据”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。