检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹下,每个文件夹下可以同时包含mp4或avi格式的视频。 单个文件大小不超过50GB,文件数量最多1000个。
表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。
Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。
表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。
当提示词使用“请生成10个跟“手机银行怎么转账”相似的问题”时,模型会认为实体/关键词/场景一致则是相似(在这个例子里实体为手机银行),而不是任务需要的语义级别的相同含义,所以输出内容会发散。 父主题: 提示词写作进阶技巧
CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 提取JSON文件中的键值对信息。
华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。
提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。
用户 由账号在IAM中创建的用户,是云服务的使用人员,具有身份凭证(密码和访问密钥)。 在我的凭证下,您可以查看账号ID和用户ID。通常在调用API的鉴权过程中,您需要用到账号、用户和密码等信息。
获取调用路径。单击左侧“模型开发 > 模型部署”,选择所需调用的NLP大模型,单击“调用路径”,在“调用路径”弹窗获取调用路径。 图6 获取调用路径 获取项目ID。在页面右上角“我的凭证”,在“API凭证”页面可获取项目ID。 图7 获取项目ID 获取Token。
如果状态为“订阅失败”,表示该资产未成功从AI Gallery订阅,可单击“重新订阅”重新从AI Gallery订阅数据资产。 订阅成功后的数据资产,将在“数据工程 > 数据获取 > 原始数据集”中显示,可执行后续的数据加工及发布操作。
附录 状态码 错误码 获取项目ID 获取模型部署ID
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。
表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据 csv 回归模型 异常检测模型 分类模型 回归分类数据 csv 训练预测大模型所需数据量 训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。
分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。 图2 获取训练日志 父主题: 训练NLP大模型
使用规则构建的优点是快速且成本低,缺点是数据多样性较低。 基于大模型的数据泛化:您可以通过调用大模型(比如盘古提供的任意一个规格的基础功能模型)来获取有监督场景。
为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、审计和数据主权保护等机制。在训练和推理过程中,通过数据脱敏、隐私计算等技术手段识别并保护敏感数据,有效防止隐私泄露,保障个人隐私数据安全。
分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如worker-0表示第一个工作节点)进行筛选查看。 图2 获取训练日志 父主题: 训练CV大模型
开发盘古大模型提示词工程 什么是提示词工程 获取提示词模板 撰写提示词 横向比较提示词效果 批量评估提示词效果 发布提示词
当数据清洗任务运行成功后,状态将从“运行中”变为“运行成功”,表示数据已经完成清洗。 在完成数据清洗后,如果无需使用数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。