检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
如何让大模型按指定风格或格式回复 要让模型按照特定风格回复,可以提供领域和角色信息(如目标受众或特定场景),帮助模型理解并捕捉预期风格。 可以在提示词中,明确描述回复风格的要求。例如,若希望模型回答更精炼,可以提示: 你的回复“需要简洁精炼”、“仅包括最重要的信息”或“专注于主要结论”。
B,文件数量最多1000个。 图片+Caption 图片支持tar,Caption支持jsonl 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc.jpg)。图片支持jpg、jpeg、png、bmp格式。 jsonl:图片描述
导入数据至盘古平台 数据集是一组用于处理和分析的相关数据样本。 用户将存储在OBS服务中的数据导入至ModelArts Studio大模型开发平台后,将生成“原始数据集”被平台统一管理,用于后续加工或发布操作。 创建导入任务 创建导入任务前,请先按照数据集格式要求提前准备数据。
"target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 单个文件大小不超过50GB,文件数量最多1000个。。 多轮问答(人设) jsonl jsonl格式:数组格式,
例如,在构造泛化问题的任务中,需要基于原问题改写为相同含义的问题,而不是生成相似的问题。当提示词使用“请生成10个跟“手机银行怎么转账”相似的问题”时,模型会认为实体/关键词/场景一致则是相似(在这个例子里实体为手机银行),而不是任务需要的语义级别的相同含义,所以输出内容会发散。 父主题: 提示词写作进阶技巧
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
数据集格式要求 文本类数据集格式要求 图片类数据集格式要求 视频类数据集格式要求 气象类数据集格式要求 预测类数据集格式要求 其他类数据集格式要求 父主题: 使用数据工程构建数据集
知识库介绍 平台提供了知识库功能来管理和存储数据,支持为应用提供自定义数据,并与之进行互动。 知识库支持导入以下格式的本地文档: 文本文档数据。支持上传常见文本格式,包括:txt、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分
配置OBS访问授权 ModelArts Studio大模型开发平台使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下:
建盘古预测大模型数据集流程见表2。 表2 盘古预测大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 发布预测类数据集 流通预测类数据集 数据流通是将单个
盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数据进行存储和保护。请参考OBS数据保
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
单个评测集:由用户指定评测指标(F1分数、准去率、BLEU、Rouge)并上传评测数据集进行评测。 选择“单个评测集”时需要上传待评测数据集。 评测结果存储位置 模型评测结果的存储位置。 基本信息 评测任务名称 填写评测任务名称。 描述 填写评测任务描述。 参数填写完成后,单击“立即创建”,回退至“模型评测
建盘古CV大模型数据集流程见表2。 表2 盘古CV大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工图片、视频类数据集 清洗图片、视频类数据集 通过
智能文档解析 从PDF(支持扫描版)或图片中提取文本,转化为结构化数据,持文本、表格、表单、公式等内容提取。 数据转换 个人数据脱敏 对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。
数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合