检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
量的要求较大,如果您的无监督文档量级过小,达不到预训练要求,您可以通过一些手段将其转换为有监督数据,再将转换后的领域知识与目标任务数据混合,使用微调的方式让模型学习。 这里提供了一些将无监督数据转换为有监督数据的方案,供您参考: 基于规则构建:您可以通过采用一些简单的规则来构建有监督数据。比如:
从电子书中提取出所有文本内容。 数据通算单元 数据转换 个人数据脱敏 对文本中的手机号码、身份证件、邮箱地址、url链接、国内车牌号、IP地址、MAC地址、IMEI、护照、车架号等个人敏感信息进行数据脱敏,或直接删除敏感信息。 数据通算单元 中文简繁转换 将中文简体和中文繁体进行转换。 数据通算单元 符号标准化
图片类加工算子介绍 数据加工算子为用户提供了多种数据操作能力,包括数据提取、过滤、转换、打标签等。这些算子能够帮助用户从海量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台提供了图文类、图片类加工算子,算子能力清单见表1。 表1 图片类加工算子能力清单 算子分类
应的评估数据集。 提示词变量是一种可以在文本生成中动态替换的占位符,用于根据不同的场景或用户输入生成不同的内容。其中,变量名称可以是任意的文字,用于描述变量的含义或作用。 提示词评估数据集约束限制 上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。
包年/包月和按需计费模式是否支持互相切换 包年/包月和按需计费模式使用周期内不支持主动切换,需要联系客服进行变更配置。 盘古大模型的资源与资产计费模式不同,详见计费模式。 父主题: 计费FAQ
识别视频中是否包含Logo。 数据智算单元 视频黑边识别 识别视频中是否包含黑边。 数据智算单元 密集文字识别 识别视频中是否包含密集文字,达到密集文字面积占比的视频则为含密集文字视频,一般裁剪面积占比≥7%为密集文字视频。 数据智算单元 父主题: 数据集加工算子介绍
变更计费模式 盘古大模型的模型订阅、数据托管单元、推理单元默认采用包周期计费,训练单元、数据智算单元、数据通算单元采用包周期和按需计费两种方式。 盘古大模型使用周期内不支持变更配置。
执行用户的语音或文本指令。它们可以回答问题、提供信息、完成任务,甚至预测用户需求,为用户提供个性化的服务体验。常见的应用场景包括智能手机、智能家居设备、车载系统等。 二、人工智能助手的功能特点 智能对话:通过先进的自然语言处理技术,人工智能助手能够理解和回应用户的语音或文本输入,实现流畅的人机交互。
力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 所需资源类型 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 数据智算单元 父主题: 数据集加工算子介绍
型消除语义歧义性,识别用户查询意图,并直接生成支持下游操作的结构化JSON信息。大模型的NL2JSON能力可以从自然语言输入抽取关键信息并转换为JSON格式输出,以供下游操作,从而满足该场景下客户需求。 金融场景下,NL2JSON能力可以有效消除用户语义歧义性,提高数据处理的灵活
在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型压缩、在线推理和能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。以下是盘古专业大模型支持的具体操作: 模型 预训练 微调 模型压缩 在线推理 能力调测 Pangu-NLP-BI-4K-20241130
选择合适的模型,从而提高模型的整体效果,详见表1。 此外,不同类型的NLP大模型在训练过程中,读取中文、英文内容时,字符长度转换为Token长度的转换比有所不同,详见表2。 表1 不同系列NLP大模型对处理文本的长度差异 模型名称 可处理最大上下文长度 可处理最大输出长度 说明
效果不佳? 更多 技术专题 技术、观点、课程专题呈现 云图说 通过云图说,带您了解华为云 OCR基础课程 介绍文字识别服务的产品、技术指导和使用指南 OCR系列介绍 文字识别服务在计算机视觉的重要性、基本技术和最新进展 智能客服 您好!我是有问必答知识渊博的的智能问答机器人,有问题欢迎随时求助哦!
创建空间 单击创建好的空间,进入ModelArts Studio大模型开发平台。 如果用户具备多个空间的访问权限,可在页面左上角单击切换空间。 图2 切换空间 管理盘古工作空间 盘古工作空间支持用户查看当前空间详情,修改空间名称与描述,还可以对不需要的空间实现删除操作。 登录ModelArts
去除重复数据:确保数据集中每条数据的唯一性。 填补缺失值:填充数据中的缺失部分,常用方法包括均值填充、中位数填充或删除缺失数据。 数据标准化:将数据转换为统一的格式或范围,特别是在处理数值型数据时(如归一化或标准化)。 去噪处理:去除无关或异常值,减少对模型训练的干扰。 数据预处理的目的是
结构化数据,包括:xlsx、xls、csv格式。 无论是文本文档、演示文稿,还是电子表格文件,用户都可以轻松地将数据导入知识库,无需额外的转换或格式处理。 父主题: 创建与管理知识库
保不同业务场景下的数据获取需求得到满足。 数据加工:平台提供强大的数据加工功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转换、打标签和评分等加工处理。针对不同类型的数据集,平台提供了专用的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量
请求消息体 请求消息体通常以结构化格式发出,与请求消息头中Content-Type对应,传递除请求消息头之外的内容。若请求消息体中参数支持中文,则中文字符必须为UTF-8编码。 每个接口的请求消息体内容不同,也并不是每个接口都需要有请求消息体(或者说消息体为空),GET、DELETE操作类
插件节点 101741 插件组件初始化失败。 检查插件组件配置,可能为校验报错。 101742 工作流插件节点参数类型转换时出错。 根据error message确定具体转换出错的参数名称,并确认类型是否正确。 101743 工作流插件节点的input在插件定义中不存在。 检查插件定义和对应的组件定义是否匹配。
通过这些功能,平台能够帮助用户科学管理和发布数据集,确保数据集质量符合大模型训练的需求,从而提高后续模型训练的效果。 数据发布意义 数据发布不仅仅是将数据转换为不同格式,还包括根据任务需求评估数据集效果,确保数据在规模、质量和内容上满足训练标准。具体而言,数据发布具备以下几个重要意义: 多格式支持