检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在“创建导入任务”页面选择所需要的“文件内容”、“文件格式”、“导入来源”,并单击“选择路径”上传数据文件。 NLP大模型评测数据集支持的格式见表1。 表1 评测数据集格式 模型类型 评测数据集格式 NLP大模型 文本-单轮问答-jsonl格式 上传数据文件后,填写“数据集名称”与“描述”,单击“立即创建”。
请检查上传的数据集文件类型与平台要求的标准文件类型是否一致。 data management query dataset data invalid. 请检查数据集中是否有异常格式的数据。 dataset obs file empty. 检查数据集文件是否还存在于原先的OBS桶中。
一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 项目 华为云的区域默认对应一个项目,这个项目由系统预置,用来隔离物理区域间的资源(计算资源、存储资源和网络资源),以默认项目为单位进行授权,用户可以访问您账号中该区域的所有资源。如果您希望
本节介绍盘古大模型服务在使用过程中的约束和限制。 规格限制 盘古大模型服务的规格限制详见表1。 表1 规格限制 资产、资源类型 规格 说明 模型资产、数据资源、训练资源、推理资源 所有按需计费、包年/包月中的模型资产、数据资源、训练资源、推理资源。 购买的所有类型的资产与资源仅支持在西南-贵阳一区域使用。
视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为涉黄视频。 视频暴恐评分 对视频的暴恐程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为暴恐视频。 视频涉政评分 对视频的涉政程度进行评分,分数越高越危险。评分范围(0
大模型使用类问题 盘古大模型是否可以自定义人设 如何将本地的数据上传至平台 导入数据过程中,为什么无法选中OBS的具体文件进行上传 如何查看预置模型的历史版本
预置模型。 用户在平台中可试用、已订购的预置模型。 用户自行发布的模型。 用户可以将训练完成的模型发布为模型资产。发布的模型支持查看详细信息、编辑属性、删除、导出、导入等操作。 管理模型资产 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“空间资产
中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
示例如下: 去除“参考文献”以及之后的内容:\n参考文献[\s\S]* 针对pdf的内容,去除“0 引言”之前的内容,引言之前的内容与知识无关:[\s\S]{0,10000}0 引言 针对pdf的内容,去除“1.1Java简介”之前的与知识无关的内容:[\s\S]{0,10000}
为什么微调后的盘古大模型总是重复相同的回答 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成了复读机式的结果,即回答中反复出现某一句话或某几句话。这种情况可能是由于以下几个原因导致的,建议您依次排查: 推理参数设置:请检查推理参数中的“话题重复度控制”或“温度”或
为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 标注图片类数据集、标注视频类数据集 发布图片、视频类数据集 评估图片、视频类数据集 平台预置了多种数据类型的基础评估
源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其他地址,使用GET和POST请求查看。
训练参数设置:若数据质量存在问题,且因训练参数设置的不合理而导致过拟合,该现象会更加明显。请检查训练参数中的 “训练轮次”或“学习率”等参数的设置,适当降低这些参数的值,降低过拟合的风险。 推理参数设置:请检查推理参数中的“温度”或“核采样”等参数的设置,适当减小其中一个参数的值,可以提升模型回答的确定性,避免生成异常内容。
为什么微调后的盘古大模型的回答会异常中断 当您将微调的模型部署以后,输入一个与目标任务同属的问题,模型生成的结果不完整,出现了异常截断。这种情况可能是由于以下几个原因导致的,建议您依次排查: 推理参数设置:请检查推理参数中的“最大Token限制”参数的设置,适当增加该参数的值,可以增
用、监管有力的制度,并加强对专项资金的监督和管理。严格控制专项资金的流向和使用范围,严禁有过度功能的行为,坚决杜绝虚假、虚报和恶意投资,建立完善的监督管理制度,加强随时的监督和核查,确保专项资金使用的规范化、严格化、透明化、便结算。”问题:在福田区社会建设专项资金的使用过程中,如
为什么微调后的盘古大模型只能回答训练样本中的问题 当您将微调的模型部署以后,输入一个已经出现在训练样本中的问题,模型生成的结果很好,一旦输入了一个从未出现过的数据(目标任务相同),回答却完全错误。这种情况可能是由于以下几个原因导致的,建议您依次排查: 训练参数设置:您可以通过绘制
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
训练预测大模型时,所需的数据通常为表格格式,即由行和列组成的扁平化数据。具体要求如下: 行:每行代表一个样本。每行与其他行具有相同的列,并且顺序相同,这些行通常按照某种特定顺序排列。 列:每列表示一种特征。每列的数据类型应保持一致,不同列可以具有不同的数据类型。 顺序:表格中的行通常按照特定顺序排列。
ERA5是由欧洲中期天气预报中心(ECMWF)提供的全球气候的第五代大气再分析数据集,它覆盖从1940年1月至今的时间段,提供每小时的大气、陆地和海洋气候变量的估计值。 ERA5数据下载官方指导:https://confluence.ecmwf.int/display/CKB/
数据集的整体质量。 数据发布:平台提供了数据评估、数据配比、数据流通的发布操作,旨在通过数据质量评估与合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,并促进数据的高效流通与应用。 数据评估:数据评估通过对数据集进行系统的质量检查,依据评估标准评估数据的多个维度,旨在发现潜在问题并加以解决。