检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
无监督领域知识数据量无法支持增量预训练,如何进行模型学习 一般来说,建议采用增量预训练的方式让模型学习领域知识,但预训练对数据量的要求较大,如果您的无监督文档量级过小,达不到预训练要求,您可以通过一些手段将其转换为有监督数据,再将转换后的领域知识与目标任务数据混合,使用微调的方式让模型学习。
35 32K 4K 2024年12月发布版本,支持8K序列长度训练,4K/32K序列长度推理。全量微调32个训练单元起训,LoRA微调8个训练单元起训,4个推理单元即可部署,4K支持64并发,32K支持64并发。此模型版本差异化支持预训练特性、INT8量化特性。 Pangu-NLP-N2-128K-3
同一资源是否同时支持包年/包月和按需计费两种模式 盘古大模型的模型订阅、数据托管单元、推理单元默认采用包周期计费。 数据智算单元、数据通算单元默认采用按需计费。 训练单元采用包周期和按需计费两种方式。 两种计费方式不能共存,只支持按照一种计费方式进行订购。 父主题: 计费FAQ
由于请求的实体过大,服务器无法处理,因此拒绝请求。为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则会包含一个Retry-After的响应信息。 414 Request URI Too Long 请求的URI过长(URI通常为网址),服务器无法处理。 415
包年/包月和按需计费模式是否支持互相切换 包年/包月和按需计费模式支持互相切换: 盘古大模型提供包周期计费、按需计费两种计费模式,两种计费模式可通过重新订购互相切换。 例如,退订训练单元的包周期资源后,可重新订购训练单元的按需计费,即可完成切换。 父主题: 计费FAQ
本差异化支持预训练特性、INT8量化特性。 Pangu-NLP-N2-32K-3.1.35 32K 2024年12月发布版本,支持8K序列长度训练,4K/32K序列长度推理。全量微调32个训练单元起训,LoRA微调8个训练单元起训,4个推理单元即可部署,4K支持64并发,32K支
构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数) 单场景推荐训练数据量 单条数据Token长度限制 N1 微调 - 1000条/每场景 ≥ 1万条/每场景 32K N2 微调 - 1000条/每场景 ≥ 1万条/每场景 32K N4 微调 - 1000条/每场景
ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。 使用数
HTTP请求方法,表示服务正在请求操作类型,包括: GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 HEAD:请求服务器资源头部。 PATCH:请求服务器更新资源的部分内容。当资源不存在的时
导入数据过程中,为什么无法选中OBS的具体文件进行上传 在数据导入过程中,平台仅支持通过OBS服务导入文件夹类型的数据,而不支持直接导入单个文件。 您需要将文件整理到文件夹中,并选择该文件夹进行上传。 父主题: 大模型使用类问题
式,按订单的购买周期计费,适用于可预估资源使用周期的场景。 按需计费模式:按需付费是后付费方式,可以随时开通/关闭对应资源,支持秒级计费,系统会根据云服务器的实际使用情况每小时出账单,并从账户余额里扣款。 父主题: 计费FAQ
发布预测类数据集 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测
应用与部署:当大模型训练完成并通过验证后,进入应用阶段。主要包括以下几个方面: 模型优化与部署:将训练好的大模型部署到生产环境中,可能通过云服务或本地服务器进行推理服务。此时要考虑到模型的响应时间和并发能力。 模型监控与迭代:部署后的模型需要持续监控其性能,并根据反馈进行定期更新或再训练。随着新数据的加入,模型可能
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景
请检查原调用请求是否过于频繁,如果是并发过大,可以通过重试机制解决,在代码里检查返回值,碰到这个并发错误可以延时一小段时间(如2-5s)重试请求;也可以后端检查上一个请求结果,上一个请求返回之后再发送下一个请求,避免请求过于频繁。 请与技术支持确认,API是否已完成部署。 APIG
配比文本类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts St
Caption格式支持:jsonl 图片+QA对 图片格式支持:jpg、jpeg、png、bmp,所有图片需保存为tar包。 QA对格式支持:jsonl 物体检测 图片格式支持:jpg、jpeg、png、bmp 标注格式支持:xml 图像分类 图片格式支持:jpg、jpeg、png、bmp
合成文本类数据集 当前,数据合成功能支持合成单轮问答、单轮问答(人设)类型的数据。 创建文本类数据集合成任务 合成文本类数据集任务前,请先完成数据导入操作,具体步骤请参见导入数据至盘古平台。 创建文本类数据集合成任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
的清洗算子以及支持用户创建自定义算子实现个性化的数据清洗诉求。确保生成高质量的训练数据以满足业务需求和模型训练的要求。用户还可以灵活地调整算子编排顺序以及自定义清洗模板,有效提升数据清洗效率并支持大规模数据处理,确保生成的数据集符合训练的标准。 数据合成:平台支持利用预置或自定义
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。