检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
生效时间以原到期时间为准,需支付从进入保留期开始至续费时的费用。 账户欠费后,部分操作将受限,建议您尽快续费。具体受限操作如下: 按需方式的API接口不可调用。 无法开通服务。
费或冻结状态。 检查开发环境要求,确认本地已具备开发环境。 登录“我的凭证 > 访问密钥”页面,依据界面操作指引获取Access Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和s
用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。 是,审核员会检查标注员的标注内容,若发现问题,审核员可注明原因并驳回标注数据,标注员需重新标注。 启用多人审核 关闭时,默认管理员单人审核 启用时,可以指定参与审核的人员及审核数量。
由于训练初期模型的权重通常是随机初始化的,预测能力较弱,若直接使用较大的学习率,可能导致更新过快,进而影响收敛。为解决这一问题,通常在训练初期使用较小的学习率,并逐步增加,直到达到预设的最大学习率。通过这种方式,热身比例能够避免初期更新过快,从而帮助模型更好地收敛。 学习率衰减比率 用于控制训练过程中学习率下降的幅度。
支持已部署服务、外部服务两种选项。单次最多可评测10个模型。 已部署服务:选择部署至ModelArts Studio平台的模型进行评测。 外部服务:通过API的方式接入外部模型进行评测。选择外部服务时,需要填写外部模型的接口名称、接口地址、请求体、响应体等信息。 请求体支持openai、tgi、自
是否完整,如果不完整,则过滤。 广告数据过滤 按照句子的过滤粒度,删除文本中包含广告数据的句子。 QA对过滤 过滤包含以下情况的QA对: 问题不是string格式。 回答为空。 回答无意义。 语种过滤 通过语种识别模型得到文档的语言类型,筛选所需语种的文档。 全局文本去重 检测并
分任务的需求。 在一个客户服务问答系统中,可以用特定领域(如电商、保险)的对话数据对预训练模型进行微调,使其更好地理解和回答与该领域相关的问题。 此外,针对微调训练任务,平台提供了两种微调方式: 全量微调:适合有充足数据并关注特定任务性能的场景。在全量微调中,模型的所有参数都会调
测大模型数据集流程见表2。 表2 盘古预测大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 发布预测类数据集 流通预测类数据集 数据流通是将单个数据集发
"tar_name":"tar包名称(1.tar)","conversations":[{"question":"问题1","answer":"回答1"},{"question":"问题2","answer","回答2"}]} 单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
工作空间内,拥有合适的访问与操作权限。这种精细化的权限管理方式,既保证了数据的安全性,又提高了资源的高效利用。 在平台中,空间资产指的是存储在工作空间中的所有资源,包括数据资产和模型资产。这些资产是用户在平台上进行开发和管理的基础,集中存储和统一管理的方式有助于提升操作效率,并确保资源的规范性与安全性。
数据智算单元、数据通算单元按单元使用数量和时长后付费,时长精确到秒,数据托管单元按订购数量和时长预付费,提供1个月到1年供客户选择。 模型训练资源支持两种计费方式,包周期按订购数量和时长预付费,提供1个月到1年供客户选择;按需订购按单元使用数量和时长后付费,时长精确到秒。 模型推理资源按推理单元订购
择缩实例升级时,系统会先删除旧版本,再进行升级,期间旧版本不可使用。 图1 升级模式 升级配置后,需重新启动该部署任务,升级模式即为重启的方式。 修改部署配置 完成创建NLP大模型部署任务后,可以修改已部署模型的描述信息并升级配置,但不可替换模型。具体步骤如下: 登录ModelArts
择缩实例升级时,系统会先删除旧版本,再进行升级,期间旧版本不可使用。 图1 升级模式 升级配置后,需重新启动该部署任务,升级模式即为重启的方式。 修改部署配置 完成创建CV大模型部署任务后,可以修改已部署模型的描述信息并升级配置,但不可替换模型。具体步骤如下: 登录ModelArts
并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样
样性和泛化能力。 数据标注 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 通过这些数据加工操作,平台能够有效清理噪声数据、标准化数据格式,并优化数据
数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。
型服务,提供覆盖全生命周期的大模型工具链。 ModelArts Studio大模型开发平台为开发者提供了一种简单、高效的开发和部署大模型的方式。平台提供了包括数据处理、模型训练、模型部署、Agent开发等功能,以帮助开发者充分利用盘古大模型的功能。企业可以根据自己的需求选取合适的
在设置这个参数时,需要注意init_channels要能够整除num_heads里的两个数。调大此参数,模型会变大,可能会导致内存不足的问题。取值需大于0。注意此值调大可能会引起内存不足的场景,导致训练作业失败。 正则化参数 路径删除概率 用于定义路径删除机制中的删除概率。路径