检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建自定义策略时,建议将项目级云服务和全局级云服务拆分为两条策略,便于授权时设置最小授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。 将自定义策略授权给开发者用户组user_group。 在统一身份认证服务控制台的左侧菜单栏中,选择“用
关操作请参见发布技能。 发布免费模型 进入AI Gallery首页,选择“资产集市 > 模型”,进入模型页面。 单击“发布”,弹出“选择云服务区域”,选择区域后单击“确定”跳转到“发布资产到AI Gallery”页面。 发布ModelArts模型 如果是发布新资产。 “发布方式”选择“创建新资产”。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
true:默认值,复制镜像模式,无法极速创建AI应用,SWR源目录中的镜像更改或删除不影响服务部署。 false:不复制镜像模式,可极速创建AI应用,更改或删除SWR源目录中的镜像会影响服务部署。 description String 模型描述信息。 project String
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用
训练过程中无法找到so文件 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致训练失败: libcudart.so.9.0 cannot open shared object file no such file or directory 原因分析 编译生成s
储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买。(并行文件系统) × 免费。 免费。 包月购买。 免费。 × 按需购买。
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
增量模型训练 什么是增量训练 增量训练(Incremental Learning)是机器学习领域中的一种训练方法,它允许人工智能(AI)模型在已经学习了一定知识的基础上,增加新的训练数据到当前训练流程中,扩展当前模型的知识和能力,而不需要从头开始。 增量训练不需要一次性存储所有的
完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
ModelArts的API或SDK支持模型下载到本地吗? ModelArts的API和SDK不支持模型下载到本地,但训练作业输出的模型是存放在对象存储服务(OBS)里面的,您可以通过OBS的API或SDK下载存储在OBS中的文件,具体请参见从OBS下载文件。 父主题: API/SDK
dataset:数据集 obs:OBS swr:SWR model_list:AI应用列表 label_task:标注任务 service:在线服务 conditions 否 Array of Constraint objects 数据约束条件。 value 否 Map<String,Object>
如果训练数据保存在Notebook中,则将其打包成zip文件并上传到指定的obs_path中; 将训练作业提交到ModelArts训练服务中,训练作业会使用当前Notebook的镜像来执行训练作业; 训练任务得到的输出上传到4指定的obs_path中,日志上传到log_url指定的位置中。
验证登录账号。 填写Token描述并选择权限,选择私有仓库访问权限,单击“Generate token”生成Token。 复制生成的Token到编译构建服务即可。 Token生成后,请及时保存,下次刷新页面将无法读取,需要重新生成新Token。 注意填写有效的Token描述信息,避免误删除导致构建失败。
调用 模型基类NewBertForXXX:该类承自NewBertPreTrainedModel。 该类可用于执行AI Gallery工具链服务,此处以文本问答(Question Answering)的任务类型为例: class NewBertForQuestionAnswerin
创建自定义策略时,建议将项目级云服务和全局级云服务拆分为两条策略,便于授权时设置最小授权范围。此处的“trainJob”为项目级云服务、“trainJobobs”为全局级云服务。了解更多 创建用户组并加入用户,步骤请参考Step1 创建用户组并加入用户。 给用户组授权策略。 在IAM服务的用户组列表
Standard模型训练 ModelArts Standard模型训练提供容器化服务和计算资源管理能力,负责建立和管理机器学习训练工作负载所需的基础设施,减轻用户的负担,为用户提供灵活、稳定、易用和极致性能的深度学习训练环境。通过ModelArts Standard模型训练,用户可以专注于开发、训练和微调模型。
Jupyter可以安装插件。 目前jupyter插件多数采用wheel包的形式发布,一次性完成前后端插件的安装,安装时注意使用jupyter服务依赖的环境“/modelarts/authoring/notebook-conda/bin/pip”进行安装,不要使用默认的anacond