检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
指导的讨论范围中。 已完成迁移环境准备,且代码、预训练模型、数据等训练必需内容已经上传到环境中。 约束和限制 安装插件后,大部分能力能够对标在GPU上的使用,但并不是所有行为和GPU上是一一对应的。例如在torch_npu下,当PyTorch版本低于2.1.0时,一个进程只能操作
多机场景下(即选择的实例数大于1),ModelArts会优先在相同节点上启动一个parameter server(以下简称ps)和一个worker,平台会自动一比一分配ps与worker任务。例如,双机场景会分配2个ps和2个worker任务,并为启动文件额外注入如下参数。 --task_index <VC_TASK_INDEX>
子用户在创建ModelArts的专属资源池过程中,如果需要开启自定义网络配置,需要配置VPC权限。 DEW密钥管理服务 当子用户使用ModelArts Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 OBS对象存储服务 具有对象存储服务(OBS)查看桶列表、获取桶元数据、
Notebook调试方法与使用Notebook进行代码调试、使用Notebook进行代码调试相同)。 创建训练任务 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。
调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS Turbo等方案进行挂载。例如OBS支持静态挂载和动态挂载,而SFS Turbo仅支
计算资源支持按需计费。 表1 适用计费项 计费项 说明 计算资源 公共资源池 包括vCPU、GPU和NPU。 AI专属资源池中的Standard资源池 ModelArts支持购买两种按需计费的资源池,包括公共资源池和专属资源池。 假设您计划购买按需计费的专属资源池,可在ModelArts控制台“AI专属资源池
JOBSTAT_CHECK_RUNNING_COMPLETED,审核作业已经完成。 21 JOBSTAT_CHECK_FAILED,审核作业失败。 父主题: 训练管理(旧版)
否 用于PyTorch引擎加速。 /modelarts 是 / /etc/secret-volume 是 / /etc/sudoers 是 / /etc/localtime 是 / var/run/secrets/kubernetes.io/serviceaccount 是 / 训练任务
创建可视化作业 查询可视化作业列表 查询可视化作业详情 更新可视化作业描述 删除可视化作业 停止可视化作业 重启可视化作业 父主题: 训练管理(旧版)
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
为提升训练效果,建议在增量训练时,选择质量较高的数据,提升数据标注的质量。 增量训练的操作步骤 登录ModelArts管理控制台,单击左侧导航栏的自动学习。 在自动学习项目管理页面,单击对应的项目名称,进入此项目的自动学习详情页。 在数据标注页面,单击未标注页签,在此页面中,您可以单击添加图片,或者增删标签。
Test,测试节点GPU状态,并且测试多个节点间的通信速度。 操作步骤 单击资源池名称,进入资源池详情。 单击左侧“AI组件管理 > AI诊断”。 单击“诊断”,选择“日志上传路径”和NCCL Test节点,其余参数可保持默认值或根据实际需求修改。 测试使用的最大数据:取值范围[1, 1024
执行nvidia_smi + wapper + prettytable命令。 用户可以将GPU信息显示操作看作一个装饰器,在模型训练过程中就可以实时的显示GPU状态信息。 def gputil_decorator(func): def wrapper(*args, **kwargs):
Session鉴权 (可选)Session鉴权 用户名密码认证模式 用户AK-SK认证模式
标注任务类型,返回指定标注任务类型的任务列表。 是 LabelTaskTypeEnum task_name 标注任务名称,名称只能包含中文、字母、数字、中划线和下划线,长度为1-100位。 当输入是数据集对象时,该参数必填 否 str、Placeholder labels 待创建的标签列表 否 Label
公共参数 状态码 错误码 获取项目ID和名称 获取帐号名和帐号ID 获取用户名和用户ID
Lite Cluster资源管理 Lite Cluster资源管理介绍 管理Lite Cluster资源池 管理Lite Cluster节点池 管理Lite Cluster节点 扩缩容Lite Cluster资源池 升级Lite Cluster资源池驱动 升级Lite Cluster资源池单个节点驱动