检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX
py文件内容加载至.ipynb文件后进行编码、调试等。 图5 打开代码文件 在JupyterLab中直接调用ModelArts提供的SDK,创建训练作业,上云训练。 调用SDK创建训练作业的操作请参见调用SDK创建训练作业。 父主题: 通过JupyterLab在线使用Notebook实例进行AI开发
计算节点个数:选择需要的节点个数。 SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。 为了和Notebook调试时代码路径一致,保持相同的启动命令,云上挂载路径需要填写为“/home/ma-user/work”。 单击“提交”,在
训练专属预置镜像列表 ModelArts平台提供了Tensorflow,PyTorch,MindSpore等常用深度学习任务的基础镜像,镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时,您可以基于这些基础镜像制作一个新的镜像并进行训练。 训练基础镜像列表
服务部署、启动、升级和修改时,资源不足如何处理? 问题现象 启动服务失败,报错:资源不足,服务调度失败。(Schedule failed due to insufficient resources. Retry later.或ModelArts.3976:No resources
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor
扩缩容Lite Cluster资源池 场景介绍 当Lite Cluster资源池创建完成,使用一段时间后,由于用户业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Lite Cluster资源池提供了扩缩容功能,用户可以根据需求动态调整资源。 缩
用,方便高效 节点模式,客户可采用开源或自研框架,自行构建集群,更强的掌控力和灵活性 零改造迁移 提供业界通用的k8s接口使用资源,业务跨云迁移无压力 SSH直达节点和容器,一致体验
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
训练速度突然下降以及执行nvidia-smi卡顿如何解决? 问题现象 在高性能8卡GPU的裸金属上的训练任务突然变慢,以前1个epoch约2小时执行完成,最近1个epoch需要2天才能执行完成,并且执行“nvidia-smi”也明显变很卡顿。 原因分析 根据现象描述可能出现了nvidia-smi
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器
使用Notebook进行代码调试 背景信息 Notebook使用涉及到计费,具体收费项如下: 处于“运行中”状态的Notebook,会消耗资源,产生费用。根据您选择的资源不同,收费标准不同,价格详情请参见产品价格详情。当您不需要使用Notebook时,建议停止Notebook,避免产生不必要的费用。
规格:选择8卡GPU规格。 计算节点:1。 SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。 为了和Notebook调试时代码路径一致,保持相同的启动命令,因此云上挂载路径需要填写为“/home/ma-user/work”。 单击“提交”,
服务器的状态变为“运行中”时,弹性云服务器创建成功。单击“名称/ID”,进入服务器详情页面,查看虚拟私有云配置信息。 图4 购买弹性云服务器时选择VPC 图5 查看虚拟私有云配置信息 获取在线服务的IP和端口号 可以通过使用图形界面的软件(以Postman为例)获取服务的IP和端
停止计费 在不需要使用ModelArts服务功能时,需要删除或停止正在计费的项目。自动学习、Workflow、开发环境、模型训练、在线服务、专属资源池涉及到需要停止的计费项如下: 自动学习:停止因运行自动学习作业而创建的训练作业和在线服务。删除存储到OBS中的数据及OBS桶。 W
配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存
修改批量服务配置 对于已部署的服务,您可以修改服务的基本信息以匹配业务变化,更换模型的版本号,实现服务升级。 您可以通过如下两种方式修改服务的基本信息: 方式一:通过服务管理页面修改服务信息 方式二:通过服务详情页面修改服务信息 前提条件 服务已部署成功,“部署中”的服务不支持修改服务信息进行升级。
请求超时返回Timeout 问题现象 服务预测请求超时 原因分析 请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如