检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU业务迁移至昇腾训练推理 ModelArts昇腾迁移调优工具总览 GPU训练业务迁移至昇腾的通用指导 基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导 基于advisor的昇腾训练性能自助调优指导 Dit模型Pytorch迁移与精度性能调优 Msprobe工具使用指导
ModelArts环境挂载目录说明 本小节介绍Notebook开发环境、训练任务实例的目录挂载情况(以下挂载点在保存镜像的时候不会保存)。详情如下: Notebook 表1 Notebook挂载点介绍 挂载点 是否只读 备注 /home/ma-user/work/ 否 客户数据的持久化目录。
ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。 处理方法 在使用Tensorflow多节点作业下载数据时,正确的下载逻辑如下: import
ut/。在OBS桶中新建一个output目录,用于训练的输出路径。 分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。
ut/。在OBS桶中新建一个output目录,用于训练的输出路径。 分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。 “输入”和“输出”中的获取方式全部选择为:环境变量。 “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。
grep net.ipv4.ip_forward Step2 启动镜像 获取基础镜像。建议使用官方提供的镜像。镜像地址{image_url}参见表2。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改
PyTorch 镜像制作 自定义镜像训练 - 此案例介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是CPU或GPU。 从0制作自定义镜像并用于训练(MPI+CPU/GPU) MPI 镜像制作 自定义镜像训练 -
otebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not Found”,请下载别的版本VS Code重新在本地安装,目前推荐: Vscode-1.86
目录是/work 解决方案 这是创建训练作业选用的算法有差异导致的。 如果选择的算法是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/work。 图3 创建算法 如果选择的算法不是使用旧版镜像创建的,那么创建训练作业时输入输出参数的超参目录就是/ma-user。 父主题: 创建训练作业
cfg reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5.4.0-144-generic。 第二条命令为重新生成GRUB引导程序的配置文件,用于在启动计算机时加载操作系统, 命令将使用新安装的内核镜像更新GRUB的配置文件,以便在下次启动时加载新的内核。 父主题:
权限管理 ”,单击“添加授权”。授权对象选择子账号,在已有委托中选择新建的委托,然后单击“创建”。 验证权限是否配置成功。 登录子账号,如果用户能跑通在开发环境中构建并调试推理镜像的案例,在Notebook中制作自定义镜像,然后将调试完成的镜像导入ModelArts的模型中,并部署上线,则表示权限配置成功。
推理服务的端到端运维流程 算法开发阶段,先将业务AI数据存放到对象存储服务(OBS)中,接着通过ModelArts数据管理进行标注和版本管理,然后通过训练获得AI模型结果,最后通过开发环境构建模型镜像。 服务运维阶段,先利用镜像构建模型,接着部署模型为在线服务,然后可在云监控服务(CE
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
联网下载SimSun.ttf时可能会遇到网络问题 联网下载SimSun.ttf时肯会遇到网络问题 tonkenization_qwen.py会在cache中读取SimSun.ttf 文件,如果没有,就会联网下载,可能会遇到: SSL:CERTIFICATE_VERIFY_FAILED
保存Notebook镜像。 进入Notebook控制台,单击“开发空间 > Notebook”,在Notebook实例列表里找到对应的实例,选择“更多 > 保存镜像”。 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 镜像会以快照的形式保存,保
Notebook的SSH远程功能时,需要配置子用户密钥管理服务的使用权限。 OBS对象存储服务 具有对象存储服务(OBS)查看桶列表、获取桶元数据、列举桶内对象、查询桶位置、上传对象、获取对象、删除对象、获取对象ACL等对象基本操作权限。 配置IAM权限 配置ModelArts委托权限 配置SWR组织权限
如果引擎版本选择“自定义”,则需要配置“镜像”参数,选择自定义镜像用于训练作业。 镜像 仅当预置框架的引擎版本选择“自定义”时才显示该参数,且是必填参数。 容器镜像地址的填写支持如下方式。 选择自有镜像或他人共享的镜像:单击右边的“选择”,从容器镜像中选择用于训练的容器镜像。所需镜像需要提前上传到SWR服务中。
Platform=ModelArts-Service 原因分析 出现该问题的可能原因如下: 用户的自定义镜像中无ascend_check工具,导致启动预检失败。 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_