检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
括号),使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后,将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update
件驱动安装。 图4 检查npu-smi工具 查看环境信息。执行如下命令查看当前拿到的机器的固件和驱动版本。 npu-smi info -t board -i 1 | egrep -i "software|firmware" 图5 查看固件和驱动版本 其中firmware代表固件版本,software代表驱动版本。
install linux-headers-5.4.0-144-generic linux-image-5.4.0-144-generic grub-mkconfig -o /boot/efi/EFI/ubuntu/grub.cfg reboot 第一条命令为安装Linux内核头文件和内核镜像,其中版本为5
确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。 训练场景主要查看自研的依赖包是否正常,查看pip list是否包含所需的包,查看容器直接调用的pytho
训练输出路径被其他作业使用 问题现象 在创建训练作业时出现如下报错:操作失败!Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析 根据报错信息判断,在创建训练作业时,同一个“训练输出路径”在被其他作业使用。
自如何获取ModelArts训练容器中的文件实际路径? 如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径(绝对路径) os.path.realpath(__ file __) #获得文件所在的路径(绝对路径) 也可在搜索引擎寻
模型大小计算失败。子路径xxx在路径xxx下不存在。 Model size calculated failed.Can not find %s child directory in current model directory %s. 修改子路径为正确的路径后重试,或者联系技术支持。
d/v1.7.6/nerdctl-1.7.6-linux-arm64.tar.gz # 将程序解压至运行目录中 tar -zxf nerdctl-1.7.6-linux-arm64.tar.gz -C /usr/bin/ # 查看是否安装成功 nerdctl -v 安装bui
本文主要介绍如何在Lite Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控、诊断、系统验证、策略、电源和时钟管理、配置管理和审计等。
T。 查看可用IP数量(可选) 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”,进入“网络”页签,单击网络列表中某个网络操作列的“更多 > 查看可用IP数量”,可以看到该网络所在的网段中可以使用的IP地址数量。 图3 查看可用IP数量
删除:针对模型的某一版本进行删除。 查看模型详情 当模型创建成功后,您可以进入模型详情页查看模型的信息。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型管理”,进入“自定义模型”列表页面。 单击目标模型名称,进入模型详情页面。 您可以查看模型的基本信息、模型精度,以及切换页签查看更多信息。 表3
在ModelArts训练代码中,如何获取依赖文件所在的路径? 由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。因此推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 以下示例展示如何通过os接口获得其他文件夹下的依赖文件路径。 文件目录结构:
在ModelArts中使用Moxing复制数据时如何定义路径变量? 问题描述 mox.file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), m
如果使用OBS中转需要提供一个OBS中转路径,可以通过以下三种方式提供: 图6 通过OBS中转路径上传 仅第一次单击“OBS中转”需要提供OBS中转路径,以后默认使用该路径直接上传,可以通过上传文件窗口左下角的设置按钮更新OBS中转路径。如图10所示。 方式一:在输入框中直接输入有效的OBS中转路径,然后单击“确定”完成。
d/v1.7.6/nerdctl-1.7.6-linux-arm64.tar.gz # 将程序解压至运行目录中 tar -zxf nerdctl-1.7.6-linux-arm64.tar.gz -C /usr/bin/ # 查看是否安装成功 nerdctl -v 安装bui
算法代码中,输入路径指代的参数。 “输入-获取方式” 本次训练作业的输入采用的获取方式。 “输入-本地路径(训练参数值)” 训练启动后,ModelArts将OBS路径中的数据下载至后台容器,本地路径指ModelArts后台容器中存储输入数据的路径。 “输出-输出路径” 本次训练中,输出数据的OBS路径。
'manylinux1_x86_64'), ('cp36', 'cp36m', 'linux_x86_64'), ('cp36', 'abi3', 'manylinux1_x86_64'), ('cp36', 'abi3', 'linux_x86_64'), ('cp36', 'none', 'manylinux1_x86_64')
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能