-
修改Notebook SSH远程连接配置 - AI开发平台ModelArts
SSH远程开发开关,更新密钥对和白名单。 “远程SSH开发”开关可以手动打开的场景,请打开远程SSH开发开关,参考图1操作。SSH配置信息更新后,“远程SSH开发”开关打开后不可关闭。 “所选镜像必须配置SSH远程开发”的场景,请参考图2操作。 图1 更新SSH配置信息 图2 修改白名单和密钥对
-
Notebook支持远程登录吗? - AI开发平台ModelArts
Notebook支持远程登录吗? 支持。创建Notebook时,可以开启SSH远程开发选项。在本地IDE通过PyCharm专业版或VS Code远程登录Notebook实例。 父主题: 规格限制
-
远程连接处于retry状态如何解决? - AI开发平台ModelArts
on Host”,选择出问题的实例进行自动清除,然后重新进行连接。 图1 清除异常的实例 方法二(远端):在VS Code的Terminal中删除“/home/ma-user/.vscode-server/bin/”下正在使用的文件,然后重新进行连接。 ssh -tt -o St
-
如何在ModelArts上获得RANK - AI开发平台ModelArts
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env
-
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 - AI开发平台ModelArts
loud,若显示如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 方法二:出现如下图报错,是由于VS Code版本过低,建议升级VS Code版本为1.57.1或者最新版。
-
本地IDE(SSH工具连接) - AI开发平台ModelArts
单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。 图7 连接到云上Notebook实例 父主题: 本地IDE
-
在VS Code中远程调试代码 - AI开发平台ModelArts
代码上传至云端。 Step2 远程调试代码 在VS Code中打开要执行的代码文件,在执行代码之前需要选择合适的Python版本路径,单击下方默认的Python版本路径,此时在上方会出现该远程环境上所有的python版本,选择自己需要的版本即可。 图3 选择Python版本 对于
-
方案概述 - AI开发平台ModelArts
Notebook等线上开发工具工程化开发体验不如IDE,但是本地开发服务器等资源有限,运行和调试环境大多使用团队公共搭建的CPU或GPU服务器,并且是多人共用,这带来一定的环境搭建和维护成本。因此使用本地IDE+远程Notebook结合的方式,可以同时享受IDE工程化开发和云上资源的即开即用,优势互补,满足开发者需求。
-
使用MoXing时,如何进行增量训练? - AI开发平台ModelArts
议设置为一个新的目录,“checkpoint_path”参数设置为上一次训练结果输出路径,如果是OBS目录,路径填写时建议使用“obs://”开头。 如果标注数据中的标签发生了变化,在运行“mox.run”前先执行如果标签发生变化的操作。 mox.run(input_fn=input_fn
-
自动学习项目中,如何进行增量训练? - AI开发平台ModelArts
在数据标注页面,单击未标注页签,在此页面中,您可以单击添加图片,或者增删标签。 如果增加了图片,您需要对增加的图片进行重新标注。如果您增删标签,建议对所有的图片进行排查和重新标注。对已标注的数据, 也需要检查是否需要增加新的标签。 在图片都标注完成后,单击右上角“开始训练”,在“训练设置
-
自动学习项目中,如何进行增量训练? - AI开发平台ModelArts
在数据标注页面,单击未标注页签,在此页面中,您可以单击添加图片,或者增删标签。 如果增加了图片,您需要对增加的图片进行重新标注。如果您增删标签,建议对所有的图片进行排查和重新标注。对已标注的数据, 也需要检查是否需要增加新的标签。 在图片都标注完成后,单击右上角“开始训练”,在“训练设置
-
GP Vnt1裸金属服务器的Docker模式环境搭建 - AI开发平台ModelArts
GP Vnt1裸金属服务器的Docker模式环境搭建 场景描述 本文指导如何在Vnt1裸金属服务器上安装Docker环境(服务器系统需为Ubuntu18.04或Ubuntu20.04)。 操作步骤 NVIDIA驱动安装。 wget https://us.download.nvidia
-
GPU A系列裸金属服务器RoCE性能带宽测试 - AI开发平台ModelArts
GPU A系列裸金属服务器RoCE性能带宽测试 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
-
远程连接出现弹窗报错:Could not establish connection to xxx - AI开发平台ModelArts
远程连接出现弹窗报错:Could not establish connection to xxx 问题现象 原因分析 执行VS Code Remote SSH连接失败。 解决方法 单击弹窗右上角关闭弹窗,查看OUTPUT中的具体报错信息,并参考后续章节列举的几种常见报错解决问题。
-
GPU A系列裸金属服务器节点内NVLINK带宽性能测试方法(Pytorch模式) - AI开发平台ModelArts
GPU裸金属服务器内部GPU间确实走NVLINK模式,且完全互联。 图2 正常模式带宽性能 异常模式-NVLINK部分互通,出现带宽波动较大的情况。如下图中GPU0和GPU4之间带宽远低于理论值, 存在问题。 图3 异常模式带宽性能 出现这种现象, 可尝试重装nvidia/cuda/nvidia-fabricmanager,
-
NPU Snt9B如何快速使用Container-NPU模式 - AI开发平台ModelArts
NPU Snt9B如何快速使用Container-NPU模式 场景描述 本文介绍如何在Snt9B服务器上快速使用Container-NPU模式,本文所使用的服务器操作系统为欧拉系统且已经安装npu-driver。 操作步骤 配置yum源。yum源路径为“/etc/yum.repos
-
GPU A系列裸金属服务器更换NVIDIA和CUDA - AI开发平台ModelArts
败。具体操作请参考GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML。 若遇到加载到内核的nvidia进程循环依赖,无法从内核中卸载nvidia,此时执行reboot命令重启服务器即可。 安装NVIDIA-515和CUDA-11
-
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts
nfs-common 获取SFS Turbo的挂载命令。 进入弹性文件服务SFS管理控制台。 选择“SFS Turbo”进入文件系统列表,单击文件系统名称,进入详情页面。 在“基本信息”页签获取并记录“Linux挂载命令”。 在ECS服务器中挂载NFS存储。 首先保证对应目录存在,然后输入对应指令即可。命令参考:
-
VS Code自动升级后,导致远程连接时间过长 - AI开发平台ModelArts
Code自动升级后,导致远程连接时间过长 问题现象 原因分析 由于VS Code自动升级,导致连接时需要重新下载新版vscode-server。 解决方法 禁止VS Code自动升级。单击左下角选择Settings项,搜索Update: Mode,将其设置为none。 图1 打开Settings
-
GP Vnt1裸金属服务器EulerOS 2.9安装NVIDIA 515+CUDA 11.7 - AI开发平台ModelArts
解析当前正在运行的内核和其他相关信息。 安装过程中的提示均选OK或YES,安装好后执行reboot重启机器,再次登录后执行命令查看GPU卡信息。 nvidia-smi -pm 1 #该命令执行时间较长,请耐心等待,作用为启用持久模式,可以优化Linux实例上GPU设备的性能