检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
远程连接出现弹窗报错:Could not establish connection to xxx 问题现象 原因分析 执行VS Code Remote SSH连接失败。
示例:创建DDP分布式训练(PyTorch+NPU) 本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。 前提条件 需要有Ascend加速卡资源池。 创建训练作业 本案例创建训练作业时,需要配置如下参数。
原因分析 Remote - SSH只能在开源的VSCode软件中使用。 解决方案 推荐使用开源VS Code软件。 父主题: VS Code连接开发环境失败故障处理
如果推理需要使用NPU加速图片预处理,适配了llava-1.5模型,启动时需要设置export ENABLE_USE_DVPP=1,需要安装torchvision_npu,可放到镜像制作脚本.
步骤一:检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
Lite Cluster资源配置流程 本章节介绍Lite Cluster环境配置详细流程,适用于加速卡环境配置。 前提条件 已完成集群资源购买和开通,具体请参见Lite Cluster资源开通。
解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no -i ${IdentityFile} ${User}@${HostName} -p $
-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a 表2 模型镜像版本 模型 版本 CANN cann_8.0.rc2 驱动 23.0.5 PyTorch 2.1.0 Step1 检查环境 SSH
2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b 表2 模型镜像版本 模型 版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 步骤一 检查环境 SSH
2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2406-aarch64-snt9b-20240910112800-2a95df3 表2 模型镜像版本 模型 版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 步骤一 检查环境 SSH
2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b 表2 模型镜像版本 模型 版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 步骤一 检查环境 SSH
请参考Lite Server资源开通,购买Lite Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
远程连接执行前,会自动在(Windows:C:\Users\{{user}}\.ssh或者downloads;Mac/Linux: Users/{{user}}/.ssh或者downloads)目录下根据密钥名称查找密钥文件。
在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。
SSH远程调试功能只限PyCharm专业版。 创建一个Notebook实例,并开启远程SSH开发。该实例状态必须处于“运行中”,具体参见创建Notebook实例章节。
登录机器后,检查NPU设备检查。
登录机器后,检查NPU设备检查。
登录机器后,检查NPU设备检查。
Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。
myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2406-aarch64-snt9b-20240910112800-2a95df3 cann_8.0.rc3 Step1 检查环境 SSH