检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
如果使用的是专业版的MobaXterm工具,请参考图3 设置“Stop server after”,此参数默认值为360s,将其设置为3600s或更大值。 图3 设置“Stop server after” 父主题: VS Code连接开发环境失败故障处理
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
报错“Connection permission denied (publickey)”如何解决 问题现象 VS Code连接开发环境时报错“Connection permission denied (publickey). Please make sure the key file
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
open”如何解决? 问题现象 原因分析 原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下:
用户如何设置默认的kernel? 用户希望打开Notebook默认的kernel为自己自定义的kernel。 解决方式: 在Terminal里执行如下命令在镜像里指定环境变量。 # python-3.7.10这里指用户想设置的kernel名称 export KG_DEFAULT_
Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练:
VS Code手动连接Notebook 本地IDE环境支持PyCharm和VS Code。通过简单配置,即可用本地IDE远程连接到ModelArts的Notebook开发环境中,调试和运行代码。 本章节介绍基于VS Code环境访问Notebook的方式。 前提条件 已下载并安装VS
我的镜像”页面,执行刷新操作后可查看到对应的镜像信息。 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obsutil,请参见安装和配置OBS命令行工具。
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
VS Code连接后长时间未操作,连接自动断开 问题现象 VS Code SSH连接后,长时间未操作,窗口未关闭,再次使用发现VS Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SS
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows:
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决? 问题现象 原因分析 通过查看日志发现本地vscode-scp-done.flag显示成功上传,但远端未接收到。
timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败故障处理
s申请更多资源。 图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。
创建模型成功后,部署服务报错,如何排查代码问题 问题现象 创建模型成功后,部署服务失败,如何定位是模型代码编写有问题。 原因分析 用户自定义镜像或者通过基础镜像导入的模型时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。 处理方法 服务部署
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法