检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
会报错,需要使用Notebook进行云端调试。 设置断点后单击“调试”,可实现代码逐步调试,查看中间变量值。 图9 “调试”按钮 图10 通过设置断点实现代码调试 可单击“运行”按钮,通过日志观察是否能正常训练。 图11 “运行”按钮 图12 训练日志 步骤3:使用ModelArts
使用SDK如何查看旧版专属资源池列表? 可参考如下代码查看旧版专属资源池列表: from modelarts.session import Session from modelarts.estimator import Estimator algo_info = Estimato
如何处理使用opencv.imshow造成的内核崩溃? 问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问题。
勾选“SSH keepalive” 如果使用的是专业版的MobaXterm工具,请执行步骤3。 如果使用的是专业版的MobaXterm工具,请参考图3 设置“Stop server after”,此参数默认值为360s,将其设置为3600s或更大值。 图3 设置“Stop server after”
单击“选择模型”,选择“模型广场”或“我的模型”下面的模型。 资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 流量限制(QPS) 设置待部署模型的流量限制QPS。 单位:次/秒
Code Toolkit,让远程连接操作更便捷。具体参见通过PyCharm远程使用Notebook实例、通过VS Code远程使用Notebook实例、通过SSH工具远程使用Notebook。 在AI开发过程中,如何将文件方便快速地上传到Notebook几乎是每个开发者都会遇到的问题。M
可能跟OBS桶的存储类别有关,并行文件系统不支持图像处理,所以无法展示缩略图。 解决方案 以Chrome浏览器为例,“F12”打开浏览器Console,锁定该图片,获取图片链接并复制。 图1 F12获取图片链接 在新的浏览器页面输入该链接,会出现提示“您的连接不是私密连接”,在该页面单击“高级”,然后选择继续前往目标链接页面。
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
Notebook中快速使用MoXing 本文档介绍如何在ModelArts中调用MoXing Framework接口。 进入ModelArts,创建Notebook实例 登录ModelArts管理控制台,在左侧菜单栏中选择“开发空间>Notebook”,进入“Notebook”管理页面。
如何处理使用opencv.imshow造成的内核崩溃? 问题现象 当在Notebook中使用opencv.imshow后,会造成Notebook崩溃。 原因分析 opencv的cv2.imshow在jupyter这样的client/server环境下存在问题。 而matplotlib不存在这个问题。
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
准备好密钥对文件。 密钥对在用户第一次创建时,自动下载,之后使用相同的密钥时不会再有下载界面(用户一定要保存好),或者每次都使用新的密钥对。 Step1 安装SSH工具 下载并安装SSH远程连接工具,以PuTTY为例,下载链接。 Step2 使用puttygen将密钥对.pem文件转成.ppk文件
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败常见问题
在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。 检查代理配置是否正确。 图2 PyCharm网络代理设置 四、AK/SK不正确 获取到的AK/SK信息不正确,请确认
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下: