检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
“deep-learning”也请替换为自定义的值。 单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。 以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region
Notebook的自定义镜像制作方法 用户在使用ModelArts开发环境时,经常需要对开发环境进行一些改造,如安装、升级或卸载一些包。但是某些包的安装升级需要root权限,运行中的Notebook实例中无root权限,所以在Notebook实例中安装需要root权限的软件,目前
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。
v1.0.0 在NPU代码 configs/opensora/train/64x512x512.py中把 epochs = 200000 临时改成 epochs = 2000 图10 配置文件64x512x512.py 修改训练步数 将NPU代码中configs/opensora/train/64x512x512
${dockerfile_image_name} 进行表示。 步骤四 在节点机器中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。 图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。
${dockerfile_image_name} 进行表示。 步骤四 在节点机器中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。 图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。
AI开发基本流程介绍 什么是AI开发 AI(人工智能)是通过机器来模拟人类认识能力的一种科技能力。AI最核心的能力就是根据给定的输入做出判断或预测。 AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼,从而总结得到研究对象的内在规律。 对数据进行
查询训练日志 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session from
VS Code连接开发环境失败时的排查方法 VS Code连接开发环境失败时,请参考以下步骤进行基础排查。 网络链路检查 在ModelArts控制台查看Notebook实例状态是否正常,确保实例无问题。 在VS Code Terminal里执行如下命令检测SSH命令是否可用; ssh
ModelArts Standard推理服务访问公网方案 本章节提供了推理服务访问公网的方法。 应用场景 推理服务访问公网地址的场景,如: 输入图片,先进行公网OCR服务调用,然后进行NLP处理; 进行公网文件下载,然后进行分析; 分析结果回调给公网服务终端。 方案设计 从推理服
${dockerfile_image_name} 进行表示。 步骤四 在节点机器中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。 图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。
${dockerfile_image_name} 进行表示。 步骤四 在节点机器中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。 图1 复制登录指令 由于使用的容器引擎是containerd,不再是docker,因此需要改写复制的登录指令,将docker进行替换,使用nerdctl工具。
查询训练作业的运行指标 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式一:根据指定的job_id查询。 from modelarts.session import Session
令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。 登录指令末尾的域名为镜像仓库地址,请记录该地址,后面会使用到。 在安装容器引擎的机器中执行上一步复制的登录指令。 登录成功会显示“Login
训练作业日志中提示“No such file or directory” 问题现象 训练作业运行失败,日志中提示“No such file or directory”。 例如:找不到训练输入的数据路径时,会提示“No such file or directory”。 例如:找不到训练启动文件时,也会提示“No
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
查询开发环境实例详情 功能介绍 该接口用于查询开发环境实例详情。 URI GET /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String