检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
-m -u 1000 -g 100 -s /bin/bash ma-user 明确设置镜像的启动命令。在dockerfile文件中指定cmd,dockerfile指令示例如下: CMD sh /home/mind/run.sh 启动入口文件run.sh需要自定义。示例如下: #!/bin/bash
动命令: cmd || sleep 5h 如果训练失败,则会执行sleep命令,此时可通过Cloud Shell登录容器镜像中调试。 在Cloud Shell中调试多节点训练作业时,需要在Cloud Shell中切换work0、work1来实现对不同节点下发启动命令,否则任务会处于等待其他节点的状态。
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。加上“--no-cache”参数,可以解决很多此类报错。 父主题: Notebook实例常见错误
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。 加上“--no-cache”参数,可以解决很多此类报错。 父主题: 实例故障
”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
如何将git clone的py文件变为ipynb文件 在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。以“test.py”文件为例,下图展示了如何将“test.py”的文件内容加载到ipynb文件中。 图1 test.py文件 图2 将“test
完成滚动重启。 修改torch_npu训练启动脚本。 脚本要使用torch.distributed.launch/run命令启动,不能使用mp.spawn命令启动,否则无法实现ranktable路由加速。 在使用Pytorch训练时,需要将“RANK_AFTER_ACC”环境变量
gz在OBS上的路径(需将文件设置为公共读)。 进入Dockerfile目录,通过Dockerfile构建镜像命令: # cd 到Dockerfile所在目录下,输入构建命令 # docker build -t ${image_name}:${image_version} . # 例如
Connection Error截图 图2 选不到Kernel 原因分析 用户误操作引起的。 解决方案 打开Terminal窗口,执行以下命令启动kernelgateway服务。 API_TYPE=kernel_gateway.jupyter_websocket LOG_DIR="/home/ma-user/log"
公共资源池:1000-65535 专属资源池:0-65535 启动命令 必填,镜像的启动命令。 运行训练作业时,当“代码目录”下载完成后,“启动命令”会被自动执行。 如果训练启动脚本用的是py文件,例如“train.py”,则启动命令如下所示。 python ${MA_JOB_DIR}/demo-code/train
ic_axes参数),此时需要在转换时明确指定输入的shape。 转换时指定输入shape可以在命令行中指定,也可以通过配置文件的形式进行指定。 在命令行中指定输入shape。 命令行可以直接通过--inputShape参数指定输入的shape,格式为“input_name:in
Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not
Code 1.85.2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS Code安装指导 Linux系统下,执行命令sudo dpkg -i code_1.85.2-1705561292_amd64.deb安装。 Linux系统用户,需要在非root用户进行VS
Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Commit码和Notebook实例镜像架构下载。 如果下载报错“Not
通过查看日志发现本地vscode-scp-done.flag显示成功上传,但远端未接收到。 图1 vscode-scp-done.flag本地成功上传 解决方法 执行如下命令查看远端是否上传。 cd /home/ma-user/.vscode-server/bin/$commit_id #commit_id是Vscode版本的commit编号
ei.com不通过公网代理,huaweicloud.com域名在no_proxy/NO_PROXY中包含,就访问不了。 解决方式 执行以下命令查看在no_proxy/NO_PROXY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
训练精度测试 流程图 训练精度测试流程图如下图所示: 图1 训练精度测试流程图 执行训练任务 进入test-benchmark目录执行训练命令,可以多次执行,按自己实际情况。 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type>
前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依次执行以下命令,下载并安装Grafana。 mkdir -p /home/ma-user/work/grf cd /home/ma-user/work/grf