检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传to
-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传to
-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传to
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
模型转换报错如何查看日志和定位? 通过如下的配置项打开对应的模型转换日志,可以看到更底层的报错。如配置以下的环境变量之后,再重新转换模型,导出对应的日志和dump图进行分析: 报错日志中搜到“not support onnx data type”,表示MindSpore暂不支持该算子。
的常见问题,帮助您快速上手ModelArts服务。 面向不同AI基础的开发者,本文档提供了相应的入门教程,帮助用户更快速地了解ModelArts的功能,您可以根据经验选择相应的教程。 面向AI开发零基础的用户,您可以使用ModelArts在AI Gallery中预置的模型、算法、
-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传to
-xxx.zip上传到${workdir}目录下并解压缩,如:/home/ma-user/ws目录下,以下都以/home/ma-user/ws为例,请根据实际修改。 unzip AscendCloud-*.zip unzip AscendCloud-LLM-*.zip 上传to
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
# 微调数据文件 方式二:通过OBS Browser+将数据上传至OBS,最后在ECS中使用obsutil工具将OBS数据下载至SFS Turbo中。具体步骤如下: 在创建OBS桶创建的桶下创建文件夹用以存放数据,例如在桶standard-ll
-xxx.zip在本地解压缩后。在上传代码前,需要对解压后的训练脚本代码进行修改。具体文件为:llm_train/AscendSpeed/scripts/obs_pipeline.sh,具体修改代码内容以及位置,如下所示。 训练作业中存在2个代码目录,一个是从OBS上传到ModelArts
Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
步骤1:准备工作 已注册华为账号并开通华为云,进行了实名认证,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 注册华为账号并开通华为云 进行实名认证 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用Mode
【下线公告】华为云ModelArts服务旧版训练管理下线公告 华为云ModelArts服务旧版训练管理在2023年6月30日 00:00(北京时间)正式退市。 下线范围 下线区域:华为云全部Region 下线影响 正式下线后,用户将无法再使用旧版训练管理的功能,包括旧版训练作业、
-xxx.zip在本地解压缩后。在上传代码前,需要对解压后的训练脚本代码进行修改。具体文件为:llm_train/AscendSpeed/scripts/obs_pipeline.sh,具体修改代码内容以及位置,如下所示。 训练作业中存在2个代码目录,一个是从OBS上传到ModelArts