检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch
成功购买裸金属服务器后,服务器上可能会有多个未挂载的nvme磁盘。因此在首次配置环境前,需要完成磁盘合并挂载。此操作需要放在最开始完成,避免使用一段时间后再挂载会冲掉用户已存储的内容。
检查是否有带云硬盘EVS存储的Notebook。如果有,停止并删除该Notebook,即可停止EVS计费。 进入“ModelArts>模型训练>训练作业”页面,检查是否有“运行中”的训练作业。如果有,单击该作业列表右方操作下的“停止”即可停止计费。
创建Notebook时,如果选择使用云硬盘EVS存储配置,云硬盘EVS会一直收费,建议及时停止并删除Notebook,避免产品不必要的费用。 在创建Notebook时,默认会开启自动停止功能,在指定时间内停止运行Notebook,避免资源浪费。
推理部署 AIGC,包名:AscendCloud-3rdAIGC SDXL模型: Fine-tuning微调支持Standard及DevServer模式 LoRA微调支持DevServer模式 Open-Sora1.0训练支持DevServer模式 SDXL基于Standard适配
适配PyTorch NPU推理指导(6.3.906) Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) Wav2Lip基于DevServer适配PyTorch NPU推理指导 LLaVA模型基于DevServer适配PyTorch NPU训练指导
515+CUDA 11.7 GP Vnt1裸金属服务器Ubuntu 18.04安装NVIDIA 470+CUDA 11.4 GP Vnt1裸金属服务器Ubuntu18.04安装NVIDIA 515+CUDA 11.7 GP Ant8裸金属服务器Ubuntu 20.04安装NVIDIA
前提条件 已准备好DevServer环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。 安装过程需要连接互联网git clone,确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。
检查是否有带云硬盘EVS存储的Notebook。如果有,停止并删除该Notebook,即可停止EVS计费。 进入“ModelArts>模型训练>训练作业”页面,检查是否有“运行中”的训练作业。如果有,单击该作业列表右方操作下的“停止”即可停止计费。
适配PyTorch NPU推理指导 Hunyuan-DiT基于DevServer部署适配PyTorch NPU推理指导 InternVL2基于DevServer适配PyTorch NPU训练指导 MiniCPM-V2.6基于DevServer适配PyTorch NPU训练指导 Qwen-VL
训练指导 Qwen系列(PyTorch)基于DevServer训练指导 GLM3-6B(PyTorch)基于DevServer训练指导 Baichuan3-13B(PyTorch)基于DevServer训练指导 推理参考文档: 主流开源大模型(PyTorch)基于DevServer
SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.908) InternVL2基于DevServer适配PyTorch NPU训练指导(6.3.908) 算子,包名:AscendCloud-OPP Scatter、Gather算子性能提升
ib_write_bw -a -F 服务器A的IP -d mlx5_0 --report_gbits 图1 服务器A执行结果 图2 服务器B执行结果 父主题: Lite Server
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: Lite Server
) SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导(6.3.907) SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导(6.3.907) Open-Sora-Plan1.0基于DevServer适配
Step1 检查环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。
除了ModelArts总览页呈现的计费项之外,如果用户使用了OBS、云硬盘EVS存储,也会扣费。 请前往OBS控制台,及时清空OBS中的数据。 请在ModelArts控制台上,删除带有EVS存储的Notebook实例。前往EVS控制台,及时清空EVS中的数据。
除了ModelArts总览页呈现的计费项之外,如果用户使用了OBS、云硬盘EVS存储,也会扣费。 请前往OBS控制台,及时清空OBS中的数据。 请在ModelArts控制台上,删除带有EVS存储的Notebook实例。前往EVS控制台,及时清空EVS中的数据。 父主题: 计费相关
ssh_keys 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 VolumeReq 参数 是否必选 参数类型 描述 capacity 否 Integer 存储容量,EVS默认5G,最大限制4096G。
在CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图10 节点管理 单击“远程登录”,在弹出的窗口中,单击“CloudShell登录”。