检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GPU A系列裸金属服务器如何进行RoCE性能带宽测试? 场景描述 本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20
管理Standard专属资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
管理Lite Cluster资源池的游离节点 如果资源中存在游离节点,即没有被纳管到资源池中的节点,可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 系统支持对游离节点进行续费、退订、开通/修改自动续费、添加/编辑资源标签、删除资源标签、搜索等操作。
使用llm-compressor工具量化 当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。 本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
昇腾云服务6.3.909版本说明 本文档主要介绍昇腾云服务6.3.909版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr.cn-southwest-2
配置Grafana数据源 在Grafana配置数据源后,即可通过Grafana查看ModelArts的监控数据。 前提条件 已安装Grafana。 配置Grafana数据源 获取Grafana数据源配置代码。 进入AOM管理控制台。 图1 AOM管理控制台 在左侧导航栏中选择“Prometheus监控
SD WebUI推理方案概览 本文档主要介绍如何在ModelArts的DevServer和ModelArts Standard环境上部署Stable Diffusion的WebUI套件,使用NPU卡进行推理。 约束限制 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书
使用llm-compressor工具量化 当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。 本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
使用llm-compressor工具量化 当前版本使用llm-compressor工具量化仅支持Deepseek-v2系列模型的W8A8量化。 本章节介绍如何在GPU的机器上使用开源量化工具llm-compressor量化模型权重,然后在NPU的机器上实现推理量化。 具体操作如下:
推理场景介绍 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬
创建训练任务 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如果未完成,请参考使用委托授权针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作业”,默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
昇腾云服务6.3.910版本说明(推荐) 本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr
昇腾云服务6.3.911版本说明 本文档主要介绍昇腾云服务6.3.911版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 Snt9B PyTorch2.1.0: swr.cn-southwest-2
无法导入模块 问题现象 ModelArts训练作业导入模块时日志报错: Traceback (most recent call last):File "project_dir/main.py", line 1, in <module>from module_dir import module_file
昇腾迁移快速入门案例 ModelArts提供了两个昇腾迁移案例,方便您快速了解并完成昇腾迁移过程。 约束限制 当前仅贵阳一区域支持选择本案例中的规格及镜像。 操作步骤 登录ModelArts管理控制台,在左侧导航栏中选择“开发空间 > Notebook”,进入“Notebook”管理页面。
场景介绍 方案概览 本文档介绍了在ModelArts的Standard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程,利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN