搜索_华为云

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

在SWR服务页面创建镜像组织。图2 创建镜像组织在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令修改并上传镜像。在ECS中输入上一步的登录指令后，使用下列示例命令： docker tag {image_url}

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时，默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件，需要修改文件权限改为ma-user可读，否则会出现Permission denied错误，因此需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
查看Lite Server服务器详情 - AI开发平台ModelArts

Server服务器创建时绑定的虚拟私有云，单击链接可跳转到虚拟私有云详情页。裸金属服务器 Lite Server服务器为一台裸金属服务器，单击链接可跳转至对应弹性裸金属服务器的详情页。镜像 Lite Server服务器的镜像。创建时间 Lite Server服务器的创建时间。更新时间

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
pipeline应用准备 - AI开发平台ModelArts

所以迁移前需要用户先准备好自己的ONNX pipeline。下文以官方开源的图生图的Stable Diffusion v1.5的onnx pipeline代码为例进行说明。进入容器环境，创建自己的工作目录。由于在Snt9B裸金属服务器环境配置指南的配置环境步骤中，在启动容器时将物理机的home目

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

Turbo中单击右上角的“创建文件系统”，如果能正常打开页面，表示当前用户具备SFS的操作权限。验证ECS权限。在左上角的服务列表中，选择ECS服务，进入ECS管理控制台。在ECS管理控制台，单击右上角的“购买弹性云服务器”，如果能正常打开页面，表示当前用户具备ECS的操作权限。验证VPC权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

集上进行了训练，直接运行一个预训练好的GPT-2模型:给定一个预定好的起始单词或者句子，可以让它自行地随机生成后续的文本。环境准备在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器，并选择AIGC场景通用的镜像，完成使用Megatron-DeepSp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

插在主板上的。 ifconfig能看到的网卡信息吗能看到主板上的网卡信息，即VPC分配的私有IP。如果要看RoCE网卡的命令需要执行“hccn_tools”命令查看，参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
调用MaaS部署的模型服务 - AI开发平台ModelArts

每个输出序列要生成的最大Tokens数量。 top_k 否 -1 Int 控制要考虑的前几个Tokens的数量的整数。设置为“-1”表示考虑所有Tokens。适当降低该值可以减少采样时间。 top_p 否 1.0 Float 控制要考虑的前几个Tokens的累积概率的浮点数。取值范围：0~1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
切换Lite Server服务器操作系统 - AI开发平台ModelArts

Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

了解采用哪种计费模式才是最具性价比的方式。计费构成分析基于此案例，可详细计算出按需计费和包年/包月两种不同的计费模式的消费情况。此案例中的单价仅为示例，且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。在使用Model

帮助中心 > AI开发平台ModelArts > 计费说明
同步Lite Server服务器状态 - AI开发平台ModelArts

同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器，当用户在云服务器页面修改了裸金属服务器状态后，您可通过“同步”功能，同步其状态至ModelArts。登录ModelArts管理控制台。在左侧导航栏中，选择“AI专属资源池 > 弹性节点 Server”，进入“节点”列表页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。通常情况下，在安装NVIDIA驱动时，会自动执行“nvidia-modprobe”命令，将必要的内核模块加载到系

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

ing”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

run”之前运行。语句中的“logits”，表示根据不同网络中分类层权重的变量名，配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits') 如果使用的是MoXing内置网络，其对应的关键字需使用如下

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook

总条数： 2296

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的LoRA训练指导（6.3.908） - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

查看Lite Server服务器详情 - AI开发平台ModelArts

pipeline应用准备 - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

同步Lite Server服务器状态 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

在ModelArts的Notebook中使用MoXing时，如何进行增量训练？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线