搜索_华为云

开发环境计费项 - AI开发平台ModelArts

开发环境计费项计费说明在ModelArts开发环境中运行Notebook实例时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。 Notebook实例停止运行时，EVS还会持续计费，需及时删除才能停止EVS计费。计算资源费用：如果运行N

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
模型训练存储加速 - AI开发平台ModelArts

s3_train_url 将被赋值为"/mnt/user-ckpt" s3_train_url = args.s3_train_url # 初始定义的网络、损失函数及优化器 net = resnet50(args_opt.batch_size, args_opt.num_classes) ls = S

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
启动或停止Lite Server服务器 - AI开发平台ModelArts

启动或停止Lite Server服务器当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
部署模型为在线服务 - AI开发平台ModelArts

费标准不同，详情请参见价格详情说明。当前仅支持按需付费模式。 “专属资源池” 在专属资源池规格中选择对应的规格进行使用。暂不支持选择创建了逻辑子池的物理池。 “选择AI应用及配置” “AI应用来源” 根据您的实际情况选择“自定义应用”或者“订阅应用”。 “选择AI应用及版本” 选择状态“正常”的AI应用及版本。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将AI应用部署为实时推理作业
自动学习/Workflow计费项 - AI开发平台ModelArts

自动学习/Workflow计费项计费说明在ModelArts自动学习和Workflow中进行模型训练和推理时，会使用计算资源和存储资源，会产生计算资源和存储资源的累计值计费。具体内容如表1所示。计算资源费用：如果运行自动学习作业/Workflow工作流时，使用专属资源池进行模型训练和推理，计算资源不计费。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

args.world_size base_rank = n_gpus * args.rank # 调用 DDP 示例代码中的启动函数 from torch_ddp import init_from_arg mp.spawn(init_from_arg,

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed)

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
Lite Server资源开通 - AI开发平台ModelArts

网络”即可完成创建。若规格支持RoCE网络且已创建过RoCE网络，直接选择已有RoCE网络即可（不支持重复创建）。安全组安全组是一个逻辑上的分组，为同一个VPC内具有相同安全保护需求并相互信任的Server提供访问策略。表6 管理参数说明参数名称说明登录凭证 “密钥

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
自定义模型规范 - AI开发平台ModelArts

文件说明 “inference.py” 必选文件，推理脚本文件，定义了自定义模型的推理处理方式，包含初始化推理（init）和输入输出（call函数）。代码示例请参见inference.py示例。如果推理脚本里使用了其他脚本文件，则必须一起打包在gallery_inference文件夹里上传，否则会导致推理失败。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
切换Lite Server服务器操作系统 - AI开发平台ModelArts

切换Lite Server服务器操作系统场景描述 Lite Server为一台弹性裸金属服务器，您可以使用BMS服务提供的切换操作系统功能，对Lite Server资源操作系统进行切换。本文介绍以下三种切换操作系统的方式：在BMS控制台切换操作系统使用BMS Go SDK的方式切换操作系统

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？问题现象 GP Ant8支持RoCE网卡， Ubuntu20.04场景，在进行nccl-tests时，总线带宽理论峰值可达90GB/s，但实际测试下来的结果只有35GB/s。原因分析 “nv_peer_mem”是一个Linu

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容场景描述本文提供Atlas800训练服务器硬件相关指南，包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器（型号9000）是基于华为鲲鹏920+Sn

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS）功能介绍该节点通过调用MRS服务，提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。应用场景需要使用MRS Spark组件进行大量数据的计算时，可以根据已有数据使用该节点进行训练计算。使用案例在华为云MR

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。注

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像

总条数： 569

上一页
1
...
4
5
6
...
29
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

开发环境计费项 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

自动学习/Workflow计费项 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+GPU） - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

在Workflow中使用大数据能力（DLI/MRS） - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线