搜索_华为云

单模型性能调优AOE - AI开发平台ModelArts

--loopCount=100 图1 调优前模型图2 调优后模型 AOE优化成功的mindir已经融合了优化的知识库，是一个独立可用的模型。即使AOE知识库删除，不影响该mindir的性能。可以备份这个模型优化产生的知识库，以后需要的话再使用。父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？场景描述本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。前提条件 GPU A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？场景描述本文指导如何进行节点内NVLINK带宽性能测试，适用的环境为：Ant8或者Ant1 GPU裸金属服务器，且服务器中已经安装相关GPU驱动软件，以及Pytorch2.0。 GPU A系列裸金属服务器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

ing”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败问题现象在A系列GPU裸金属服务器上，系统环境是ubuntu20.04+nvidia515+cuda11.7，使用Pytorch2.0时出现如下错误： CUDA

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

s/text_encoder.mindir --device=Ascend 上述命令中：modelFile指定生成的mindir模型文件；device指定运行推理的设备。其他用法请参考benchmark文档。测试结果如下所示：图1 测试结果父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决问题现象 GP Vnt1裸金属服务器，操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

准备镜像主机准备一台Linux x86_64架构的主机，操作系统使用Ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

ing”也请替换为自定义的值。选择左侧导航栏的“总览”，单击页面右上角的“登录指令”，在弹出的页面中单击复制登录指令。此处生成的登录指令有效期为24小时，如果需要长期有效的登录指令，请参见获取长期有效登录指令。获取了长期有效的登录指令后，在有效期内的临时登录指令仍然可以使用。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
部署GPU服务支持的Cuda版本是多少？ - AI开发平台ModelArts

部署GPU服务支持的Cuda版本是多少？默认支持Cuda版本为10.2，如果需要更高的版本，可以提工单申请技术支持。父主题：功能咨询

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 部署上线 > 功能咨询
基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导昇腾性能自动诊断工具使用说明基于ModelArts performance advisor插件的昇腾PyTorch性能调优步骤创建Notebook并执行性能诊断任务 advisor分析报告html文件详解父主题： GPU业务迁移至昇腾训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导基于advisor的昇腾训练性能自助调优指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

集上进行了训练，直接运行一个预训练好的GPT-2模型:给定一个预定好的起始单词或者句子，可以让它自行地随机生成后续的文本。环境准备在华为云ModelArts Server预购相关超强算力的GPU裸金属服务器，并选择AIGC场景通用的镜像，完成使用Megatron-DeepSp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
在Notebook中如何查看GPU使用情况 - AI开发平台ModelArts

在Notebook中如何查看GPU使用情况创建Notebook时，当您选择的类型为GPU时，查看GPU使用情况具体操作如下：登录ModelArts管理控制台，选择“开发空间>Notebook”。在Notebook列表中，单击目标Notebook“操作”列的“打开”，进入“Jupyter”开发页面。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询
创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

advisor分析进程数，可选范围为1-8的任意整数。当LLM类模型训练的流水并行参数pp大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
如何在代码中打印GPU使用信息 - AI开发平台ModelArts

gputil import GPUtil as GPU GPU.showUtilization() import GPUtil as GPU GPUs = GPU.getGPUs() for gpu in GPUs: print("GPU RAM Free: {0:.0f}MB |

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 更多功能咨询

总条数： 1661

上一页
1
2
3
4
5
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

单模型性能调优AOE - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（Pytorch+CPU/GPU） - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

部署GPU服务支持的Cuda版本是多少？ - AI开发平台ModelArts

基于advisor的昇腾训练性能自助调优指导 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

在Notebook中如何查看GPU使用情况 - AI开发平台ModelArts

创建Notebook并执行性能诊断任务 - AI开发平台ModelArts

如何在代码中打印GPU使用信息 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线