搜索_华为云

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

使用华为云A系列裸金属服务器时有如下注意事项： nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致，可参考安装nvidia-fabricmanager方法。 NCCL必须和CUDA版本相匹配，可单击此处可查看配套关系和安装方法。使用该裸金属服务器制作自定义镜像时，必须清除残留文件，请参考清理文件。

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

对于标注任务类型为“物体检测”的数据集版本，当已标注样本数为0时，发布版本后，数据特征页签版本置灰不可选，无法显示数据特征。否则，显示已标注的图片的数据特征。对于标注任务类型为“图像分类”的数据集版本，当已标注样本数为0时，发布版本后，数据特征页签版本置灰不可选，无法显示数据特征。否则，显示全部的图片的数据特征。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
查看诊断报告 - AI开发平台ModelArts

查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据，如集群计算、通信和下发的耗时，可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序，从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

面再次单击界面上的“VS Code接入”按钮。方法二：出现如下图报错，是由于VS Code版本过低，建议升级VS Code版本为1.57.1或者最新版。原因分析二本地系统为Linux，由于使用root用户安装VS Code，打开VS Code显示信息It is not recommended

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

otebook中打开Terminal，通过命令uname -m查看。下载对应版本的vscode-server，根据Commit码和Notebook实例镜像架构下载。如果下载报错“Not Found”，请下载别的版本VS Code重新在本地安装，目前推荐: Vscode-1.86

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
配置仪表盘查看指标数据 - AI开发平台ModelArts

选择修改，修改后，单击保存即可生效。修改DashBoard查询数据时间范围图7 修改查询数据时间范围单击右上角图标，即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel，都会应用该数据查询时间范围。增加新panel 图8 新增一个panel 单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
在模型广场查看模型 - AI开发平台ModelArts

在模型广场查看模型在模型广场页面，ModelArts Studio大模型即服务平台提供了丰富的开源大模型，在模型详情页可以查看模型的详细介绍，根据这些信息选择合适的模型进行训练、推理，接入到企业解决方案中。访问模型广场登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查看在线服务详情 - AI开发平台ModelArts

当前服务使用的资源池规格。如果使用公共资源池部署，则不显示该参数。个性化配置您可以为在线服务的不同版本设定不同配置条件，并支持携带自定义运行参数，丰富版本分流策略或同一版本内的不同运行配置。您可以打开个性化配置按钮，单击“查看配置”修改服务个性化配置。服务流量限制服务流量限制是指每秒内一个服务能够被访问的次数上限。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

combination</module> 解决方式先排查cuda和torch版本是否兼容。 # cuda版本 nvcc --version # nvidia-smi版本 nvidia-smi # torch版本（要确定用户用的哪个conda下的python） python -c "import

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

其中firmware代表固件版本，software代表驱动版本。如果机器上的版本不是所需的版本（例如需要换成社区最新调测版本），可以参考后续步骤进行操作。查看机器操作系统版本，以及架构是aarch64还是x86_64，并从昇腾官网获取相关的固件驱动包。固件包名称为“Ascend-hdk

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

当出现“xxx.whl”文件无法安装，在启动文件中添加如下代码，查看当前pip命令支持的文件名和版本。 import pip print(pip.pep425tags.get_supported()) 获取到支持的文件名和版本如下： [('cp36', 'cp36m', 'manylinux1_x86_64')

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

_cuda_getDeviceCount() > 0 原因分析 nvidia-modprobe是一个Linux工具，用于在系统中加载NVIDIA驱动程序及其相关的内核模块。在Linux系统上安装NVIDIA显卡驱动后，需要通过“nvidia-modprobe”命令来加载相应的内核模块，以便让显卡驱动正常工作。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ECS获取和上传基础镜像 - AI开发平台ModelArts

<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：pytor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
ECS获取和上传基础镜像 - AI开发平台ModelArts

<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：pytor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：pytor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
ECS获取和上传基础镜像 - AI开发平台ModelArts

<镜像仓库地址>/<组织名称>/<镜像名称>:<版本名称> 参数说明： <镜像仓库地址>：可在SWR控制台上查询，容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>：前面步骤中自己创建的组织名称。示例：ma-group <镜像名称>:<版本名称>：定义镜像名称。示例：pytor

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能单击作业详情页面，则可查看训练过程中的详细信息。图1 查看训练作业在作业详情页的日志页签，查看最后一个节点的日志，其包含“elapsed time per iteration (ms)”数据，可换算为tokens/s/p的性能数据。吞吐量（tokens/s/p）：global

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）

总条数： 1564

上一页
1
...
4
5
6
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用GPU A系列裸金属服务器有哪些注意事项？ - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

在模型广场查看模型 - AI开发平台ModelArts

查看在线服务详情 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

ECS获取和上传基础镜像 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线