搜索_华为云

创建诊断任务 - AI开发平台ModelArts

advisor分析进程数，可选范围为1-8的任意整数。当LLM类模型训练的流水并行参数pp大于1时，advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度，但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
查看诊断报告 - AI开发平台ModelArts

对目标集群的6号卡step16与标杆集群的6号卡step16进行了api（cpu侧的torch aten算子任务下发）的性能对比。基于该对比数据，可以判断两张卡上的aten算子是否存在下发性能差异。图8 目标集群profiling数据与标杆集群profiling数据的api下发对比

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

流水账单”中，“消费时间”即按需产品的实际使用时间。查看自动学习和Workflow的账单自动学习和Workflow运行时，在进行训练作业和部署服务时，会产生不同的账单。训练作业产生的账单可参考查看训练作业的账单查询。部署服务产生的账单可参考查看在线服务的账单查询。查看Notebook的账单登录

 帮助中心 > AI开发平台ModelArts > 计费说明
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

原因分析出现该问题的可能原因如下： conda和pip包混装，有一些包卸载不掉。处理方法参考如下代码，三步走。先卸载numpy中可以卸载的组件。删除你环境中site-packages路径下的numpy文件夹。重新进行安装需要的版本。 import os os.system("pip

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr 问题现象日志提示：Custom op has no reg_op_name attr。图1 报错提示原因分析无。处理方法定义context时无需指定： context.ascend.provider

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

s/text_encoder.mindir --device=Ascend 上述命令中：modelFile指定生成的mindir模型文件；device指定运行推理的设备。其他用法请参考benchmark文档。测试结果如下所示：图1 测试结果父主题：性能调优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 性能调优
在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

有的图片存在旋转角度等属性，不同的浏览器的处理策略不同，对浏览器的兼容性如表1和表2所示。 L代表last，L3-产品版本上线时最新的3个稳定浏览器版本。如果您当前使用的浏览器版本过低，将在一定程度上影响页面的显示效果，系统会提示您尽快对浏览器进行升级。如果您当前使用的浏览器不支持访问管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
设置无条件自动重启 - AI开发平台ModelArts

训练过程中可能会碰到预期外的情况导致训练失败，且无法及时重启训练作业，导致训练周期长，而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
advisor调优总体步骤 - AI开发平台ModelArts

iling参数，确保能采集到16步的数据。对于所有step稳定劣化的场景，避免采集第一个step的profiling即可，可以采集任意step如第15个step即可。对于偶现且劣化现象出现的step数不固定的场景，则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

A系列裸金属服务器如何更换NVIDIA和CUDA？场景描述当裸金属服务器预置的NVIDIA版本和业务需求不匹配时，需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器（Ubuntu20.04系统）如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
下载代码目录失败 - AI开发平台ModelArts

获取内容失败原因分析在创建训练作业时指定的代码目录不存在导致训练失败。处理方法请您根据报错原因排查创建训练作业时指定的代码目录，即OBS桶的路径是否正确。有两种方法判断是否存在。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件是否存在。通过接口判断

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
msprobe API预检 - AI开发平台ModelArts

或者对模型了解不多的情形下都推荐使用预检工具，检查第一个步骤或Loss明显出现问题的步骤。它可以抓取模型中API输入的数值范围，根据范围随机生成输入，用相同的输入分别在NPU（GPU）和CPU上执行算子，比较输出差异。预检最大的好处是，它能根据算子（API）的精度标准来比较输出结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > msprobe工具使用指导
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
LoRA微调训练 - AI开发平台ModelArts

Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。图3 选择SFS Turbo SFS Turbo不能直接挂载到容器的工作路径 /

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制问题现象在导入模型时，提示单个模型文件大小超过5G限制。原因分析在不使用动态加载的情况下，系统对单个模型文件的限制大小为5G，超过时无法进行导入。处理方法精简模型文件后，重新导入。使用动态加载功能进行导入。图1 使用动态加载父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

failed”。原因分析可能是所在环境的网络有问题，无法自动下载VS Code Server，请手动安装。解决方法打开VS Code，选择“Help>About”，并记下“Commit”的ID码。确认创建Notebook实例使用的镜像的系统架构，可以在Notebook中打开Terminal，通过命令uname

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
配置Lite Server存储 - AI开发平台ModelArts

ux中的远程目录。提供海量、安全、高可靠、低成本的数据存储能力，可供用户存储任意类型和大小的数据。可以为云服务器提供高可靠、高性能、规格丰富并且可弹性扩展的块存储服务，可满足不同场景的业务需求。云硬盘就类似PC中的硬盘。存储数据的逻辑存放的是文件，会以文件和文件夹的层次结构来整理和呈现数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
查询OS的配额 - AI开发平台ModelArts

查询OS的配额功能介绍获取ModelArts OS服务中部分资源的配额，如资源池配额、网络配额等。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1

帮助中心 > AI开发平台ModelArts > API参考 > 配额管理
训练输出路径被其他作业使用 - AI开发平台ModelArts

处理方法一个“训练输出路径”只能被一个处于“运行中”、“排队中”或“初始化”状态的作业使用。当出现此报错时，建议检查并重新填写训练作业的“训练输出路径”，以避免创建作业失败。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在Windows上安装配置Grafana - AI开发平台ModelArts

本章节适用于在Windows操作系统的PC中安装配置Grafana。操作步骤下载Grafana安装包。进入下载链接，单击Download the installer，等待下载成功即可。安装Grafana。双击安装包，按照指示流程安装完成即可。在Windows的“服务”中，找到G

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana

总条数： 802

上一页
1
...
4
5
6
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建诊断任务 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

日志提示Custom op has no reg_op_name attr - AI开发平台ModelArts

单模型性能测试工具Mindspore lite benchmark - AI开发平台ModelArts

在ModelArts中同一个账户，图片展示角度不同是为什么？ - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

msprobe API预检 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

导入模型提示单个模型文件超过5G限制 - AI开发平台ModelArts

VS Code连接远端Notebook时报错“XHR failed” - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

查询OS的配额 - AI开发平台ModelArts

训练输出路径被其他作业使用 - AI开发平台ModelArts

在Windows上安装配置Grafana - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线