搜索_华为云

迁移效果校验 - AI开发平台ModelArts

pipeline输出的结果图片进行对比，在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。确认性能是否满足要求在推理代码开始结尾处加入时间记录，并打印出推理执行耗时。根据用户需求判断性能是否满足要求，如果不满足可以进行性能调优。 import time start_time = time

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
查询Notebook实例详情 - AI开发平台ModelArts

实例运行时长，以创建时间为起点计算，即“创建时间+duration > 当前时刻”时，系统会自动停止实例。 enable Boolean 是否启用自动停止功能。 type String 自动停止类别。 timing：自动停止。 idle：空闲停止。 update_at Long 实

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练日志失败分析 - AI开发平台ModelArts

Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因，在训练日志界面上给出提示。提示包括三部分：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
精度问题诊断 - AI开发平台ModelArts

该方式主要是通过模型替换，先定位出具体哪个模型引入的误差，进一步诊断具体的模型中哪个算子或者操作导致效果问题，模型替换原理如下图所示。通过设置开关选项（是否使用onnx模型），控制模型推理时，模型使用的是onnx模型或是mindir的模型。图1 精度诊断流程一般情况下，onnx模型推理的结

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

ch_ddp_npu.sh”。其中，启动脚本的完整代码请参见代码示例。（可选）启用ranktable动态路由如果训练作业需要使用ranktable动态路由算法进行网络加速，则可以联系技术支持开启集群的cabinet调度权限。同时，训练作业要满足如下要求才能正常实现ranktable动态路由加速。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
Standard模型训练 - AI开发平台ModelArts

在ModelArts上如何创建引用第三方依赖包的训练作业？在ModelArts训练时如何安装C++的依赖库？在ModelArts训练作业中如何判断文件夹是否复制完毕？如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？

帮助中心 > AI开发平台ModelArts > 常见问题
创建Notebook实例 - AI开发平台ModelArts

/v1/{project_id}/notebooks 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。请求参数表2 请求Body参数参数是否必选参数类型描述 description 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
更新开发环境实例信息 - AI开发平台ModelArts

spec定义数据结构说明参数是否必选参数类型说明 auto_stop 否 Object 自动停止参数，如表4所示。表4 auto_stop定义数据结构说明参数是否必选参数类型说明 enable 否 Boolean 是否开启自动停止功能， true表示开启，则会在运行时长到达

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
配置Lite Server存储 - AI开发平台ModelArts

单文件系统 10K 千万级单盘 128K 带宽 GB/s级别 TB/s级别 MB/s级别是否支持数据共享是是是是否支持远程访问是是否是否支持在线编辑是否是是否能单独使用是是否（EVS要搭配BMS才能存储文件）使用弹性文件服务SFS作为存储若使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
设置断点续训练 - AI开发平台ModelArts

将被赋值为"/home/ma-user/modelarts/outputs/train_url_0" train_url = args.train_url # 判断输出路径中是否有模型文件。如果无文件则默认从头训练，如果有模型文件，则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

首先进入已创建的 CCE 集群控制版面中。根据图1的步骤进行操作，单击kubectl配置时，会弹出图2步骤页面。图1 配置中心根据图2，按步骤进行：判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。图2 kubectl 访问集群配置在节点机器中，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
使用MoXing复制数据报错 - AI开发平台ModelArts

用的OBS桶所在的区域。查看是否在同一区域。是，请执行3。否，请在ModelArts同一区域的OBS中新建桶和文件夹，并将所需的数据上传至此OBS桶中。检查OBS的路径是否正确，是否写为了“obs://xxx”。可使用如下方式判断OBS路径是否存在。 mox.file.ex

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

精度比对，对PyTorch整网API粒度的数据dump、精度比对，进而定位训练场景下的精度问题支持溢出检测功能，判断是否存在输入正常但输出存在溢出的API，从而判断是否为正常溢出。梯度状态监控，用于采集梯度数据并进行梯度相似度比对，可以精准定位出现问题的step。执行pip install

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
通过APP认证的方式访问在线服务 - AI开发平台ModelArts

png"）。开启支持APP认证功能在部署为在线服务时，您可以开启支持APP认证功能。或者针对已部署完成的在线服务，您可以修改服务，开启支持APP认证功能。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署 > 在线服务”，进入在线服务管理页面。开启支持APP认证功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

如内网系统之间的API调用。在ModelArts中，支持在部署在线服务时开启AppCode认证（部署模型为在线服务中的“支持APP认证”参数）。对于已部署的在线服务，ModelArts支持修改其配置开启AppCode认证。本文主要介绍如何修改一个已有的在线服务，使其支持AppCode认证并进行在线预测。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

单个续费：在资源页面找到需要续费的资源，单击操作列的“续费”。图1 单个续费批量续费：在资源页面勾选需要续费的资源，单击列表左上角的“批量续费”。选择资源的续费时长，判断是否勾选“统一到期日”，将资源的到期时间统一到各个月的某一天（详细介绍请参见统一包年/包月资源的到期日）。确认配置费用后单击“去支付”。进

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费

总条数： 1148

上一页
1
2
3
4
5
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

迁移效果校验 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

精度问题诊断 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

通过APP认证的方式访问在线服务 - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线