搜索_华为云

训练网络迁移总结 - AI开发平台ModelArts

程中分析问题并发挥NPU的优势。由于构造和运行机制的差别，整个迁移过程并非是完全平替，GPU在灵活性上有其独特的优势，而NPU上的执行目前还是依赖于算子的下发，对于NPU构造的理解是昇腾训练迁移中必备的知识，只有对于昇腾有基础理解，配合一些诊断工具，面对复杂问题时，才能进行进一步诊断与定位，进而发挥NPU的能力。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
状态码 - AI开发平台ModelArts
状态码 - AI开发平台ModelArts

表明服务端能被请求访问到，但是不能理解用户的请求。 501 Not Implemented 服务器不支持请求的功能，无法完成请求。 502 Bad Gateway 充当网关或代理的服务器，从远端服务器接收到了一个无效的请求。 503 ServiceUnavailable 被请求的服务无效。建议直接修改该请求，不要重试该请求。

帮助中心 > AI开发平台ModelArts > API参考 > 公共参数
下线公告 - AI开发平台ModelArts
下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务模型转换下线公告【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告【下线公告】华为云ModelArts算法套件下线公告【下线公告】华为云ModelArts服务旧版训练管理下线公告

 帮助中心 > AI开发平台ModelArts > 服务公告
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。部署时是否需要使用GPU，取决于的模型需要用到CPU还是GPU，以及推理脚本如何编写。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
分布式训练功能介绍 - AI开发平台ModelArts

分布式训练功能介绍 ModelArts提供了如下能力：丰富的官方预置镜像，满足用户的需求。支持基于预置镜像自定义制作专属开发环境，并保存使用。丰富的教程，帮助用户快速适配分布式训练，使用分布式训练极大减少训练时间。分布式训练调测的能力，可在PyCharm/VSCode/J

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

建议通过开源的官方镜像来构建，例如PyTorch的官方镜像。建议容器分层构建，单层容量不要超过1G、文件数不大于10w个。分层时，先构建不常变化的层，例如：先OS，再cuda驱动，再Python，再pytorch，再其他依赖包。如果训练数据和代码经常变动，则不建议把数据、代码放到容器镜像里，避免频繁地构建容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

如果机器上的版本不是所需的版本（例如需要换成社区最新调测版本），可以参考后续步骤进行操作。查看机器操作系统版本，以及架构是aarch64还是x86_64，并从昇腾官网获取相关的固件驱动包。固件包名称为“Ascend-hdk-型号-npu-firmware_版本号.run”，驱动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

Fine Tune会是一个比较好的选择。 moxing.tensorflow包含所有的接口，对TensorFlow做了优化，里面的实际接口还是TensorFlow的原生接口。当非MoXing代码中没有Adam名称范围时，需要修改非MoXing代码，在其中增加如下内容： with

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
IEF节点边缘服务部署失败 - AI开发平台ModelArts

在用户名对应的“授权内容”列，单击“查看权限”，确认用户的委托权限是否已包含Tenant Administrator。图1 查看委托权限详情是，重新“启动”边缘服务，如果还是“异常”则联系技术支持处理。否，执行下一步，给用户添加委托权限。添加委托权限。如果是IAM子账号，没有修改委托权限，请联系管理员添加Tenant

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询支持的镜像列表 - AI开发平台ModelArts

"description" : "AI inference application development, preconfigured ModelBox and AI engine LibTorch, only SSH connection supported.", "dev_services"

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
管理ModelArts模型版本 - AI开发平台ModelArts

删除对应的版本。如果模型的版本已经部署服务，需先删除关联的服务后再执行删除操作。版本删除后不可恢复，请谨慎操作。删除模型在“模型管理”页面，单击模型“操作”列的“删除”，即可删除对应的模型。如果模型的版本已经部署服务，需先删除关联的服务后再执行删除操作。模型删除后不可恢复，请谨慎操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

支持“公开”和“AppCode认证”。公开：无需认证，API地址可被公开访问。 AppCode认证：需使用有效的AppCode进行认证。AppCode使用API网关颁发的AppCode进行身份认证，调用者将AppCode放到请求头中进行身份认证，确保只有授权的调用者能够调用API接口。 AppCode的获取方法：单击AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。可能是亚健康，建议先重启节点，如果重启节点后未恢复，发起维修流程。 NT_NPU_CARD_LOSE

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

建议通过开源的官方镜像来构建，例如PyTorch的官方镜像。建议容器分层构建，单层容量不要超过1G、文件数不大于10w个。分层时，先构建不常变化的层，例如：先OS，再cuda驱动，再Python，再pytorch，再其他依赖包。如果训练数据和代码经常变动，则不建议把数据、代码放到容器镜像里，避免频繁地构建容器镜像。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
推理业务迁移评估表 - AI开发平台ModelArts

用的框架以及套件。例如：模型使用PyTorch+Megatron+DeepSpeed进行训练。 - 自定义算子是否有自定义算子，CPU还是CUDA，复杂程度。例如：有5个CUDA自定义算子。1个高复杂度算子，基于C++开发2000行代码。4个中等复杂度算子，基于C++开发，平均每个自定义算子约500行代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
管理AI Gallery中的AI应用 - AI开发平台ModelArts

支持修改可见范围。 “公开”：表示公开资产，所有用户都可以查看该资产。当选择公开AI应用，系统会自动提交资产公开申请，审核通过之前资产还是私密状态，审核通过后就会变成公开状态。 “私密”：表示仅部分用户可见。 “仅自己可见”：默认状态，表示仅AI应用创建者可见该资产。 “指定

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery中的AI应用
下载数据 - AI开发平台ModelArts
下载数据 - AI开发平台ModelArts

“版本”和“评论”等信息。在详情页面单击“下载”。弹出“选择云服务区域”，选择区域后单击“确定”进入下载详情页面。根据数据集下载至OBS还是ModelArts数据集列表，填写不同配置信息： ModelArts数据管理模块在重构升级中，对未使用过数据管理的用户不可见。建议新用户选择将数据集下载至OBS使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
ModelArts权限管理基本概念 - AI开发平台ModelArts

odelArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而Model

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
迁移评估 - AI开发平台ModelArts
迁移评估 - AI开发平台ModelArts

用的框架以及套件。例如：模型使用PyTorch+Megatron+DeepSpeed进行训练。 - 自定义算子是否有自定义算子，CPU还是CUDA，复杂程度。例如：有5个CUDA自定义算子。1个高复杂度算子，基于C++开发2000行代码。4个中等复杂度算子，基于C++开发，平均每个自定义算子约500行代码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

odelArts创建训练作业，则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作（无论界面操作还是API调用）。关于如何给一个用户赋权（准确讲是需要先将用户加入用户组，再面向用户组赋权），可以参考IAM的文档《权限管理》。而Model

帮助中心 > AI开发平台ModelArts > 产品介绍

总条数： 337

上一页
1
...
6
7
8
...
17
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练网络迁移总结 - AI开发平台ModelArts

状态码 - AI开发平台ModelArts

下线公告 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练作业 - AI开发平台ModelArts

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？ - AI开发平台ModelArts

IEF节点边缘服务部署失败 - AI开发平台ModelArts

查询支持的镜像列表 - AI开发平台ModelArts

管理ModelArts模型版本 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

管理AI Gallery中的AI应用 - AI开发平台ModelArts

下载数据 - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

迁移评估 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线