搜索_华为云

故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

部计算节点。推理部署故障恢复用户部署的在线推理服务运行过程中，如发生硬件故障导致推理实例故障，ModelArts会自动检测到并迁移受影响实例到其它可用节点，实例启动后恢复推理请求处理能力。故障的硬件节点会自动隔离不再调度和运行推理服务实例。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

模型部署：模型部署为在线服务、边缘服务时，会收取费用，使用完请及时停止服务。同时，也需清理存储到OBS中的数据。专属资源池：在使用ModelArts进行AI全流程开发时，如果购买了专属资源池，同时在运行自动学习作业、Workflow工作流、Notebook实例、模型训练和部署服务时选择使用

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
场景介绍及环境准备 - AI开发平台ModelArts

度及性能调优。环境准备迁移环境准备有以下两种方式：表1 迁移环境准备方式方式说明 ModelArts Notebook 该环境为在线调试环境，主要面向演示、体验和快速原型调试场景。环境开通指导请参考Notebook环境创建。 ModelArts Lite DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型Pytorch迁移与精度性能调优
如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

部署上线：模型部署为在线服务、边缘服务时，会收取费用，使用完请及时停止服务。同时，也需清理存储到OBS中的数据。专属资源池：在使用ModelArts进行AI全流程开发时，若购买了专属资源池，同时在运行自动学习作业、Workflow工作流、Notebook实例、模型训练和部署服务时选择使用

 帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

modelarts:service:create：此策略项表示创建推理服务。给子账号配置权限：限制使用公共资源池使用主用户账号登录管理控制台，单击右上角用户名，在下拉框中选择“统一身份认证”，进入统一身份认证（IAM）服务。在统一身份认证服务页面的左侧导航选择“权限管理 > 权限”，单击右上角

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。若需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
Standard数据管理 - AI开发平台ModelArts

ModelArts Standard数据管理支持多维度数据管理能力数据集管理：提供数据集创建、数据预览、数据集版本管理等能力数据标注：提供在线标注能力，包含图像分类、目标检测、音频分割、文本三元组等标注场景；提供图片智能标注方案，提升标注效率；提供团队标注能力，支持多人协同标注与标注任务的审核验收

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
查看训练作业详情 - AI开发平台ModelArts

“代码目录” 训练作业代码目录所在的OBS路径。您可以单击代码目录后的“编辑代码”，在“OBS在线编辑”对话框中实时编辑训练脚本代码。当训练作业状态为“等待中”、“创建中”和“运行中”时，不支持“OBS在线编辑”功能。说明：当您使用订阅算法创建训练作业时，不支持该参数。 “启动文件” 训练作业启动文件位置。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

ModelArts标注的数据存储在OBS中。自动训练训练作业结束后，其生成的模型存储在OBS中。部署上线 ModelArts将存储在OBS中的模型部署上线为在线服务。 Standard AI全流程开发数据管理数据集存储在OBS中。数据集的标注信息存储在OBS中。支持从OBS中导入数据。开发环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
创建训练作业 - AI开发平台ModelArts

from modelarts.estimatorV2 import Estimator session = Session() #训练脚本里接收的参数，请根据实际情况填写 parameters = [{"name": "mod", "value":"gpu"},

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

推理业务迁移到昇腾的通用流程，可参考GPU推理业务迁移至昇腾的通用指导。由于Huggingface网站的限制，访问Stable Diffusion链接时需使用代理服务器，否则可能无法访问网站。在Stable Diffusion迁移适配时，更多的时候是在适配Diffusers和Stable Diffusion

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例在Notebook上部署推理服务进行调试，因此需要创建Notebook。部署推理服务在Notebook调试环境中部署推理服务介绍如何在Notebook中配置NPU环境，部署并启动推理服务，完成精度测试和性能测试。如果需要部署量化模型，需在Notebook中进行模型权重转换后再部署推理服务。在推理生产环境中部署推理服务

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
使用AWQ量化工具转换权重 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step3 启动推理服务，在启动服务时添加如下命令。 --q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

提供模型版本管理、服务回滚等能力。通过配置模型路径、模型端口、模型名称等参数，原生TFServing镜像可以快速启动提供服务，并支持gRPC和HTTP Restful API的访问方式。 Triton是一个高性能推理服务框架，提供HTTP/gRPC等多种服务协议，支持Tenso

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
ModelArts最佳实践案例列表 - AI开发平台ModelArts

说明基于ModelArts Standard一键完成商超商品识别模型部署在线服务物体检测此案例以“商超商品识别”模型为例，完成从AI Gallery订阅模型，到ModelArts一键部署为在线服务的免费体验过程。第三方推理框架迁移到ModelArts Standard推理自定义引擎

 帮助中心 > AI开发平台ModelArts > 最佳实践
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

Connection refused, retrying”。原因分析 NCCL是一个提供GPU间通信原语的库，实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时，可以通过调整NCCL的环境变量尝试解决问题。处理步骤进入状态“运行失败”的训练作业详情页，单击“日志”页签，查看NCCL报错。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用AWQ量化 - AI开发平台ModelArts

/home/ma-user/Qwen1.5-72B-Chat-AWQ 参数说明： model：模型路径。 Step3 启动AWQ量化服务参考Step6 启动推理服务，在启动服务时添加如下命令。 -q awq 或者--quantization awq 父主题：推理模型量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化

总条数： 1508

上一页
1
...
12
13
14
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

故障恢复 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

场景介绍及环境准备 - AI开发平台ModelArts

如何查看ModelArts中正在收费的作业？ - AI开发平台ModelArts

不允许子账号使用公共资源池创建作业 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Standard数据管理 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

创建OBS桶用于ModelArts存储数据 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

ModelArts最佳实践案例列表 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线