搜索_华为云

文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

文档导读本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。章节内容 SDK简介简要介绍ModelArts SDK的概念。快速开始介绍如何使用ModelArts SDK进行二次开发。（可选）本地服务器安装ModelArts SDK

帮助中心 > AI开发平台ModelArts > SDK参考
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

Standard上运行GPU单机单卡训练作业操作流程准备工作购买服务资源（OBS和SWR）配置权限创建专属资源池（不需要打通VPC）安装和配置OBS命令行工具（可选）工作空间配置模型训练本地构建镜像及调试上传镜像上传数据和算法到OBS 使用Notebook进行代码调试

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
配置仪表盘查看指标数据 - AI开发平台ModelArts

配置仪表盘查看指标数据 Grafana中可以自定义配置各种视图的仪表盘，ModelArts也提供了针对集群的配置模板。本章节通过使用ModelArts提供的模板查看指标和创建Dashboards查看指标的方式，说明如何进行仪表盘配置。Grafana的更多使用请参考Grafana官方文档。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
推理精度测试 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理精度测试 - AI开发平台ModelArts

├──install.sh #安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字 ├──vllm_ppl.py

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

检查containerd是否安装。 containerd -v # 检查containerd是否安装在创建CCE集群时，会选择 containerd 作为容器引擎，并默认给机器安装。如尚未安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

retry:0 原因分析出现该问题的可能原因如下: OBS服务的权限出现问题，导致无法正常读取数据处理方法请检查OBS权限配置，如未解决问题可参考OBS文档的已配置OBS权限，仍然无法访问OBS（403 AccessDenied）。建议与总结在创建训练作业前，推荐您先使用Mode

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
启动推理服务 - AI开发平台ModelArts

proc：关闭异步后处理特性，关闭后性能会下降。多机部署启动推理服务（可选）当单机显存无法放下模型权重时，可选用多机方式部署；多机部署方式，需要机器在同一个集群，NPU卡之间IP能够ping通方可，具体步骤如下：查看卡IP，在其中一个宿主机上执行。 for i in $(seq

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
准备推理环境 - AI开发平台ModelArts

080。配置需要使用的NPU卡为容器中的第几张卡。例如：实际使用的是容器中第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡，则按容器中的卡号依次编排。例如：实际使用的是容器中第1张和第2张卡，此处填写为“0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
创建Notebook实例 - AI开发平台ModelArts

object 容器相关的钩子配置。表6 ContainerHooks 参数是否必选参数类型描述 post_start 否 Config object 启动服务后脚本配置。 pre_start 否 Config object 启动服务前脚本配置。表7 Config 参数是否必选

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除镜像 - AI开发平台ModelArts
删除镜像 - AI开发平台ModelArts

状态码： 200 表3 响应Body参数参数参数类型描述 arch String 该镜像所支持处理器架构类型。枚举值如下： X86_64：x86处理器架构。 AARCH64：ARM体系架构。 create_at Long 镜像创建的时间，UTC毫秒。 description String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

-n {namespace} 查看卡信息，执行以下命令。 npu-smi info kubernetes会根据config.yaml文件中配置的卡数分配资源给pod，如下图所示由于配置了1卡因此在容器中只会显示1卡，说明配置生效。图2 查看卡信息修改pod的卡数。由于本案例中为分布式训练，因此所需卡数修改为8卡。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
在推理生产环境中部署推理服务 - AI开发平台ModelArts

G，请提工单扩容。 Step3 部署在线服务将Step2 部署模型中创建的AI应用部署为一个在线服务，用于推理调用。在ModelArts控制台，单击“模型部署 > 在线服务 > 部署”，开始部署在线服务。设置部署服务名称，选择Step2 部署模型中创建的AI应用。选择专属资

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前，请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。解析输入路径参数、输出路径参数运行在Mo

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
ECS中构建新镜像（可选） - AI开发平台ModelArts

ECS中构建新镜像（可选）通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
通过运行的实例保存成容器镜像 - AI开发平台ModelArts

通过运行的实例保存成容器镜像功能介绍运行的实例可以保存成容器镜像，保存的镜像中，安装的依赖包（pip包）不丢失，VS Code远程开发场景下，在Server端安装的插件不丢失。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

Step6 准备镜像创建ECS。参考ECS文档购买弹性云服务器。网络配置、高级配置等后续步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，并在控制台发送后续步骤中的远程命令。注意：创建的ECS虚拟机使用ARM镜像创建。图1 购买ECS 安装Docker。检查docker是否安装。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
约束与限制 - AI开发平台ModelArts

Standard推理部署在线服务单个账号最多可创建20个在线服务。是提交工单申请提升配额更多信息，请参见部署在线服务。 Standard推理部署批量服务单个账号最多可创建1000个批量服务。否更多信息，请参见部署批量服务。 Standard推理部署边缘服务单个账号最多可创建1000个边缘服务。

帮助中心 > AI开发平台ModelArts > 产品介绍

总条数： 1614

上一页
1
...
15
16
17
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

文档导读 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

训练作业访问OBS时，日志提示“stat:403 reason:Forbidden” - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

准备推理环境 - AI开发平台ModelArts

创建Notebook实例 - AI开发平台ModelArts

删除镜像 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

通过运行的实例保存成容器镜像 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） - AI开发平台ModelArts

约束与限制 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线