搜索_华为云

AI开发基本流程介绍 - AI开发平台ModelArts

大化地开发数据价值，发挥数据作用。 AI开发的基本流程 AI开发的基本流程通常可以归纳为几个步骤：确定目的、准备数据、训练模型、评估模型、部署模型。图1 AI开发流程确定目的在开始AI开发之前，必须明确要分析什么？要解决什么问题？商业目的是什么？基于商业的理解，整理AI开发

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
训练脚本存放目录说明 - AI开发平台ModelArts

# 构建镜像 └── qwen-vl_install.sh # 安装模型运行环境 └── qwen-vl.patch # 使用git apply修改模型相关代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
查询模型对象列表 - AI开发平台ModelArts

order="desc") print(model_object_list) 参数说明查询模型列表，返回list，list大小等于当前用户所有已经部署的模型个数， list中每个元素都是Model对象，对象属性和查询模型详情相同。查询模型列表返回说明： model_list = [model_instance1

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
数据保护技术 - AI开发平台ModelArts

在ModelArts中导入模型时，支持用户自己选择HTTP和HTTPS两种传输协议，为保证数据传输的安全性，推荐用户使用更加安全的HTTPS协议。数据完整性检查推理部署功能模块涉及到的用户模型文件和发布到AIGallery的资产在上传过程中，有可能会因为网络劫持、数据缓存等原因，存在数据不一致的问题。Mo

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
查询服务对象列表 - AI开发平台ModelArts

e") print(predictor_object_list) 参数说明查询服务列表，返回list，list大小等于当前用户所有已经部署的服务个数，list中每个元素都是Predictor对象，对象属性同本章初始化服务。查询服务列表返回说明：service_list_resp

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
将数据预热到SFS Turbo - AI开发平台ModelArts

# 构建镜像 │ └── qwen-vl_install.sh # 安装模型运行环境 │ └── qwen-vl.patch # 使用git apply修改模型相关代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
W4A16量化 - AI开发平台ModelArts
W4A16量化 - AI开发平台ModelArts

化。量化的一般步骤是：1、对浮点类型的权重镜像量化并保存量化完的权重；2、使用量化完的权重进行推理部署。什么是W4A16量化 W4A16量化方案能显著降低模型显存以及需要部署的卡数（约75%）。大幅降低小batch下的增量推理时延。约束限制支持AWQ W4A16、 per

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 量化
作业状态参考 - AI开发平台ModelArts

JOBSTAT_SUBMIT_MODEL_FAILED，提交模型失败。 17 JOBSTAT_DEPLOY_SERVICE_FAILED，部署服务失败。 18 JOBSTAT_CHECK_INIT,审核作业初始化。 19 JOBSTAT_CHECK_RUNNING，审核作业正在运行中。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
训练作业进程异常退出 - AI开发平台ModelArts

atch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练迁移适配 - AI开发平台ModelArts

执行以下命令，下载代码。 git clone https://github.com/facebookresearch/DiT.git cd Dit 执行以下命令，安装依赖项。 pip install diffusers==0.28.0 accelerate==0.30.1 timm==0.9.16 准备数据集。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
Eagle投机小模型训练 - AI开发平台ModelArts

ma2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

ma2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
Eagle投机小模型训练 - AI开发平台ModelArts

ma2系列和Qwen2系列模型。步骤一：安装Eagle Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。在目录下执行如下命令，即可安装Eagle。 bash build.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
启动/停止/删除实例 - AI开发平台ModelArts

“/home/ma-user/work”目录以及动态挂载在“/data”下的目录下的数据会保存，其余目录下内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Notebook停止后会被清理。您可以通过保存镜像的方式保留开发环境设置，具体操作请参考保存Notebook实例。 No

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

设置某一作业类型后，即可在此专属资源池中下发此种类型的作业，没有设置的作业类型不能下发。为了支持不同的作业类型，后台需要在专属资源池上进行不同的初始化操作，例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源，导致用户实际可用资源减少。因此建议用户按需设置，避免不必要的资源浪费。约束限制专属资源池状态处于“运行中”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
创建和修改工作空间 - AI开发平台ModelArts

当不需要该工作空间时，可以调用删除工作空间接口删除工作空间。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的部署区域，获取项目名称和ID、获取帐号名和ID和获取用户名和ID。操作步骤调用认证鉴权接口获取用户的Token。请求消息体： URI格式：POST

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
释放Standard专属资源池和删除网络 - AI开发平台ModelArts

在“删除资源池”页面，需在文本框中输入“DELETE”，单击“确定”，删除资源池。可切换“训练作业”、“推理服务”、“开发环境”页签查看资源池上创建的训练作业、部署的推理服务、创建的Notebook实例。图1 删除资源池释放游离节点如果您的资源中存在游离节点（即没有被纳管到资源池中的节点），您可在“AI专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
附录：大模型推理standard常见问题 - AI开发平台ModelArts

解决方法：降低transformers版本到4.42：pip install transformers==4.42 --upgrade 问题6：部署在线服务报错starting container process caused "exec: \"/home/mind/model/run_vllm

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
训练物体检测模型 - AI开发平台ModelArts

本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。父主题：使用自动学习实现物体检测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
训练作业运行失败排查指导 - AI开发平台ModelArts

原因：训练作业使用的镜像CUDA版本只支持sm_37、sm_50、sm_60和sm_70的加速卡，不支持sm_80。处理建议：使用自定义镜像创建训练作业，并安装高版本的cuda以及对应的PyTorch版本。查看训练作业的“日志”，出现报错“ERROR:root:label_map.pbtxt cannot

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败

总条数： 1871

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

AI开发基本流程介绍 - AI开发平台ModelArts

训练脚本存放目录说明 - AI开发平台ModelArts

查询模型对象列表 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

将数据预热到SFS Turbo - AI开发平台ModelArts

W4A16量化 - AI开发平台ModelArts

作业状态参考 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

训练迁移适配 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

Eagle投机小模型训练 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

创建和修改工作空间 - AI开发平台ModelArts

释放Standard专属资源池和删除网络 - AI开发平台ModelArts

附录：大模型推理standard常见问题 - AI开发平台ModelArts

训练物体检测模型 - AI开发平台ModelArts

训练作业运行失败排查指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线