搜索_华为云

准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
Finetune训练 - AI开发平台ModelArts

启动SD1.5 Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
查询训练作业列表 - AI开发平台ModelArts

查询训练作业列表功能介绍根据指定条件查询用户创建的训练作业。 URI GET /v1/{project_id}/training-jobs 参数说明如表1所示。表1 路径参数参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
查询服务监控信息 - AI开发平台ModelArts

model_version String 模型版本。 invocation_times Number 模型实例的总调用次数。 failed_times Number 模型实例调用失败次数。 cpu_core_usage Float 已使用CPU核数。 cpu_core_total

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询可视化作业列表 - AI开发平台ModelArts

功能介绍根据指定条件查询用户创建的可视化作业列表。 URI GET /v1/{project_id}/visualization-jobs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
推理场景介绍 - AI开发平台ModelArts

i、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.909版本，请参考软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
推理场景介绍 - AI开发平台ModelArts

i、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。本文档适配昇腾云ModelArts 6.3.911版本，请参考软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
LoRA训练 - AI开发平台ModelArts
LoRA训练 - AI开发平台ModelArts

模型性能的过程。启动SD1.5 LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_lora_train.sh 启动SDXL LoRA训练服务使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限问题现象在导入AI应用时，提示用户账号受限。原因分析提示用户账号受限，常见原因有如下几种：导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查询训练作业参数列表 - AI开发平台ModelArts

功能介绍根据指定条件查询用户创建的训练作业参数。 URI GET /v1/{project_id}/training-job-configs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
LoRA微调训练 - AI开发平台ModelArts

ds.sh 选择用户自己的专属资源池，以及规格与节点数。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
方案概述 - AI开发平台ModelArts
方案概述 - AI开发平台ModelArts

资源购买使用Lite Server资源，请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。父主题： DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

Please install mmcv>=1.3.1, <=1.5.0。原因分析 MMCV的依赖与PyTorch版本不匹配。处理方法可参考链接的内容，根据PyTorch和CUDA版本安装对应版本的MMCV。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

'2'”为打印所有的通信信息。“os.environ['PS_RESEND'] = '1'”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息，Van实例会重发消息。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

未被合理使用。是，优化代码，等待作业运行正常。否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，排查内存突发增加的时间点附近的训练作业日志，优化对应的代码逻辑，减少内存申请。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

service due to connection refused. " 出现该报错有两种情况：流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg"："Due to self protection

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
监控安全风险 - AI开发平台ModelArts

监控安全风险 ModelArts支持监控ModelArts在线服务和对应模型负载，执行自动实时监控、告警和通知操作。云监控可以帮助用户更好地了解服务和模型的各项性能指标。详细内容请参见ModelArts支持的监控指标。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
网络调整公告 - AI开发平台ModelArts

网络调整公告 ModelArts针对网络进行安全加固和优化，新的网络模式可以为用户的资源提供更好的隔离性，提升云上资源的安全。为保障您的网络安全，建议您后续使用新网络创建Standard资源池。表1 上线局点上线局点上线时间华东二 2024年10月29日 20:00 父主题：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
在Notebook中使用tensorboard命令打开日志文件报错Permission denied - AI开发平台ModelArts

--logdir ./命令，报错[Errno 13] Permission denied……。原因分析当前目录下包含没有权限的文件。解决方法建议用户新建一个文件夹（例如：tb_logs），将tensorboard的日志文件（例如：tb.events）放到新建的文件夹下，然后执行tensorboard命令。示例命令如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

specification 是 String 部署本地服务时，取值为“local”。 instance_count 是 Integer 模型部署的实例数，当前限制最大实例数为128，部署本地服务Predictor时，取值为1。 envs 否 Map<String, String> 运行模型需要的环境变量键值对，可选填，默认为空。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理

总条数： 2414

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备资源 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

查询可视化作业列表 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

LoRA训练 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

方案概述 - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

监控安全风险 - AI开发平台ModelArts

网络调整公告 - AI开发平台ModelArts

在Notebook中使用tensorboard命令打开日志文件报错Permission denied - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线