搜索_华为云

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

--listen --log-startup --disable-safe-unpickle --skip-prepare-environment --api 基于dockerfile进行build docker build -t webui:v1 . Step4 上传镜像到容器镜像服务参考pull/push

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

分析错误时：训练镜像先看日志，推理镜像先看API的返回。可以通过命令查看容器输出到stdout的所有日志： docker logs -f 39c9ceedb1f6 一般在做推理镜像时，部分日志是直接存储在容器内部的，所以需要进入容器看日志。注意：重点对应日志中是否有ERROR（包括，容器启动时、API执行时）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
下载代码目录失败 - AI开发平台ModelArts

即OBS桶的路径是否正确。有两种方法判断是否存在。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件是否存在。通过接口判断路径是否存在。在代码中执行如下命令，检查路径是否存在。 import moxing as mox mox.file.exists('o

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用kv-cache-int8量化 - AI开发平台ModelArts

型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8_pertensor #只支持int8，表示kvint8 per-tensor量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
创建生产训练作业 - AI开发平台ModelArts

Standard控制台的方式创建生产环境的训练作业，详细操作请参考本章节以下内容。通过ModelArts提供的API接口创建生产环境的训练作业，详细操作请参见使用API创建训练作业。前提条件已经将用于训练作业的数据上传至OBS目录。已经在OBS目录下创建了至少1个空的文件夹，用于存储训练输出的内容。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
FLUX.1基于DevServer适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

einops==0.8.0 torchsde==0.2.6 aiohttp==3.10.5 omegaconf==2.3.0 fastapi==0.115.0 uvicorn==0.30.6 spandrel==0.4.0 kornia==0.7.3 修改comfyui 源码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
订阅的AI应用一直处于等待同步状态 - AI开发平台ModelArts

5055: 订阅已过期。处理方法在权限管理页面进行依赖服务的授权。完成委托授权请参考了解ModelArts权限配置。检查是否有OBS权限或者接口操作权限。订阅已过期，可以在AI Gallery确认可以续订后，重新订阅。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
复制数据卡死 - AI开发平台ModelArts

拷贝单个大文件5G以上时可采用： from moxing.framework.file import file_io 查看当前moxing调用的接口版本：file_io._LARGE_FILE_METHOD，如果输出值为1则为V1版本，如果输出值为2，则为V2版本。 V1版本修改：file_io

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

权限配置指南》> 典型场景配置案例，查找授予OBS桶权限的指导。获得OBS桶的读写权限后，您可以在Notebook中，使用moxing接口，访问对应的OBS桶，并读取数据。举例如下： import moxing as mox mox.file.copy_parallel('o

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 数据存储
推理性能测试 - AI开发平台ModelArts

--backend：服务类型，支持tgi、vllm、mindspore、openai、openai-chat等。本文档使用的推理接口是vllm，而llava多模态推理接口是openai-chat。 --host ${docker_ip}：服务部署的IP，${docker_ip}替换为宿主机实际的IP地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

录。即数据集存储的位置。在SDK中调用对应OBS目录下的数据。 SDK的下载和使用，请参见《SDK参考》。可参考从OBS下载文件，通过接口直接使用上述步骤中下载的数据集。父主题： AI Gallery

帮助中心 > AI开发平台ModelArts > 常见问题 > AI Gallery
删除训练作业 - AI开发平台ModelArts

训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

flow/log/” 用于存储训练日志文件。 Step2 创建数据集并上传至OBS 使用网站https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz，下载“mnist.npz”文件并上传至OBS桶的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。如果文件较小，可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录，解压以后使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
更新训练作业描述 - AI开发平台ModelArts

参数是否必选参数类型描述 description 是 String 需要更改的训练作业的描述信息。无成功响应参数表3 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Standard资源池节点故障定位 - AI开发平台ModelArts

ibstat查看网卡非Active状态。 A050121 NPU 其他 npu dcmi接口检测到driver异常。 NPU驱动环境异常。 A050122 NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。 A050123 NPU 链路 npu

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池

总条数： 1089

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

创建生产训练作业 - AI开发平台ModelArts

FLUX.1基于DevServer适配PyTorch NPU推理指导（6.3.909） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

订阅的AI应用一直处于等待同步状态 - AI开发平台ModelArts

复制数据卡死 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

在Notebook中，如何访问其他账号的OBS桶？ - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Tensorflow+GPU） - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线