搜索_华为云

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

分析错误时：训练镜像先看日志，推理镜像先看API的返回。可以通过命令查看容器输出到stdout的所有日志： docker logs -f 39c9ceedb1f6 一般在做推理镜像时，部分日志是直接存储在容器内部的，所以需要进入容器看日志。注意：重点对应日志中是否有ERROR（包括，容器启动时、API执行时）。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
性能调优 - AI开发平台ModelArts
性能调优 - AI开发平台ModelArts

--device=Ascend 为了简化用户使用，ModelArts提供了Tailor工具便于用户进行Benchmark性能测试，具体使用方式参考Tailor指导文档。在某些推理场景中，模型输入的shape可能是不固定的，因此需要支持用户指定模型的动态shape，并能够在推理中接收多种shape的输入

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

注意：训练作业的资源池以及ECS都需要联通外网，否则会安装和下载失败。 ECS获取和上传基础镜像创建ECS。下文中介绍如何在ECS中构建一个训练镜像，请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤，可根据默认选择，或进行自定义。创建完成后，单击“远程登录”，后续安装Docker等操作均在该ECS上进行。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

针对GPU场景的镜像中安装了对应版本的CUDA（由英伟达推出的统一计算架构）驱动，而Ascend-Powered-Engine引擎的镜像中都安装了与底层硬件版本适配的CANN（华为针对AI场景推出的异构计算架构）驱动。提交训练作业后，ModelArts Standard平台会自动运行训练任务的启动文件；启动文件的运行次数取决于训练卡数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
上传本地文件至JupyterLab - AI开发平台ModelArts

将OBS中的文件下载到Notebook，可以通过在Notebook中运行代码的方式完成数据下载，具体方式有2种，ModelArts的SDK接口或者调用MoXing接口。方法一：使用ModelArts SDK接口将OBS中的文件下载到Notebook后进行操作。示例代码： 1 2 3 from modelarts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
下载代码目录失败 - AI开发平台ModelArts

即OBS桶的路径是否正确。有两种方法判断是否存在。使用当前账户登录OBS管理控制台，去查找对应的OBS桶、文件夹、文件是否存在。通过接口判断路径是否存在。在代码中执行如下命令，检查路径是否存在。 import moxing as mox mox.file.exists('o

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用kv-cache-int8量化 - AI开发平台ModelArts

型不影响int8的scale系数的抽取和加载。启动kv-cache-int8-per-tensor量化服务。在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8_pertensor #只支持int8，表示kvint8 per-tensor量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
在MaaS中创建模型 - AI开发平台ModelArts

可以使用transformers的from_pretrained方法对模型权重文件夹进行加载。具体请参见Hugging Face官方文档Documentations。当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen-14B和Qwen-72B模型框架

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
使用kv-cache-int8量化 - AI开发平台ModelArts

dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数： --kv-cache-dtype int8 #只支持int8，表示kvint8量化 --quantization-param-path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
订阅的AI应用一直处于等待同步状态 - AI开发平台ModelArts

5055: 订阅已过期。处理方法在权限管理页面进行依赖服务的授权。完成委托授权请参考了解ModelArts权限配置。检查是否有OBS权限或者接口操作权限。订阅已过期，可以在AI Gallery确认可以续订后，重新订阅。父主题： AI应用管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > AI应用管理
使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

登录ModelArts控制台，左侧菜单选择“AI应用管理 > AI应用”；单击“创建”，进入创建AI应用界面，元模型选择“从容器镜像中选择”，选择自定义镜像；配置“容器调用接口”和端口号，端口号与模型配置文件中的端口保持一致；图1 修改端口号设置完成后，单击“立即创建”，等待AI应用状态变为“正常”；重新部署在线服务。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
复制数据卡死 - AI开发平台ModelArts

拷贝单个大文件5G以上时可采用： from moxing.framework.file import file_io 查看当前moxing调用的接口版本：file_io._LARGE_FILE_METHOD，如果输出值为1则为V1版本，如果输出值为2，则为V2版本。 V1版本修改：file_io

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

录。即数据集存储的位置。在SDK中调用对应OBS目录下的数据。 SDK的下载和使用，请参见《SDK参考》。可参考从OBS下载文件，通过接口直接使用上述步骤中下载的数据集。父主题： AI Gallery

帮助中心 > AI开发平台ModelArts > 常见问题 > AI Gallery
删除训练作业 - AI开发平台ModelArts

训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance.job_id"，或从查询训练作业列表的响应中获得。无成功响应参数。表2 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
开发第一条Workflow - AI开发平台ModelArts

Gallery>资产集市>算法，搜索自动学习算法-图像分类。单击算法右侧的“订阅”。在弹出的窗口中，勾选“我已阅读并同意《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”后，单击“继续订阅”。订阅完成后，单击“前往控制台”，选择云服务区域为“华北-北京四”，单击“确定”后

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

程会消耗较长时间。处理方法在创建训练作业时，数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。如果文件较小，可以将OBS上的数据保存成“.tar”包。训练开始时从OBS上下载到“/cache”目录，解压以后使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
更新训练作业描述 - AI开发平台ModelArts

参数是否必选参数类型描述 description 是 String 需要更改的训练作业的描述信息。无成功响应参数表3 调用训练接口失败响应参数参数类型描述 error_msg String 调用失败时的错误信息，调用成功时无此字段。 error_code String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

总条数： 1234

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU多机多卡训练任务 - AI开发平台ModelArts

性能调优 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

上传本地文件至JupyterLab - AI开发平台ModelArts

下载代码目录失败 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

订阅的AI应用一直处于等待同步状态 - AI开发平台ModelArts

使用自定义镜像创建在线服务，如何修改默认端口 - AI开发平台ModelArts

复制数据卡死 - AI开发平台ModelArts

在AI Gallery订阅的数据集可以在SDK中使用吗？ - AI开发平台ModelArts

删除训练作业 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线