搜索_华为云

模型训练存储加速 - AI开发平台ModelArts

Turbo”，在“文件系统”中选择SFS Turbo实例名称，并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前，自动将存储位置中的文件目录挂载到训练容器中指定路径。图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo，文件系统支持重复挂载

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
Workflow工作流管理 - AI开发平台ModelArts

删除Workflow工作流查询Workflow工作流修改Workflow工作流总览Workflow工作流查询Workflow待办事项在线服务鉴权创建在线服务包获取Execution列表新建Workflow Execution 删除Workflow Execution 查询Workflow

帮助中心 > AI开发平台ModelArts > API参考
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

点续训企业在具体使用大模型接入企业应用系统的时候，不仅要考虑模型体验情况，还需要考虑模型具体的精度效果，和实际应用成本。 MaaS提供灵活的模型开发能力，同时基于昇腾云的算力底座能力，提供了若干保障客户商业应用的关键能力。保障客户系统应用大模型的成本效率，按需收费，按需扩缩的

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

Torch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux x86_64架构的主机，操作系统ubuntu-18.04，通过编写Dockerfile文件制作自定义镜像。目标：构建安装如下软件的容器镜像，并在ModelArts平台

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

第一条命令为安装Linux内核头文件和内核镜像，其中版本为5.4.0-144-generic。第二条命令为重新生成GRUB引导程序的配置文件，用于在启动计算机时加载操作系统，命令将使用新安装的内核镜像更新GRUB的配置文件，以便在下次启动时加载新的内核。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提供了即开即用的云上集成开发环境，包含

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
LoRA微调训练 - AI开发平台ModelArts

选择用户自己的专属资源池，以及规格与节点数。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务：用户将模型部署为在线服务后，可以通过监控功能查看CPU、内存、GPU等资源使用统计信息和模型调用次数统计，具体参见查看服务详情章节。父主题： ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
从OBS中导入模型文件创建模型 - AI开发平台ModelArts

配置信息。 “部署类型” 选择此模型支持部署服务的类型，部署上线时只支持部署为此处选择的部署类型，例如此处只选择在线服务，那您导入后只能部署为在线服务。当前支持“在线服务”、“批量服务”和“边缘服务”。 “启动命令” 选填参数，指定模型的启动命令，您可以自定义该命令。如果使用预

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

镜像中使用的AI引擎是PyTorch，训练使用的资源是专属资源池的Ascend芯片。准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

A系列裸金属服务器已经安装了IB驱动。（网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。）操作步骤方法1：使用mlx硬件计数器，估算ROCE网卡收发流量统计300s内流量，统计脚本如下： x=$(cat

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
训练作业失败，返回错误码139 - AI开发平台ModelArts

容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

Torch，训练使用的资源是CPU或GPU。本实践教程仅适用于新版训练作业。场景描述本示例使用Linux x86_64架构的主机，操作系统ubuntu-18.04，通过编写Dockerfile文件制作自定义镜像。目标：构建安装如下软件的容器镜像，并在ModelArts平台

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

nfs-common 获取SFS Turbo的挂载命令。进入弹性文件服务SFS管理控制台。选择“SFS Turbo”进入文件系统列表，单击文件系统名称，进入详情页面。在“基本信息”页签获取并记录“Linux挂载命令”。在ECS服务器中挂载NFS存储。首先保证对应目录存在，然后输入对应指令即可。命令参考：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

本文介绍开发环境场景下子账号所需的基本使用权限，您可参考权限清单新增对应业务场景的权限。示例场景为授权子账号使用Notebook进行调试，数据和代码存放在并行文件系统。以下内容需使用管理账号进行配置。权限清单权限表1 开发环境所需权限业务场景依赖的服务依赖策略项支持的功能配置建议开发环境实例生命周期管理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

print('OMPI_COMM_WORLD_SIZE: ' + os.environ['OMPI_COMM_WORLD_SIZE']) print('OMPI_COMM_WORLD_RANK: ' + os.environ['OMPI_COMM_WORLD_RANK'])

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

1009”：“AppKey or AppSecret is invalid”。查询AppKey和AppSecret，使用APP认证访问在线服务，请参考访问在线服务（APP认证）。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

infer_type 是 String 推理方式，取值为real-time/batch/edge。 real-time代表在线服务，将模型部署为一个Web Service，并且提供在线的测试UI与监控能力，服务一直保持运行。 batch为批量服务，批量服务可对批量数据进行推理，完成数据处理后自动停止。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 780

上一页
1
...
11
12
13
...
39
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练存储加速 - AI开发平台ModelArts

Workflow工作流管理 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic？ - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

从OBS中导入模型文件创建模型 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

GPU A系列裸金属服务器如何进行RoCE性能带宽测试？ - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（PyTorch+CPU/GPU） - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

示例：从 0 到 1 制作自定义镜像并用于训练（MPI+CPU/GPU） - AI开发平台ModelArts

服务预测失败，报错APIG.XXXX - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线