搜索_华为云

Lite Cluster资源管理介绍 - AI开发平台ModelArts

Lite Cluster资源管理介绍在ModelArts控制台，您可以对已创建的资源进行管理。通过单击资源池名称，可以进入到资源池详情页，您可以在详情页进行下述操作。管理Lite Cluster资源池：ModelArts支持对资源池进行管理，包括续费、开通/修改自动续费、扩容、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
创建训练任务 - AI开发平台ModelArts

创建训练任务调试代码创建训练任务之前，建议先调试代码。由于Notebook的/cache目录只能支持500G的存储，超过后会导致实例重启，ImageNet数据集大小超过该限制，因此建议用线下资源调试、或用小批量数据集在Notebook调试（Notebook调试方法与使用Notebook

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务背景说明访问在线服务的实际业务中，用户可能会存在如下需求：高吞吐量、低时延 TCP或者RPC请求因此，ModelArts提供了VPC直连的高速访问通道功能以满足用户的需求。使用VPC直连的高速访问通道，用户的业务请求不需要经过推理平台

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
通过运行的实例保存成容器镜像 - AI开发平台ModelArts

通过运行的实例保存成容器镜像功能介绍运行的实例可以保存成容器镜像，保存的镜像中，安装的依赖包（pip包）不丢失，VS Code远程开发场景下，在Server端安装的插件不丢失。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
在推理生产环境中部署推理服务 - AI开发平台ModelArts

在推理生产环境中部署推理服务本章节介绍如何在ModelArts的推理生产环境（ModelArts控制台的在线服务功能）中部署推理服务。 Step1 准备模型文件和权重文件在OBS桶中，创建文件夹，准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
删除DevServer实例 - AI开发平台ModelArts

删除DevServer实例功能介绍删除DevServer实例。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v1/{project_id

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
停止DevServer实例 - AI开发平台ModelArts

停止DevServer实例功能介绍停止DevServer实例。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI PUT /v1/{project_id

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置背景说明访问在线服务的实际业务中，用户可能会存在如下需求：高吞吐量、低时延 TCP或者RPC请求因此，ModelArts提供了VPC直连的高速访问通道功能以满足用户的需求。使用VPC直连的高速访问通道

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
查询DevServer实例详情 - AI开发平台ModelArts

查询DevServer实例详情功能介绍查询DevServer实例详情。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id

帮助中心 > AI开发平台ModelArts > API参考 > DevServer管理
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源（GPU、NPU、CPU、Memory等）的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况，并上报到AOM，用户可直接在AOM上查看。登录AOM控制台查看监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练声音分类模型 - AI开发平台ModelArts

训练声音分类模型完成音频标注后，可以进行模型的训练。模型训练的目的是得到满足需求的声音分类模型。由于用于训练的音频，至少有2种以上的分类，每种分类的音频数不少于5个。操作步骤在开始训练之前，需要完成数据标注，然后再开始模型的自动训练。在新版自动学习页面，单击项目名称进入运行总览页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-3rdLLM-6.3.905-xxx.zip 说明：软件包名称中的xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。软件配套版本本方案支持的软件配套版本和依赖包获取地址如表1所示。表1 软件配套版本和获取地址软件名称说明下载地址 AscendCloud-6.3.906-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

准备代码本教程中用到的模型软件包如下表所示，请提前准备好。获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.912-xxx.zip 说明：软件包名称中的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
查询训练作业详情 - AI开发平台ModelArts

查询训练作业详情功能介绍查询训练作业详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/{

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理

总条数： 634

上一页
1
...
14
15
16
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster资源管理介绍 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

通过运行的实例保存成容器镜像 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

删除DevServer实例 - AI开发平台ModelArts

停止DevServer实例 - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

查询DevServer实例详情 - AI开发平台ModelArts

在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练声音分类模型 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线