搜索_华为云

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

GPU A系列裸金属服务器无法获取显卡如何解决问题现象在A系列裸金属服务器上使用PyTorch一段时间后，出现获取显卡失败的现象，报错如下： > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel 使用场景当前Notebook默认内置的引擎环境不能满足用户诉求，用户可以新建一个conda env按需搭建自己的环境。本小节以搭建一个“python3.6.5和tensorflow1.2.0”的IPython Kernel

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 环境配置相关
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
终止训练作业 - AI开发平台ModelArts

终止训练作业功能介绍终止训练作业，只可终止创建中、等待中、运行中的作业。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU）本文介绍了使用训练作业的自定义镜像+自定义启动命令来启动PyTorch DDP on Ascend加速卡训练。前提条件需要有Ascend加速卡资源池。创建训练作业本案例创建训练作业时，需要配置如下参数。表1 创建训练作业的配置说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
附录：训练常见问题 - AI开发平台ModelArts

附录：训练常见问题问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group 问题现象报错提示RuntimeError: Default

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于LLM模型的GPU训练业务迁移至昇腾指导 > 常见问题
查询训练作业详情 - AI开发平台ModelArts

查询训练作业详情功能介绍查询训练作业详情。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs/{

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练）本节通过调用一系列API，以训练模型为例介绍ModelArts API的使用流程。概述使用PyTorch框架创建训练作业的流程如下：调用认证鉴权接口获取用户Token，在后续的请求中需要将Token放到请求消息头中作为认证。调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
终止训练作业 - AI开发平台ModelArts

终止训练作业终止训练作业，只可终止创建中、等待中、运行中的作业。示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id终止。 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
推理精度测试 - AI开发平台ModelArts

推理精度测试本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试，数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen；以及使用lm-eval工具开展语言模型的推理精度测试，数据集包含mmlu

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910）
查询训练作业详情 - AI开发平台ModelArts

查询训练作业详情示例代码在ModelArts notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。方式一：根据指定的job_id查询。 from modelarts.session import Session from

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
Finetune训练 - AI开发平台ModelArts

Finetune训练本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上，使用新的数据集进行微调（fine-tuning）以优化模型性能。训练前需要修改数据集路径、模型路径。数据集路径格式为/datasets/pokemon-dataset

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境场景描述本文旨在指导如何在GPU裸金属服务器上，安装NVIDIA、CUDA驱动等环境配置。由于不同GPU预置镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 ma-cli image命令支持：查询用户已注册的镜像、查询/加载镜像构建模板、Dockerfile镜像构建、查询/清理镜像构建缓存、注册/取消注册镜像、调试镜像是否可以在Notebook中使用等。具体命令及功能可执行ma-cli image

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount 问题现象在Notebook执行兼容gpu的脚本时报错不兼容，但是通过nvcc --version排查显示是兼容。 import torch import sys print('

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控、

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
查看Notebook实例事件 - AI开发平台ModelArts

查看Notebook实例事件在Notebook的整个生命周期，包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录，用户可以在Notebook实例详情页中查看具体的事件，通过实例的事件，从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件，也可以设置间隔

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例

总条数： 189

上一页
1
2
3
4
5
...
10
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器无法获取显卡如何解决 - AI开发平台ModelArts

在Notebook中添加自定义IPython Kernel - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

附录：训练常见问题 - AI开发平台ModelArts

报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

Finetune训练 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线