搜索_华为云

显存溢出错误 - AI开发平台ModelArts

max_split_size_mb to avoid fragmentation. 解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

如果是client数太多，尤其对于5G以上文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？昇腾多卡训练任务是多进程多卡模式，跑几卡需要起几个python进程。昇腾底层会读取环境变量：RANK_TABLE_FILE，开发环境已经设置，用户无需关注。比如跑八卡，可以如下片段代码： export RANK_SIZE=8

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

1434 SQL Server的TCP端口，用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口，弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查询超参搜索某个trial的结果 - AI开发平台ModelArts

utosearch-trials/ae544174 响应示例状态码：200 ok { "header" : [ "done", "pid", "best_reward", "time_total_s", "config", "acc", "loss", "trial_id"

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
训练作业卡死检测 - AI开发平台ModelArts

卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。进程状态：只要训练作业中存在进程IO有变化，进入下一个检测周期。如果在多个检测周期内，作业所有进程IO都没有变化，则进入资源利用率检测阶段。资源利用率：在作业进程IO没有变

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象在使用pytorch启动多进程的时候，出现如下报错： RuntimeError: Cannot re-initialize CUDA in forked subprocess

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

进入OBS，删除本示例使用的OBS桶及文件夹，以及文件夹的文件。常见问题训练作业一直在等待中（排队）？训练作业状态一直在等待中状态表示当前所选的资源池规格资源紧张，作业需要进行排队，请耐心等待。请参考训练作业一直在等待中（排队）？。在ModelArts中选择OBS路径时，找不到已创建的OBS桶？

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

相比于DP，DDP能够启动多进程进行运算，从而大幅度提升计算资源的利用率。可以基于torch.distributed实现真正的分布式计算，具体的原理此处不再赘述。大致的流程如下：初始化进程组。创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据分发Sampler，使每个进程加载一个mini

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

查看当前Notebook实例中有哪些进程使用GPU。方法一： python /modelarts/tools/gpu_processes.py 如果当前进程使用GPU 如果当前没有进程使用GPU 方法二：打开文件“/resource_info/gpu_usage.json”，可以看到有哪些进程在使用GPU。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

进入OBS，删除本示例使用的OBS桶及文件夹，以及文件夹的文件。常见问题训练作业一直在等待中（排队）？训练作业状态一直在等待中状态表示当前所选的资源池规格资源紧张，作业需要进行排队，请耐心等待。请参考训练作业一直在等待中（排队）？。在ModelArts中选择OBS路径时，找不到已创建的OBS桶？

帮助中心 > AI开发平台ModelArts > 快速入门
启动/停止/删除实例 - AI开发平台ModelArts

启动/停止/删除实例启动/停止实例由于运行中的Notebook将一直耗费资源，您可以通过停止操作，停止资源消耗。对于停止状态的Notebook，可通过启动操作重新使用Notebook。登录ModelArts管理控制台，在左侧菜单栏中选择“开发空间 > Notebook”，进入Notebook管理页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
推理专属预置镜像列表 - AI开发平台ModelArts

libgoogle-glog-dev liblmdb-dev libatlas-base-dev librdmacm1 libcap2-bin libpq-dev mysql-common net-tools nginx openslide-tools openssh-client openssh-server

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
查询超参搜索所有trial的结果 - AI开发平台ModelArts

0, "group_by" : "", "items" : { "header" : [ "", "done", "pid", "config", "trial_id", "training_iteration", "time_total_s", "worker_index"

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
VSCode远程连接时卡顿，或Python调试插件无法使用如何处理？ - AI开发平台ModelArts

VSCode远程连接时卡顿，或Python调试插件无法使用如何处理？问题现象 VSCode远程连接Notebook时，单击“VS Code接入”跳转至连接界面时一直卡顿，或Python调试插件无法使用。图1 Python调试插件错误原因分析该问题通常由VS Code安装了第三方中文插件引起。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

从内核中卸载nvidia相关的所有进程。在安装nvidia驱动时，必须把内核中加载nvidia相关的进程卸载，否则会失败。具体操作请参考GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML。若遇到加载到内核的nvidia进程循环依赖，

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
AIGC工具tailor使用指导 - AI开发平台ModelArts

下载地址：https://support.huawei.com/enterprise/zh/ascend-computing/cann-pid-251168373/software/258923273?idAbsPath=fixnode01%7C23710424%7C251366

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
集成在线服务API至生产环境中应用 - AI开发平台ModelArts

集成在线服务API至生产环境中应用针对已完成调测的API，可以将在线服务API集成至生产环境中应用。前提条件确保在线服务一直处于“运行中”状态，否则会导致生产环境应用不可用。集成方式 ModelArts在线服务提供的API是一个标准的Restful API，可使用HTTP

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

worker_num：所有进程个数。因为一个卡起一个进程，所以也表示使用总卡数。 local_worker_num：当前节点进程个数，即当前节点使用的卡数。 master_addr：msrun组网调度进程所在节点的IP地址，单机场景无需配置。 master_port：msrun组网调度进程的端口。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
Lite Cluster资源配置流程 - AI开发平台ModelArts

nd/ 图14 训练进程查看卡占用情况，如图所示，此时0号卡被占用，说明进程正常启动。 npu-smi info //查看卡信息图15 查看卡信息训练任务大概会运行两小时左右，训练完成后自动停止。若想停止训练任务，可执行下述命令关闭进程，查询进程后显示已无运行中python进程。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置

总条数： 361

上一页
1
2
3
4
5
...
19
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

查询超参搜索某个trial的结果 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

在ModelArts的Notebook中如何查看GPU使用情况？ - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

查询超参搜索所有trial的结果 - AI开发平台ModelArts

VSCode远程连接时卡顿，或Python调试插件无法使用如何处理？ - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

AIGC工具tailor使用指导 - AI开发平台ModelArts

集成在线服务API至生产环境中应用 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

Lite Cluster资源配置流程 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线