搜索_华为云

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而无需经过CPU或系统内存，这可以显著降低延迟并提高带宽。所以既然nccl-tests能正常测试，但是达不到预期，可能是nv_peer_mem异常。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

on this platform”报错，具体解决方法请参见2。处理方法安装第三方包 pip中存在的包，使用如下代码： import os os.system('pip install xxx') pip源中不存在的包，此处以“apex”为例，请您用如下方式将安装包上传到OBS桶中。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
pipeline代码适配 - AI开发平台ModelArts

ayml/onnx_models" os.environ['DEVICE_ID'] = "0" os.environ['TEXT_ENCODER_PATH'] = f"{mindir_dir}/text_encoder.mindir" os.environ['VAE_ENCODER_PATH']

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

Initialize the distributed environment. """ os.environ['MASTER_ADDR'] = '127.0.0.1' os.environ['MASTER_PORT'] = '29500' dist.init

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）也可在搜索引擎寻找

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练tokenizer文件说明 - AI开发平台ModelArts

write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf" 父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练网络迁移总结 - AI开发平台ModelArts

络（包含混合精度）再到NPU上排查精度问题。常见的精度调测手段，包含使用全精度FP32，或者关闭算子融合开关等，先进行排查。对于精度问题，系统工程人员需要对算法原理有较深入的理解，仅从工程角度分析有时候会非常受限，同时也可联系华为工程师进行诊断与优化。父主题： GPU训练业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

在模型详情页，单击“前往控制台”。在弹出的“选择云服务区域”页面选择ModelArts所在的云服务区域，单击“确定”跳转至ModelArts控制台的“模型管理 > 订阅模型”页面。图1 前往控制台在“订阅模型”列表，单击“版本数量”，在右侧展开版本列表，当订阅模型的版本列表的状态显示为“就绪”时表示模型可以使用。

帮助中心 > AI开发平台ModelArts > 快速入门
创建自动模型优化的训练作业 - AI开发平台ModelArts

能开启超参搜索功能。图2 开启超参搜索功能开启超参搜索功能后，用户可以设置搜索指标、搜索算法和搜索算法参数。三个参数显示的支持值与算法管理模块的超参设置对应。完成超参搜索作业的创建后，训练作业需要运行一段时间。查看超参搜索作业详情训练作业运行结束后，可以查看自动超参搜索结果判断此训练作业是否满意。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

INDEX}.${MA_VJ_NAME}"”。在创建训练作业页面配置环境变量“ROUTE_PLAN”，取值为“true”，具体操作请参见管理训练容器环境变量。代码示例训练作业的启动脚本示例如下。启动脚本中设置plog生成后存放在“/home/ma-user/modelar

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
构建条件节点控制分支执行 - AI开发平台ModelArts

from modelarts import workflow as wf # 构建一个OutputStorage对象，对训练输出目录做统一管理 storage = wf.data.Storage(name="storage_name", title="title_info", w

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
训练tokenizer文件说明 - AI开发平台ModelArts

write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf") 父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
MoXing进阶用法的样例代码 - AI开发平台ModelArts

'/cache/hdf_tmp' file_name = os.path.basename(path_or_buf) mox.file.make_dirs(tmp_dir) local_file = os.path.join(tmp_dir, file_name)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
训练过程中无法找到so文件 - AI开发平台ModelArts

考如下处理方法：在业务执行前加如下命令，检查是否能找到so文件。如果已经找到so文件，执行2；如果没有找到，执行3。 import os; os.system(find /usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH，设置完成后，重新下发作业即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
续费概述 - AI开发平台ModelArts
续费概述 - AI开发平台ModelArts

在专属资源池到期前均可开通自动续费，到期前7日凌晨3:00首次尝试自动续费，如果扣款失败，每天凌晨3:00尝试一次，直至专属资源池到期或者续费成功。到期前7日自动续费扣款是系统默认配置，您也可以根据需要修改此扣款日。父主题：续费

 帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
infiniband驱动的安装 - AI开发平台ModelArts

进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution Version”选择“Ubuntu 16.04”，“Architecture”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
Pytorch Mox日志反复输出 - AI开发平台ModelArts

Mox日志反复输出的问题，需要您在“启动文件”中添加如下代码，当“MOX_SILENT_MODE = “1””时，可在日志中屏蔽mox的版本信息： import os os.environ["MOX_SILENT_MODE"] = "1" 父主题： MoXing

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
复制数据至容器中空间不足 - AI开发平台ModelArts

的资源，“/cache”与代码目录共用10G，会造成内存不足，请更改为使用GPU资源。请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache') 父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Qwen-VL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NP

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

步骤一：ModelArts专属资源池打通VPC 创建好VPC和子网，具体步骤请参考创建虚拟私有云和子网。创建Modelarts专属资源池网络。登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，默认进入“Standard资源池”页面。切换到“网络”页签，单击“创建”，弹出“创建网络”页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署

总条数： 2085

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

pipeline代码适配 - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

训练tokenizer文件说明 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

续费概述 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

Pytorch Mox日志反复输出 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

Qwen-VL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线