搜索_华为云

训练过程中无法找到so文件 - AI开发平台ModelArts

考如下处理方法：在业务执行前加如下命令，检查是否能找到so文件。如果已经找到so文件，执行2；如果没有找到，执行3。 import os; os.system(find /usr -name *libcudart.so*); 设置环境变量LD_LIBRARY_PATH，设置完成后，重新下发作业即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
infiniband驱动的安装 - AI开发平台ModelArts

进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution Version”选择“Ubuntu 16.04”，“Architecture”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
MoXing进阶用法的样例代码 - AI开发平台ModelArts

'/cache/hdf_tmp' file_name = os.path.basename(path_or_buf) mox.file.make_dirs(tmp_dir) local_file = os.path.join(tmp_dir, file_name)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
复制数据至容器中空间不足 - AI开发平台ModelArts

的资源，“/cache”与代码目录共用10G，会造成内存不足，请更改为使用GPU资源。请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache') 父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Pytorch Mox日志反复输出 - AI开发平台ModelArts

Mox日志反复输出的问题，需要您在“启动文件”中添加如下代码，当“MOX_SILENT_MODE = “1””时，可在日志中屏蔽mox的版本信息： import os os.environ["MOX_SILENT_MODE"] = "1" 父主题： MoXing

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
计算规格说明 - AI开发平台ModelArts

计费的最小单位为秒，话单上报后的每一小时对用户账号进行一次扣费。如果使用过程中暂停、终止了消耗资源的AI Gallery工具链服务，即服务不处于计费的状态中，则系统不会立即扣费，依然等到满1小时后再进行扣费，且基于当前1小时内的实际使用时长进行扣费。实际计费规则资源按时价扣费，真正计费的价格以实际账单为准。查看账单请参见账单介绍。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NP

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
模型推理代码编写说明 - AI开发平台ModelArts

model目录下放置label.json文件，此处读取 dir_path = os.path.dirname(os.path.realpath(self.model_path)) with open(os.path.join(dir_path, 'label.json')) as f:

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

在模型详情页，单击“前往控制台”。在弹出的“选择云服务区域”页面选择ModelArts所在的云服务区域，单击“确定”跳转至ModelArts控制台的“模型管理 > 订阅模型”页面。图1 前往控制台在“订阅模型”列表，单击“版本数量”，在右侧展开版本列表，当订阅模型的版本列表的状态显示为“就绪”时表示模型可以使用。

帮助中心 > AI开发平台ModelArts > 快速入门
创建自动模型优化的训练作业 - AI开发平台ModelArts

能开启超参搜索功能。图2 开启超参搜索功能开启超参搜索功能后，用户可以设置搜索指标、搜索算法和搜索算法参数。三个参数显示的支持值与算法管理模块的超参设置对应。完成超参搜索作业的创建后，训练作业需要运行一段时间。查看超参搜索作业详情训练作业运行结束后，可以查看自动超参搜索结果判断此训练作业是否满意。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
准备BF16权重 - AI开发平台ModelArts

set_default_dtype(torch.bfloat16) os.makedirs(bf16_path, exist_ok=True) model_index_file = os.path.join(fp8_path, "model.safetensors

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 准备权重
使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

码。 import pandas as pd import moxing as mox mox.file.shift('os', 'mox') # 将os的open操作替换为mox.file.File适配OBS路径的操作 param = {'encoding': 'utf-8'}

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
包年/包月 - AI开发平台ModelArts
包年/包月 - AI开发平台ModelArts

为准。变更配置后对计费的影响当前包年/包月计算资源的规格不满足您的业务需要时，您可以在ModelArts控制台发起变更规格操作，变更时系统将按照如下规则为您计算变更费用：资源升配：新配置价格高于老配置价格，此时您需要支付新老配置的差价。资源降配：新配置价格低于老配置价格，此时华为云会将新老配置的差价退给您。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式
训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

上，这样会导致下载数据很慢。在训练作业中，使用如下代码进行“.tar”包解压： import moxing as mox import os mox.file.copy_parallel("obs://donotdel-modelarts-test/AI/data/PyTorch-1

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
使用MaaS调优模型 - AI开发平台ModelArts

开关打开：表示当由于环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。打开开关后，可以设置“最大重启次数”和是否启用“无条件自动重启”。重启次数的取值范围是1~128，缺省值为3。创建调优任务后不支持修改重启次数，请合理设置次数。开启无条件自动重启后，只要系统检测到训练异

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
日志提示"write line error" - AI开发平台ModelArts

处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit -c 0") 排查数据集大小，checkpoint保存文件大小，是否占满了磁盘空间。必现的问题，使用本

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

EX:-0}.${MA_VJ_NAME}"”。在创建训练作业页面配置环境变量“ROUTE_PLAN”，取值为“true”，具体操作请参见管理训练容器环境变量。代码示例训练作业的启动脚本示例如下。启动脚本中设置plog生成后存放在“/home/ma-user/modelar

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

步骤一：ModelArts专属资源池打通VPC 创建好VPC和子网，具体步骤请参考创建虚拟私有云和子网。创建Modelarts专属资源池网络。登录ModelArts管理控制台，在左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，默认进入“Standard资源池”页面。切换到“网络”页签，单击“创建”，弹出“创建网络”页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

Key）加密调用请求。 Token认证 Token的有效期为24小时，需要使用同一个Token鉴权时，可以缓存起来，避免频繁调用。 Token在计算机系统中代表令牌（临时）的意思，拥有Token就代表拥有某种权限。Token认证就是在调用API的时候将Token加到请求消息头，从而通过身份认证，获得操作API的权限。

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
SFT全参微调训练 - AI开发平台ModelArts

默认必须填写。根据资源规格每个节点上NPU的数量填写。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图2 开启故障重启 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

总条数： 2281

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练过程中无法找到so文件 - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

Pytorch Mox日志反复输出 - AI开发平台ModelArts

计算规格说明 - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

使用ModelArts Standard一键完成商超商品识别模型部署 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

准备BF16权重 - AI开发平台ModelArts

使用moxing适配OBS路径，pandas读取文件报错 - AI开发平台ModelArts

包年/包月 - AI开发平台ModelArts

训练作业使用MoXing复制数据较慢，重复打印日志 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

ModelArts Standard推理服务访问公网方案 - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线