搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1_preprocess_data.sh 、2_convert_mg_hf.sh中的具体python指令，并在Notebook环境中运行执行。用户可通过Notebook中创建.ipynb文件，并编辑以下代码可实现Notebook环境中的数据与OBS中的数据进行相互传递。 import moxing as mox

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
批量重启节点 - AI开发平台ModelArts

"nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv" ] } 响应示例状态码：200 OK。 { "nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？如果容器中的文件实际路径不清楚，可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径（绝对路径） os.path.realpath(__ file __) #获得文件所在的路径（绝对路径）也可在搜索引擎寻找

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

on this platform”报错，具体解决方法请参见2。处理方法安装第三方包 pip中存在的包，使用如下代码： import os os.system('pip install xxx') pip源中不存在的包，此处以“apex”为例，请您用如下方式将安装包上传到OBS桶中。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
重置节点后无法正常使用？ - AI开发平台ModelArts

原因分析在ModelArts侧进行节点重置后，modelarts-os会向节点添加准入污点，进行节点准入，而因为集群volcano没有污点容忍，且集群内只有一个节点，导致volcano无法启动，进而导致modelarts-os节点上管理污点的maos-node-agent容器无法启动，使得污点无法被自动清理。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
infiniband驱动的安装 - AI开发平台ModelArts

进入地址，单击“Download”，选择“Archive Versions”，“Version”选择“4.3-1.0.1.0”，“OS Distribution”选择“Ubuntu”，“OS Distribution Version”选择“Ubuntu 16.04”，“Architecture”选择

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
MoXing进阶用法的样例代码 - AI开发平台ModelArts

'/cache/hdf_tmp' file_name = os.path.basename(path_or_buf) mox.file.make_dirs(tmp_dir) local_file = os.path.join(tmp_dir, file_name)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
GPU日志收集上传 - AI开发平台ModelArts

ak、sk、obs_dir替换为前面步骤中获取到的值。然后把该脚本上传到要收集GPU日志的节点上。 import json import os import sys import hashlib import hmac import binascii from datetime import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
配额管理 - AI开发平台ModelArts
配额管理 - AI开发平台ModelArts

配额管理查询OS的配额

 帮助中心 > AI开发平台ModelArts > API参考
批量对节点功能上锁 - AI开发平台ModelArts

"nodeNames" : [ "os-node-created-xzz78" ], "actions" : [ "delete" ] } 响应示例状态码：200 OK。 { "nodes" : [ { "name" : "os-node-created-xzz78"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
批量对节点功能解锁 - AI开发平台ModelArts

"nodeNames" : [ "os-node-created-xzz78" ], "actions" : [ "delete" ] } 响应示例状态码：200 OK。 { "nodes" : [ { "name" : "os-node-created-xzz78"

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

处理方法将requirements.txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行： os.system('pip list') 然后运行训练作业，查看日志中是否有所需要的模块。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练作业找不到GPU - AI开发平台ModelArts

根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

py > train.log 2>&1 & done 其中，train.py中设置环境变量DEVICE_ID： devid = int(os.getenv('DEVICE_ID')) context.set_context(mode=context.GRAPH_MODE, d

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案

 帮助中心 > AI开发平台ModelArts > 故障排除
NPU日志收集上传 - AI开发平台ModelArts

00IDuo机型将is_300_iduo改为True。然后把该脚本上传到要收集NPU日志的节点上。 import json import os import sys import hashlib import hmac import binascii import subprocess

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
下载JupyterLab文件到本地 - AI开发平台ModelArts

境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
批量删除节点 - AI开发平台ModelArts

/v2/{project_id}/pools/{pool_name}/nodes/batch-delete { "deleteNodeNames" : [ "os-node-created-mnmcf" ] } 响应示例状态码：404 Not Found。 { "error_code" : "ModelArts

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理

总条数： 1536

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ - AI开发平台ModelArts

如何安装第三方包，安装报错的处理方法 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

infiniband驱动的安装 - AI开发平台ModelArts

MoXing进阶用法的样例代码 - AI开发平台ModelArts

GPU日志收集上传 - AI开发平台ModelArts

配额管理 - AI开发平台ModelArts

批量对节点功能上锁 - AI开发平台ModelArts

批量对节点功能解锁 - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

下载JupyterLab文件到本地 - AI开发平台ModelArts

批量删除节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线