搜索_华为云

模型训练计费项 - AI开发平台ModelArts

使用专属资源池进行训练时，支持挂载多个弹性文件服务SFS Turbo。用于存储模型训练的代码及输入输出数据。具体费用可参见弹性文件服务价格详情。按需计费包年/包月按文件系统所占用的存储空间容量和使用时长收费存储空间费用=每GB费率*存储容量*使用时长事件通知（不开启则不计费）订阅消息使用消息通知服务，在

 帮助中心 > AI开发平台ModelArts > 计费说明 > 计费项
使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

s所在区域、填写AK、SK（获取方式参考链接），然后单击“OK”完成登录。 “Region”：从下拉框中选择区域。必须与ModelArts管理控制台在同一区域。 “Project”：Region选择后，Project自动填充为Region对应的项目。 “Access Key ID”：填写访问密钥的AK。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过PyCharm远程使用Notebook实例
训练作业找不到GPU - AI开发平台ModelArts

根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

处理方法将requirements.txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行： os.system('pip list') 然后运行训练作业，查看日志中是否有所需要的模块。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

py > train.log 2>&1 & done 其中，train.py中设置环境变量DEVICE_ID： devid = int(os.getenv('DEVICE_ID')) context.set_context(mode=context.GRAPH_MODE, d

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

义镜像的API接口功能，无误后将自定义镜像上传至SWR服务。将自定义镜像创建为模型：将上传至SWR服务的镜像导入ModelArts的模型管理。将模型部署为在线服务：将导入的模型部署上线。本地构建镜像以linux x86_x64架构的主机为例，您可以购买相同规格的ECS或者

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案

 帮助中心 > AI开发平台ModelArts > 故障排除
推理精度测试 - AI开发平台ModelArts

保存回答了问题的选项，但是回答结果错误 │ ├── answer_result_unknow.xlsx # 保存未推理出结果的问题，例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果，但是可能答非所问，无法判断是否正确，需要人工判断进行纠偏。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
推理精度测试 - AI开发平台ModelArts

保存回答了问题的选项，但是回答结果错误 │ ├── answer_result_unknow.xlsx # 保存未推理出结果的问题，例如超时、系统错误 │ ├── system_error.xlsx # 保存推理结果，但是可能答非所问，无法判断是否正确，需要人工判断进行纠偏。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
Standard模型训练 - AI开发平台ModelArts

在ModelArts训练作业中如何判断文件夹是否复制完毕？如何在ModelArts训练作业中加载部分训练好的参数？ ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？在ModelArts训练代码中，如何获取依赖文件所在的路径？自如何获取ModelArts训练容器中的文件实际路径？

帮助中心 > AI开发平台ModelArts > 常见问题
下载JupyterLab文件到本地 - AI开发平台ModelArts

境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
执行训练任务（历史版本） - AI开发平台ModelArts

TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图3 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
查询开发环境实例详情 - AI开发平台ModelArts

String 存储类型。当前支持“obs”、“obsfs” 和“evs”，其中，obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统，请提工单。 location Object 存储位置，如果type为“obs”类型，该参数必须填写，如表5所示数据结构，如缺省值为“NULL”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
MoXing常用操作的样例代码 - AI开发平台ModelArts

exists('obs://bucket_name/sub_dir_0/sub_dir_1') 由于OBS允许同名的文件和文件夹（Unix操作系统不允许），如果存在同名的文件和文件夹，例如“obs://bucket_name/sub_dir_0/abc”，当调用mox.file.e

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 在Notebook中使用Moxing命令
训练迁移快速入门案例 - AI开发平台ModelArts

替的关系。昇腾训练芯片属于NPU的范畴，虽然在表达层可以通过torch.cuda和torch.npu的形式来替代，但是真实的算子下发、显存管理、集合通信等存在差异，用户需要了解NPU的运行机制才能更好的使用NPU设备，同时在遇到问题时快速找到原因。代码迁移操作步骤在训练任务启

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
更新开发环境实例信息 - AI开发平台ModelArts

String 存储类型。当前支持“obs”、“obsfs” 和“evs”，其中，obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统，请提工单。 location Object 存储位置，如果type为“obs”类型，该参数必须填写，如表16所示数据结构，如缺省值为“NULL”。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
模型配置文件编写说明 - AI开发平台ModelArts

r_location为必填参数。Image镜像制作规范可参见创建模型的自定义镜像规范。 runtime 否 String 模型运行时环境，系统默认使用python2.7。runtime可选值与model_type相关，当model_type设置为Image时，不需要设置runti

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

文件，OBS接口不支持直接调用，需要分多个线程分段复制，目前OBS侧服务端超时时间是30S，可以通过如下设置减少进程数。 # 设置进程数 os.environ['MOX_FILE_LARGE_FILE_TASK_NUM']=1 import moxing as mox # 复制文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

whl包，地址见教程中下载链接。 Tailor使用指导性能调优 msprof msprof命令行工具提供了AI任务运行性能数据、昇腾AI处理器系统数据等性能数据的采集和解析能力。包含在cann toolkit中。 msprof AOE 自动调优工具，提供子图调优和算子调优功能，在静

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理

总条数： 1341

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

模型训练计费项 - AI开发平台ModelArts

使用PyCharm Toolkit插件连接Notebook - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

在ModelArts的Notebook中，如何使用昇腾多卡进行调试？ - AI开发平台ModelArts

在ECS中通过Dockerfile从0制作自定义镜像用于推理 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

下载JupyterLab文件到本地 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

MoXing常用操作的样例代码 - AI开发平台ModelArts

训练迁移快速入门案例 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

模型配置文件编写说明 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线