搜索_华为云

OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

日志提示“No module name 'unidecode'” 问题现象从mindspore开源gitee中master分支下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name 'unidecode'。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
Lite Cluster资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 Lite Cluster资源配置流程配置Lite Cluster网络配置kubectl工具配置Lite Cluster存储（可选）配置驱动（可选）配置镜像预热

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

常用框架指使用ModelArts训练管理中支持的常用AI引擎，当前支持的引擎列表请参见ModelArts支持的预置镜像列表。如果您使用的AI引擎为支持列表之外的，建议使用自定义镜像的方式创建训练作业。 AI Engine 选择代码使用的AI引擎及其版本。支持的AI引擎与ModelArts管理控制台里ModelArts支持的预置镜像列表一致。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
昇腾迁移快速入门案例 - AI开发平台ModelArts

约束限制当前仅贵阳一区域支持选择本案例中的规格及镜像。操作步骤登录ModelArts管理控制台，在左侧导航栏中选择“开发空间 > Notebook”，进入“Notebook”管理页面。在“Notebook”页面，单击“创建Notebook”。在“创建Notebook”

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
推理场景介绍 - AI开发平台ModelArts

Server上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
模型推理代码编写说明 - AI开发平台ModelArts

模型推理代码编写说明本章节介绍了在ModelArts中模型推理代码编写的通用方法及说明，针对常用AI引擎的自定义脚本代码示例（包含推理代码示例），请参见自定义脚本代码示例。本文在编写说明下方提供了一个TensorFlow引擎的推理代码示例以及一个在推理脚本中自定义推理逻辑的示例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
更新开发环境实例信息 - AI开发平台ModelArts

更新开发环境实例信息功能介绍该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
报名实践活动（实践） - AI开发平台ModelArts

报名实践活动（实践）在AI Gallery中，可以报名参加正在进行中的实践活动。查找实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践页面，有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。图1 查找实践活动

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
单机多卡 - AI开发平台ModelArts
单机多卡 - AI开发平台ModelArts

单机多卡准备镜像上传数据和算法至SFS（首次使用时需要）使用Notebook进行代码调试创建训练任务父主题：调试与训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练
ModelArts环境挂载目录说明 - AI开发平台ModelArts

ModelArts环境挂载目录说明本小节介绍Notebook开发环境、训练任务实例的目录挂载情况（以下挂载点在保存镜像的时候不会保存）。详情如下： Notebook 表1 Notebook挂载点介绍挂载点是否只读备注 /home/ma-user/work/ 否客户数据的持久化目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误问题现象训练作业保存模型时日志报错，具体信息如下： InternalError (see above for traceback): : Unable to connect to endpoint 原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败问题现象训练作业日志运行出现如下报错：RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析由于ECC错误，导致作业运行失败。处理方法当ECC错误且计数超过

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败问题现象 ModelArts训练作业报错： RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析递归深度超过了Python默认的递归深度，导致训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？问题现象在使用Notebook过程中，界面出现“ModelArts.6333”报错信息。原因分析可能由于实例过负载引起故障，Notebook正在自动恢复中，请刷新页面并等待几分钟。常见原因是内存占用满。处理方法当出现此错

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 实例故障
日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” 问题现象代码在Notebook的keras镜像中可以正常运行，在训练模块使用tensorflow.keras训练报错时，出现如下报错：AttributeError:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
开发Workflow命令参考 - AI开发平台ModelArts

开发Workflow命令参考开发Workflow的核心概念介绍配置Workflow参数配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？在训练作业的过程中，会使用到第三方库。以C++为例，请参考如下操作步骤进行安装：将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。将上传到OBS的源码使用Moxing复制到开发环境Notebook中。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？不支持。创建资源池时，只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源，但是无法使用账号下购买的ECS，作为ModelArts专属资源池。父主题： Standard专属资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard专属资源池
ModelArts的API或SDK支持模型下载到本地吗？ - AI开发平台ModelArts

ModelArts的API或SDK支持模型下载到本地吗？ ModelArts的API和SDK不支持模型下载到本地，但训练作业输出的模型是存放在对象存储服务（OBS）里面的，您可以通过OBS的API或SDK下载存储在OBS中的文件，具体请参见从OBS下载文件。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 常见问题 > API/SDK

总条数： 2660

上一页
1
...
55
56
57
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

OOM导致训练作业失败 - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

Lite Cluster资源配置 - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

昇腾迁移快速入门案例 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

模型推理代码编写说明 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

单机多卡 - AI开发平台ModelArts

ModelArts环境挂载目录说明 - AI开发平台ModelArts

保存模型时出现Unable to connect to endpoint错误 - AI开发平台ModelArts

日志出现ECC错误，导致训练作业失败 - AI开发平台ModelArts

超过最大递归深度导致训练作业失败 - AI开发平台ModelArts

出现ModelArts.6333错误，如何处理？ - AI开发平台ModelArts

日志提示“AttributeError: 'NoneType' object has no attribute 'dtype'” - AI开发平台ModelArts

开发Workflow命令参考 - AI开发平台ModelArts

在ModelArts训练时如何安装C++的依赖库？ - AI开发平台ModelArts

ModelArts支持使用ECS创建专属资源池吗？ - AI开发平台ModelArts

ModelArts的API或SDK支持模型下载到本地吗？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线