搜索_华为云

启动Notebook实例 - AI开发平台ModelArts

STOPPED：已停止 SNAPSHOTTING：快照中(保存镜像时的状态) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败 ERROR：错误 DELETED：已删除 FROZEN：冻结 token String Notebook鉴权使用的token信息。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
工作负载Pod异常 - AI开发平台ModelArts

当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当volcano的资源出现争抢时，会出现下图中的问题。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
将模型部署为批量推理服务 - AI开发平台ModelArts

LTS服务提供的日志查询和日志存储功能涉及计费，详细请参见了解LTS的计费规则。请勿打印无用的audio日志文件，这会导致系统日志卡死，无法正常显示日志，可能会出现“Failed to load audio”的报错。完成参数填写后，根据界面提示完成批量服务的部署。部署服务一般

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
查询所有Notebook实例列表 - AI开发平台ModelArts

STOPPED：已停止 SNAPSHOTTING：快照中(保存镜像时的状态) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败 ERROR：错误 DELETED：已删除 FROZEN：冻结 workspaceId 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例列表 - AI开发平台ModelArts

STOPPED：已停止 SNAPSHOTTING：快照中(保存镜像时的状态) CREATE_FAILED：创建失败 START_FAILED：启动失败 DELETE_FAILED：删除失败 ERROR：错误 DELETED：已删除 FROZEN：冻结 workspaceId 否 String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

导致该容器实例崩溃。出现此问题后，系统将自动重启Notebook，来修复实例崩溃的问题。此时只是解决了崩溃问题，如果重新运行训练代码仍将失败。如果您需要解决“内存不够”的问题，建议您创建一个新的Notebook，使用更高规格的资源池，比如专属资源池来运行此训练代码。已经创建

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” 问题现象训练作业失败，日志报出如下错误： RuntimeError: cuda runtime error (10) : invalid device ordinal

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

创建新版Notebook无法使用已购买的专属资源池，如何解决？问题现象已购买专属资源池，但创建Notebook时该资源池不可选择，无法创建Notebook。提示当前专属资源池未初始化开发环境，请到专属资源池页面初始化开发环境。原因分析新购买的专属资源池，需要初始化环境才能用于创建Notebook。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
创建工作空间 - AI开发平台ModelArts

CREATE_FAILED：创建失败。 NORMAL：状态正常。 DELETING：正在删除。 DELETE_FAILED：删除失败。 status_info String 状态描述，默认为空。该字段会补充显示状态的详细信息。如删除失败时，可通过该字段查看删除失败的原因。 grants Array

帮助中心 > AI开发平台ModelArts > API参考 > 工作空间管理
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

data. C error: Expected .* fields” 问题现象使用pandas读取csv数据表时，日志报出如下错误导致训练作业失败： pandas.errors.ParserError: Error tokenizing data. C error: Expected

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left on device”。同一目录下创建较多文件，为了加快文件检索速度，内核会

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
获取智能任务的信息 - AI开发平台ModelArts

result Result object 任务结果。 status Integer 任务状态。可选值如下： -1：排队中 0：初始化 1：运行中 2：失败 3：成功 4：停止中 5：已停止 task_id String 任务ID。 task_name String 任务名称。 export_type

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练作业容错检查 - AI开发平台ModelArts

下图中有四个场景，其中场景四为正常训练作业失败场景，其他三个场景下可开启容错功能进行训练作业自动恢复。场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。图1 预检失败&硬件故障场景二：环境预检测失败、硬件无故障，系统随机再分配节点并重新下发训练作业。图2 预检失败&硬件正常

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？ - AI开发平台ModelArts

ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时，建议使用如下方法： import os os.chdir('/home/work/user-job-dir/xxx')

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
镜像方案说明 - AI开发平台ModelArts

三方开源源码 git clone https://gitee.com/ascend/MindSpeed.git git clone https://github.com/huggingface/transformers.git git clone https://github.com/NVIDIA/Megatron-LM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
Lite Server高危操作一览表 - AI开发平台ModelArts

Server在日常操作与维护过程中涉及的高危操作，需要严格按照操作指导进行，否则可能会影响业务的正常运行。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。中：对于可能导致安全风险及可靠性降低的高危操作。低：高、中风险等级外的其他高危操作。表1 高危操作一览表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读
查看训练作业事件 - AI开发平台ModelArts

[worker-0] [耗时：秒] 检查失败。发现异常： [worker-0] [耗时：秒] 检查失败。发现错误： [worker-0] 训练代码下载中 [worker-0] [耗时：秒] 训练代码下载完成 [worker-0] [耗时：秒] 训练代码下载失败，失败原因： [worker-0]

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
训练输出路径被其他作业使用 - AI开发平台ModelArts

训练输出路径被其他作业使用问题现象在创建训练作业时出现如下报错：操作失败！Other running job contain train_url: /bucket-20181114/code_hxm/ 原因分析根据报错信息判断，在创建训练作业时，同一个“训练输出路径”在被其他作业使用。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障

总条数： 1063

上一页
1
...
11
12
13
...
54
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

启动Notebook实例 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

查询所有Notebook实例列表 - AI开发平台ModelArts

查询Notebook实例列表 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

创建工作空间 - AI开发平台ModelArts

日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

获取智能任务的信息 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？ - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

训练输出路径被其他作业使用 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线