搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
更新资源池 - AI开发平台ModelArts

驱动升级策略。可选值如下： force：强制升级，立即升级节点驱动，可能影响节点上正在运行的作业 idle：安全升级，待节点上没有作业运行时进行驱动升级响应参数状态码： 200 表10 响应Body参数参数参数类型描述 apiVersion String API版本。可选值如下：

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
数据保护技术 - AI开发平台ModelArts

上传过程中，有可能会因为网络劫持、数据缓存等原因，存在数据不一致的问题。ModelArts提供通过计算SHA256值的方式对上传下载的数据进行一致性校验。数据隔离机制在ModelArts的开发环境中创建Notebook实例时，数据存储是按照租户隔离，租户之间互相看不到数据。父主题：

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

处理方法参考如下代码，三步走。先卸载numpy中可以卸载的组件。删除你环境中site-packages路径下的numpy文件夹。重新进行安装需要的版本。 import os os.system("pip uninstall -y numpy") os.system('rm -rf

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

te Cluster集群内直接采集监控指标数据，具体参见使用Prometheus查看Lite Cluster监控指标章节。本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标登录控制台，搜索AOM，进入“应用运维管理 AOM”控制台。单击“监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
查询团队标注任务统计信息 - AI开发平台ModelArts

data_spliting_enable Boolean 根据样本标注统计，判断数据集是否可以进行训练/验证集切分。可选值如下： true：数据集可以进行训练/验证集切分 false：数据集无法进行训练/验证集切分 grouped_label_stats Map<String,Array<LabelStats>>

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看训练作业详情 - AI开发平台ModelArts

如果昇腾以及MindSpore框架的训练作业运行失败，您可以在作业状态的提示信息中，单击昇腾论坛进行发帖提问或者搜索问题。非昇腾规格的作业运行失败后，您可以在作业状态的提示信息中，单击ModelArts开发者论坛进行发帖或者搜索已有问题。 “创建时间” 记录训练作业创建时间。 “运行时长” 记录训练作业运行时长。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

> 弹性集群 Cluster”，在“弹性集群”页面，选择“Lite资源池”页签，查看资源池列表。进入资源池详情页，在节点管理页面，选择需要进行驱动升级的节点，单击操作列的“更多 > 驱动升级”。在“驱动升级”弹窗中，会显示当前专属资源池节点的名称ID、规格和驱动版本号，选择节点待升级的“升级版本”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
昇腾性能自动诊断工具使用说明 - AI开发平台ModelArts

果性能profiling数据在OBS上，通常需要将TB或者GB级别的profiling数据下载至本地后才能使用msprof-analyze进行分析，大量数据的下载耗时以及对本地大规格存储盘的要求容易导致分析受阻。基于本章节的分析插件，自动串联高性能挂载OBS至ModelArts环

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

表名称：根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的default队列只用作体验，不同账号间可能会出现抢占的情况，需进行资源排队，不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能，即导入的表的schema的字段名称可以不和数据集相同，但类型要保持一致。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
管理开发环境实例 - AI开发平台ModelArts

操作开发环境实例，支持： start stop restart queue dequeue 其中，queue和dequeue仅支持对免费资源进行操作。响应消息响应参数如表3所示。表3 响应参数参数参数类型说明 current_status String 实例当前状态。 previous_state

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
准备物体检测数据 - AI开发平台ModelArts

数据较多，推荐OBS Browser+上传数据或上传文件夹。上传的数据需满足此类型自动学习项目的数据集要求。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。用于训练的图片，至少有1种以上的分类，每种分类的图片数不少50张。创建数据集数据准

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数即其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

是，则修改安全组的配置，具体操作请参见修改安全组规则。否，则继续下一步。确认SFS Turbo是否存在异常。新建一个和SFS Turbo在同一个网段的ECS，用ECS去挂载SFS Turbo，如果挂载失败，则表示SFS Turbo异常。是，联系SFS服务的技术支持处理。否，联系ModelArts的技术支持处理。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

exec -it ${container_name} bash Step5启动推理本章节介绍SD3模型的推理过程。使用官方提供的已经训练好的模型进行推理，输入prompt生成指定像素的图片。使用如下命令登录huggingface，并输入个人账号的token： huggingface-cli

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

为了保证模型的预测准确度，训练样本跟真实使用场景尽量相似。为保证模型的泛化能力，数据集尽量覆盖可能出现的各种场景。在上传数据时，请选择非加密桶进行上传，否则会由于加密桶无法解密导致后期的训练失败。用于训练的图片，至少有2种以上的分类，每种分类的图片数不少20张。物体检测对数据集的要求

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 准备数据
数据集版本不合格 - AI开发平台ModelArts

物体检测：用于训练的图片，至少有1种以上的分类（即1种以上的标签），每种分类的图片数不少于5张。预测分析：由于预测分析任务的数据集不在数据管理中进行统一管理，即使数据不满足要求，不在此环节出现故障信息。声音分类：用于训练的音频，至少有2种以上的分类（即2种以上的标签），每种分类的音频数不少于5个。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
终止训练作业 - AI开发平台ModelArts

表50 SSHResp 参数参数类型描述 key_pair_names Array of strings SSH密钥对名称，可以在云服务器控制台（ECS）“密钥对”页面创建和查看。 task_urls Array of TaskUrls objects SSH连接地址信息。表51

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
OOM导致训练作业失败 - AI开发平台ModelArts

cuda.empty_cache() 必现的问题，使用本地Pycharm远程连接Notebook调试超参。如果还存在问题，可能需要提工单进行定位，甚至需要隔离节点修复。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示"Permission denied" - AI开发平台ModelArts

E}-${MA_TASK_NAME}-{N}.${MA_VJ_NAME}:6666替换。分析代码中是否存在并发读写同一文件的逻辑，如有则进行修改。如用户使用多卡的作业，那么可能每张卡都会有同样的读写数据的代码，可参考如下代码修改。 import moxing as mox from

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题

总条数： 1519

上一页
1
...
71
72
73
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

更新资源池 - AI开发平台ModelArts

数据保护技术 - AI开发平台ModelArts

日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

查询团队标注任务统计信息 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

升级Lite Cluster资源池单个节点驱动 - AI开发平台ModelArts

昇腾性能自动诊断工具使用说明 - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

管理开发环境实例 - AI开发平台ModelArts

准备物体检测数据 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

SD3 Diffusers框架基于DevServer适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

自动学习的每个项目对数据有哪些要求？ - AI开发平台ModelArts

数据集版本不合格 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线