搜索_华为云

训练作业失败，返回错误码139 - AI开发平台ModelArts

pip源中的pip包更新了，之前能跑通的代码，在包更新之后产生了不兼容的情况，例如transformers包，导致import的时候出现了错误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
复制数据至容器中空间不足 - AI开发平台ModelArts

请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下并发创建的文件数量是否过大，占用过多存储空间会出现inode耗尽的情况，导致空间不足。请排查是否使用的是GPU资源。如果使用的是CPU规格的资源，“/cache”与代码

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

创建训练作业标签删除训练作业标签查询训练作业标签获取训练作业事件列表创建训练作业镜像保存任务查询训练作业镜像保存任务获取训练作业支持的公共规格获取训练作业支持的AI预置框架

 帮助中心 > AI开发平台ModelArts > API参考
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
获取训练作业支持的公共规格 - AI开发平台ModelArts

FlavorResponse objects 训练作业资源规格列表。表4 FlavorResponse 参数参数类型描述 flavor_id String 资源规格的ID。 flavor_name String 资源规格的名称。 max_num Integer 资源规格的最大节点数。 flavor_type

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询支持的服务部署规格 - AI开发平台ModelArts

String 计费对应规格的唯一标识。 category String 规格类型。 cpu_info CpuInfo object 规格的CPU信息。 memory_info MemoryInfo object 规格的内存信息。 gpu_info GpuInfo object 规格的GPU信息。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询Notebook支持的有效规格列表 - AI开发平台ModelArts

category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别，可选值如下： DEFAULT：CodeLab规格。 NOTEBOOK：Notebook规格。 free Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

available for the selected specification.）图1 资源不足，服务调度失败原因分析实例配置的规格过大，CPU或者内存剩余资源不足；（"insufficient CPU" / "insufficient memory"）模型需要的磁盘空间大，磁盘空间不足；（"x

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查询作业资源规格 - AI开发平台ModelArts

Integer 作业资源规格总数。 specs specs结构数组资源规格参数列表，如表4所示。表4 specs属性列表说明参数参数类型说明 spec_id Long 资源规格的ID。 core String 资源规格的核数。 cpu String 资源规格CPU内存。 gpu_num

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 资源和引擎规格接口
资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

6就是超分比率。即启动该Notebook实例最少需要1.2U的CPU，运行Notebook时最大使用到2U的资源；内存同理，最少需要4.8G的内存，运行时最大使用到8U的内存。超分情况下会存在实例终止的风险。如1个8U的节点上同时启动了6个2U的实例，如果其中一个实例CPU使用增大

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
Lite Server资源开通 - AI开发平台ModelArts

资源类型的CPU架构，支持X86和ARM。请根据所需规格选择CPU架构，若使用GPU选择X86，若使用NPU则选择ARM。具体规格有区域差异，以最终显示为准。说明：如果界面无可选规格，请联系华为云技术支持申请开通。系统盘系统盘和规格有关，选择支持挂载的规格才会显示此参数。可以在创建完成后在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
查看Standard专属资源池详情 - AI开发平台ModelArts

在节点列表页面中，单击设置图标，支持对节点列表中显示的信息进行自定义。查看资源池规格在资源池详情页，切换到“规格”页签。您可以查看该资源池使用的资源规格以及该规格对应的数量，并可以调整容器引擎空间大小。图4 查看资源池规格（如果创建资源池时未设置容器引擎大小，则显示默认值）查看资源池监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

category String 规格处理器类型。 CPU GPU ASCEND description String 规格描述信息。 feature String 规格类别，可选值如下： DEFAULT：CodeLab规格。 NOTEBOOK：Notebook规格。 free Boolean

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

镜像的部署参数。计算规格选择 - 按需选择计算规格。单击“选择”，在弹窗中选择资源规格并设置运行时长控制，单击“确定”。在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据，AI Gal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

15:30:00购买了一个按需计费的专属资源池，规格配置如下：规格：CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数：1个用了一段时间后，用户发现当前规格无法满足业务需要，于2023/03/20 9:00:00扩容规格增加1个节点（扩容后，共有2个节点

 帮助中心 > AI开发平台ModelArts > 计费说明
Standard模型训练 - AI开发平台ModelArts

自如何获取ModelArts训练容器中的文件实际路径？ ModelArts训练中不同规格资源“/cache”目录的大小是多少？ ModelArts训练作业为什么存在/work和/ma-user两种超参目录？如何查看ModelArts训练作业资源占用情况？如何将在ModelArts中训练好的模型下载或迁移到其他账号？

帮助中心 > AI开发平台ModelArts > 常见问题
BF16和FP16说明 - AI开发平台ModelArts

FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
BF16和FP16说明 - AI开发平台ModelArts

FP16：用于深度学习训练和推理过程中，可以加速计算并减少内存的占用，对模型准确性的影响在大多数情况下较小。与BF16相比在处理非常大或非常小的数值时遇到困难，导致数值的精度损失。综上所述，BF16因其与FP32相似的数值范围和稳定性，在大模型训练中提供了优势。而FP16则在计算效率和内存使用方面有其独特的优点，

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
advisor调优总体步骤 - AI开发平台ModelArts

profile方式，而其他采集方式则要求特定版本的torch_npu（2024年0630之后版本）。推荐升级torch_npu后使用dynamic_profile方式进行采集，如果升级成本过高，也可以使用torch_npu.profiler.profile。当不明确性能劣化的可能原

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
使用CES监控Lite Server资源 - AI开发平台ModelArts

HBM单比特错误隔离内存页数量 NPU卡HBM单比特错误隔离内存页数量 count ≥0 instance_id，npu 18 npu_hbm_double_bit_isolated_pages_cnt HBM多比特错误隔离内存页数量 NPU卡HBM多比特错误隔离内存页数量 count

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 822

上一页
1
2
3
4
5
...
42
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业失败，返回错误码139 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

训练管理 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

获取训练作业支持的公共规格 - AI开发平台ModelArts

查询支持的服务部署规格 - AI开发平台ModelArts

查询Notebook支持的有效规格列表 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

查询作业资源规格 - AI开发平台ModelArts

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

查询Notebook支持的可切换规格列表 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

BF16和FP16说明 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线