搜索_华为云

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
修改训练作业优先级 - AI开发平台ModelArts

修改训练作业优先级使用专属资源池训练作业时，支持在创建训练作业时设置任务优先级，也支持作业在长时间处于“等待中”的状态时调整优先级。如通过调整作业优先级可以减少作业的排队时长。什么是训练作业优先级在用户运行训练作业过程中，需要对训练作业做优先级划分。比如有一些任务是低优先级，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

模型适配 MindSpore Lite是华为自研的推理引擎，能够最大化地利用昇腾芯片的性能。在使用MindSpore Lite进行离线推理时，需要先将模型转换为mindir模型，再利用MindSpore Lite作为推理引擎，将转换后的模型直接运行在昇腾设备上。模型转换需要使用converter_lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
资源池监控 - AI开发平台ModelArts

资源池监控功能介绍获取资源池的监控信息。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查看批量服务详情 - AI开发平台ModelArts

查看批量服务详情当模型部署为批量服务成功后，您可以进入“批量服务”页面，来查看服务详情。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>批量服务”，进入“批量服务”管理页面。单击目标服务名称，进入服务详情页面。您可以查看服务的“名称”、“状态”等信息，详情说明请参见表

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
配置仪表盘查看指标数据 - AI开发平台ModelArts

配置仪表盘查看指标数据 Grafana中可以自定义配置各种视图的仪表盘，ModelArts也提供了针对集群的配置模板。本章节通过使用ModelArts提供的模板查看指标和创建Dashboards查看指标的方式，说明如何进行仪表盘配置。Grafana的更多使用请参考Grafana官方文档

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
查询运行中的Notebook可用时长 - AI开发平台ModelArts

查询运行中的Notebook可用时长功能介绍该接口用于查询运行中的Notebook实例的可用时长。接口约束暂无约束调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed 问题现象弹性文件服务（Scalable File Service，SFS）提供按需扩展的高性能文件存储（NAS），可以在裸金属服务器中通过网络协议挂载使用，SFS支持NFS和

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查看训练作业资源占用情况 - AI开发平台ModelArts

查看训练作业资源占用情况约束限制训练作业的资源占用情况系统会自动保存30天，过期会被清除。如何查看训练作业资源使用详情在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
查询服务列表 - AI开发平台ModelArts

查询服务列表功能介绍查询模型服务列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services 表1 路径参数

 帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询服务事件日志 - AI开发平台ModelArts

查询服务事件日志功能介绍查询服务事件日志，包含服务的操作记录及部署过程中的关键动作、部署失败原因。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
获取训练作业事件列表 - AI开发平台ModelArts

获取训练作业事件列表功能介绍获取训练作业事件列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-jobs

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询开发环境实例详情 - AI开发平台ModelArts

查询开发环境实例详情功能介绍该接口用于查询开发环境实例详情。 URI GET /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示表1 参数说明参数是否必选参数类型说明 project_id 是 String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4503。原因分析及处理方法服务预测报错ModelArts.4503有多种场景，常见场景如下：通信出错请求报错：{"error_code

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
资源选择推荐 - AI开发平台ModelArts

资源选择推荐不同AI模型训练所需要的数据量和算力不同，在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。针对第一次使用ModelArts的用户，本文提供端到端案例指导，帮助您快速了解如何在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
更新开发环境实例信息 - AI开发平台ModelArts

更新开发环境实例信息功能介绍该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
创建工作流定时调度 - AI开发平台ModelArts

创建工作流定时调度功能介绍创建Workflow定时调度。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
使用AWQ量化工具转换权重 - AI开发平台ModelArts

使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。量化方法：W4A16

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
创建可视化作业 - AI开发平台ModelArts

创建可视化作业功能介绍创建可视化作业。该接口为异步接口，作业状态请通过查询可视化作业列表与查询可视化作业详情接口获取。 URI POST /v1/{project_id}/visualization-jobs 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业

总条数： 634

上一页
1
...
4
5
6
...
32
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

查询运行中的Notebook可用时长 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

查看训练作业资源占用情况 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

查询服务事件日志 - AI开发平台ModelArts

获取训练作业事件列表 - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

创建工作流定时调度 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

创建可视化作业 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线