搜索_华为云

不同机型的对应的软件配套版本 - AI开发平台ModelArts

数据直接从一台计算机的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。 IB：InfiniBand (IB) 是一种高性能计算机网络通信协议，专为高性能计算和数据中心互连设计。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
查看Standard专属资源池详情 - AI开发平台ModelArts

当节点的可用、异常、创建中、删除中的数量发生变化时，因资源池节点状态变化，会将此变化信息记录到事件中。图1 查看资源池事件查看资源池节点在资源池详情页，切换到“节点”页签。您可以查看资源池中所有的节点，并且能查看每个节点资源占用的情况。当把鼠标放在节点名称上方时，会显示节点名称和资源ID，资源ID可用于查询账

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

查询专属资源池列表。资源管理接口表13 配置管理 API 说明查询OS的配置参数获取ModelArts OS服务的配置参数，如网络网段，用户资源配额等。表14 插件模板管理 API 说明查询插件模板获取指定插件模板的详细信息。表15 节点管理 API 说明查询节点列表查询资源池中的节点列表。

帮助中心 > AI开发平台ModelArts > API参考
权限管理 - AI开发平台ModelArts
权限管理 - AI开发平台ModelArts

为了支持客户对ModelArts的权限做精细化控制，提供了3个方面的能力来支撑，分别是：权限、委托和工作空间。下面分别讲解。理解ModelArts的权限与委托图1 权限管理抽象 ModelArts每个功能都通过IAM的权限来进行控制。比如，用户（此处指IAM子用户，而非租户）希

 帮助中心 > AI开发平台ModelArts > 产品介绍
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

总览页查看监控信息在总览页查看全部事件时，如果顶部事件总数和底部的“总条数”数量不一致，请刷新重试。在各模块资源监控页签查看ModelArts监控指标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。在线服务

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
管理Lite Cluster资源池 - AI开发平台ModelArts

镜像预热配置，具体操作请参见（可选）配置镜像预热。更多相关操作其它更多操作如下：节点池管理操作请参见管理Lite Cluster节点池节点管理操作请参见管理Lite Cluster节点扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池升级Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
管理在线服务生命周期 - AI开发平台ModelArts

服务类型管理页面。您可以单击“操作”列的“启动”，启动服务。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署”，进入目标服务类型管理页面。单击目标服务名称，进入服务详情页面。您可以单击页面右上角“启动”，启动服务。部署方式为ModelArts边缘节点和ModelArts边缘资源池的服务不支持启动。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
训练预测分析模型 - AI开发平台ModelArts

在新版自动学习页面，单击创建成功的项目名称，查看当前工作流的执行情况。在“预测分析”节点中，待节点状态由“运行中”变为“运行成功”，即完成了模型的自动训练。训练完成后，您可以在预测分析节点中单击查看训练详情，如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。该示例为二分类的离散型数值，评估效果参数说明请参见表1。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
查询算法列表 - AI开发平台ModelArts

continuous：指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时，控制台显示为输入框。 discrete：指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时，控制台显示为下拉选择框架。 lower_bound String 超参下界。 upper_bound

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
资源管理 - AI开发平台ModelArts
资源管理 - AI开发平台ModelArts

资源管理查询OS的配置参数查询插件模板查询节点列表批量删除节点批量重启节点查询事件列表创建网络资源查询网络资源列表查询网络资源删除网络资源更新网络资源查询资源实时利用率创建资源池查询资源池列表查询资源池删除资源池更新资源池资源池监控资源池统计

 帮助中心 > AI开发平台ModelArts > API参考
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理通过patch操作对服务进行更新查询服务监控信息查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签

 帮助中心 > AI开发平台ModelArts > API参考
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
管理团队和团队成员 - AI开发平台ModelArts

队标注作业的名称后带有标识。）单击作业操作列的“更多>标注人员管理”。或单击作业名称进入作业详情，继续单击右上角“团队标注>标注人员管理”，进入成员管理页面。图3 进入标注人员管理页（1）图4 进入标注人员管理页（2）添加成员：单击页面“添加成员”，选择成员名称，单击确定。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过团队标注方式标注数据
管理Workflow StepExecution - AI开发平台ModelArts

JobInput objects 节点的输入项。 outputs Array of JobOutput objects 节点的输出项。 step_uuid String 节点的UUID，唯一性标识。 properties Map<String,Object> 节点的属性。 events Array

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法

总条数： 1680

上一页
1
...
4
5
6
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

不同机型的对应的软件配套版本 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

权限管理 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

管理在线服务生命周期 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

资源管理 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

管理团队和团队成员 - AI开发平台ModelArts

管理Workflow StepExecution - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线