搜索_华为云

升级Standard专属资源池驱动 - AI开发平台ModelArts

如果升级方式为安全升级，则根据滚动实例数量选择无业务的节点，隔离节点并滚动升级。如果升级方式为强制升级，则根据滚动实例数量随机选择节点，隔离节点并滚动升级。无业务节点定义：在资源池详情“节点”页签下，如果GPU/Ascend的可用数等于总数，则为无业务节点。滚动驱动升级时，驱动异常的节点对升级无影响，会和驱动正常的节点一起升级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
Workflow多分支运行介绍 - AI开发平台ModelArts

Workflow多分支运行介绍当前支持两种方式实现多分支的能力，条件节点只支持双分支的选择执行，局限性较大，推荐使用配置节点参数控制分支执行的方式，可以在不添加新节点的情况下完全覆盖ConditionStep的能力，使用上更灵活。构建条件节点控制分支执行主要用于执行流程的条件分支选择，可以简单

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts旧版自动学习下线公告华为云ModelArts在2024年5月15日 00:00（北京时间）用新版自动学习全面替代旧版自动学习，旧版自动学习正式下线。下线范围下线区域：华为云全部Region 下线影响正式下线后，用户将无法再使用旧版自动学

 帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

FaultDiag工具进行日志诊断的过程，包括日志采集、日志清洗、故障诊断三个步骤。日志数据以节点为单位进行采集，在单节点日志目录下分别清洗，将清洗结果汇总后，进行故障诊断。例如，对于运行在8个节点共64卡集群上的任务，需要在8个节点上分别进行日志采集，收集的日志存储在worker-0 ~ worker

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
编排Workflow - AI开发平台ModelArts

Workflow的编排主要在于每个节点的定义，您可以参考创建Workflow节点章节，按照自己的场景需求选择相应的代码示例模板进行修改。编排过程主要分为以下几个步骤。梳理场景，了解预置Step的功能，确定最终的DAG结构。单节点功能，如训练、推理等在ModelArts相应服务中调试通过。根据节点功能选择相应的代码模板，进行内容的补充。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
（可选）Session鉴权 - AI开发平台ModelArts

账号与用户的概念介绍，请参见IAM基本概念。获取您的账号、用户名等信息，请参见获取用户名、用户ID、项目名称、项目ID。如果您的华为云账号已经升级为华为账号，则账号认证方式将不可用，请创建一个IAM用户，使用IAM用户认证。用户AK-SK认证模式本地安装完成ModelArts

帮助中心 > AI开发平台ModelArts > SDK参考 > Session鉴权
公共参数 - AI开发平台ModelArts
公共参数 - AI开发平台ModelArts

公共参数状态码错误码获取项目ID和名称获取帐号名和帐号ID 获取用户名和用户ID

帮助中心 > AI开发平台ModelArts > API参考
使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

在自动学习的运行总览页面，会产生一条工作流。工作流会自动从数据标注节点开始，依次运行数据集版本发布、数据校验、物体检测、模型注册、服务部署等节点，直至工作流全部运行完成。您需要做的是：在数据标注节点，待数据标注节点变为橘色即为“等待操作”状态，双击数据标注节点，打开数据标注节点的运行详情页面。前往实例详情页确认

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard自动学习
【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告华为云计划于2024/10/31 00:00（北京时间）用AI开发平台ModelArts的新版数据集全面替代旧版数据集，旧版数据集正式下线。下线范围下线区域：华北-北京四（其他区域已下线）受影响服务 ModelArts旧版数据集。

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
开发第一条Workflow - AI开发平台ModelArts

开发第一条Workflow 本章节提供了一个基于图像分类算法，构建包含训练单节点的Workflow的样例。更多节点的构建参数请参考创建Workflow节点。步骤一：安装开发环境本案例提供了两种安装开发环境的方法，您可根据使用习惯选择。方法一：使用JupyterLab打开Notebook实例准备环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

准备工作准备一套可以连接外部网络，装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点，以下称“构建节点”。可以通过执行docker pull、apt-get update/upgrade和pip install命令判断是否可正常访

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
模型NPU卡数取值表 - AI开发平台ModelArts

per_device_train_batch_size=1 2*节点 & 8*Ascend 4*节点 & 8*Ascend cutoff_len=8192 lora sft per_device_train_batch_size=1 2*节点 & 8*Ascend 8*节点 & 8*Ascend 7B cutoff_len=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.5.901） > 常见错误原因和解决方法
离线训练安装包准备说明 - AI开发平台ModelArts

离线训练安装包准备说明在华为公有云平台，申请的资源一般要求连通网络。因此用户在准备环境时可以运行 scripts/install.sh 直接下载安装资源，或通过 Dockerfile 下载安装资源并构建一个新的镜像。若用户的机器或资源池无法连通网络，并无法git clone下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

出现该问题的可能原因如下：如果在此之前是有进行数据复制的，每个节点复制的速度不是同一个时间完成的，然后有的节点没有复制完，其他节点进行torch.distributed.init_process_group()导致超时。处理方法如果是多个节点复制不同步，并且没有barrier的话导致的超时，可以在复制数据之前，先进行torch

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

可能原因镜像过大Push任务一直在运行，或实例节点有问题。解决方法以对应租户的华为云账号登录SWR服务，查看镜像是否已经Push成功。如果Push成功，请重新注册镜像。如果未Push成功，联系SRE查看对应实例的节点是否有问题。父主题：自定义镜像故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障

总条数： 1670

上一页
1
2
3
4
5
...
84
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

升级Standard专属资源池驱动 - AI开发平台ModelArts

Workflow多分支运行介绍 - AI开发平台ModelArts

【下线公告】华为云ModelArts旧版自动学习下线公告 - AI开发平台ModelArts

在Lite Cluster资源池上使用Ascend FaultDiag工具完成日志诊断 - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

（可选）Session鉴权 - AI开发平台ModelArts

公共参数 - AI开发平台ModelArts

使用ModelArts Standard自动学习实现口罩检测 - AI开发平台ModelArts

【下线公告】华为云ModelArts服务旧版数据集下线公告 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（Pytorch+Ascend） - AI开发平台ModelArts

模型NPU卡数取值表 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

离线训练安装包准备说明 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

镜像保存时报错“BuildImage,True,Commit successfully|PushImage,False,Task is running.” - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线