搜索_华为云

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

系统会自动添加预置框架关联的超参。使用预置框架构建训练镜像 ModelArts平台提供了Tensorflow，PyTorch，MindSpore等常用深度学习任务的基础镜像，镜像里已经安装好运行任务所需软件。当基础镜像里的软件无法满足您的程序运行需求时，您可以基于这些基础镜像制作一个新的镜像并进行训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
自定义镜像使用场景 - AI开发平台ModelArts

安全可信，基于安全加固最佳实践，访问策略、用户权限划分、开发软件漏洞扫描、操作系统安全加固等方式，确保镜像使用的安全性。 ModelArts的自定义镜像使用场景当用户对深度学习引擎、开发库有特殊需求场景的时候，预置镜像已经不能满足用户需求。ModelArts提供自定义镜像功能支持用户自定义运行引擎。 ModelA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard
管理训练容器环境变量 - AI开发平台ModelArts

“MA_NUM_GPUS=8” MA_TASK_NAME 作业容器的角色名，例如： MindSpore、PyTorch为worker 强化学习引擎为learner，worker TensorFlow为ps，worker “MA_TASK_NAME=worker” MA_NUM_HOSTS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

1 128 mixtral-8x7b 4 8 2 32 gemma-2b 1 64 1 128 gemma-7b 1 8 1 32 说明：机器型号规格以卡数*显存大小为单位，如4*64GB代表4张64GB显存的NPU卡。父主题：主流开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
自定义脚本代码示例 - AI开发平台ModelArts

array images = np.array(images,dtype=np.float32) # 对传入的多个样本做batch处理，shape保持和训练时输入一致 images.resize((len(data), 784))

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型规范参考
使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

在“预测”页签，单击“上传”，上传一个测试图片，单击“预测”进行预测。此处提供一个预测样例图供使用。步骤6：清除资源为避免产生不必要的费用，通过此示例学习订阅算法的使用后，建议您清除相关资源，避免造成资源浪费。停止在线服务：在“在线服务”页面，单击对应服务操作列的“停止”。删除训练作业：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
模型调试 - AI开发平台ModelArts
模型调试 - AI开发平台ModelArts

从第三方元模型导入，则为空，默认值为空。 source_type 否 String 模型来源的类型，当前仅可取值auto，用于区分通过自动学习部署过来的模型（不提供模型下载功能）；用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
设置断点续训练 - AI开发平台ModelArts

# 加载断点 checkpoint = torch.load(local_ckpt_file) # 加载模型可学习参数 model.load_state_dict(checkpoint['net']) # 加载优化器参数 optimizer

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
模型训练存储加速 - AI开发平台ModelArts

# 加载断点 checkpoint = torch.load(local_ckpt_file) # 加载模型可学习参数 model.load_state_dict(checkpoint['net']) # 加载优化器参数 optimizer

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

而是适配加速芯片Ascend的一组AI框架+运行环境+启动方式的集合。由于主流的Snt9系列Ascend加速卡都跑在ARM CPU规格的机器上，因此上层docker镜像也都是ARM镜像。相对于GPU场景的镜像中安装了与GPU驱动适配的CUDA（由英伟达推出的统一计算架构）计算库

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
查看诊断报告 - AI开发平台ModelArts

attention算子耗时最长且降频比率最高，因此降频严重影响了整体的训练性能。对于降频问题，用户通常无法自行解决，需要联系服务方如华为云技术支持排查机器的温度和功耗。图11 降频分析 AICPU Issues 下图展示了高优先级的AICPU问题，AICPU算子单步计算耗时313秒，Gri

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

VIDIA驱动程序需要使用这些函数来解析当前正在运行的内核和其他相关信息。安装过程中的提示均选OK或YES，安装好后执行reboot重启机器，再次登录后执行命令查看GPU卡信息。 nvidia-smi -pm 1 #该命令执行时间较长，请耐心等待，作用为启用持久模式，可以优化Linux实例上GPU设备的性能

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

从第三方元模型导入，则为空，默认值为空。 source_type 否 String 模型来源的类型，当前仅可取值auto，用于区分通过自动学习部署过来的模型（不提供模型下载功能）；用户通过训练作业部署的模型不设置此值。默认值为空。 model_type 是 String 模型类型

 帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
订阅算法物体检测YOLOv3 - AI开发平台ModelArts

版本进行数据切分时，训练集比例填写为0导致发布的数据全部为验证集，所以出现上述报错。处理方法重新发布数据，切分比例为0.8 或者0.9重新创建训练作业进行训练。父主题：训练作业运行失败

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

maxSeqLen：输入长度+输出长度的最大值。推荐默认16384。 nodeIps：节点IP列表，使用“,“分隔。双机填2个节点IP地址，4台机器填写4个节点IP地址。 nodePwds：各节点的root用户登录密码，使用“,“分隔，和上述节点要一一对应。如果只设置一个，则默认全部节点使用相同密码。

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
开发第一条Workflow - AI开发平台ModelArts

此处以订阅算法举例，您也可以自己准备算法。从AI Gallery订阅一个图像分类的算法进入AI Gallery>资产集市>算法，搜索自动学习算法-图像分类。单击算法右侧的“订阅”。在弹出的窗口中，勾选“我已阅读并同意《数据安全与隐私风险承担条款》和《华为云AI Gal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
新建Workflow工作流 - AI开发平台ModelArts

SMN开关。 subscription_id 否 String SMN消息订阅ID。 exeml_template_id 否 String 自动学习模板ID。 last_modified_at 否 String 最近一次修改的时间。 package 否 WorkflowServicePackege

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
管理Lite Cluster节点 - AI开发平台ModelArts

点进行修复，待修复完成后，节点状态会变为“可用”。当前支持“换件维修”和“重部署”两种修复方式： - 换件维修：通过更换硬件实现原地修复，修复耗时较长，对于非本地盘类故障，本地盘数据可以保留。 - 重部署：通过更换为新服务器实现修复，修复耗时较短，本地盘数据会丢失。修复期间实

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
自定义模型规范 - AI开发平台ModelArts

true, "default": 0.001, "help": "学习率" }, { "name": "

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型

总条数： 662

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用预置镜像制作自定义镜像用于训练模型 - AI开发平台ModelArts

自定义镜像使用场景 - AI开发平台ModelArts

管理训练容器环境变量 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

自定义脚本代码示例 - AI开发平台ModelArts

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

模型调试 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

模型训练存储加速 - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

订阅算法物体检测YOLOv3 - AI开发平台ModelArts

自动化脚本快速部署推理服务（推荐） - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

新建Workflow工作流 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

自定义模型规范 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线