搜索_华为云

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

会稳定一些。测试时需要执行mpirun的节点到hostfile中的节点间有免密登录，设置SSH免密登录方法如下：客户端生成公私钥。执行如下命令，在本地客户端生成公私钥（一路回车默认即可）。 ssh-keygen 上面这个命令会在用户目录.ssh文件夹下创建“id_rsa.p

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍场景介绍本文介绍如何将客户已有的PyTorch训练业务迁移到昇腾设备上运行并获得较好的模型训练效果。华为云ModelArts针对该场景提供了系统化的迁移指导，包括迁移原理、迁移流程以及迁移后的精度调试及性能调优方法介绍。此外，ModelArts提

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

针对调试中遇到的错误，可以直接在容器实例里修改，修改结果可以通过commit命令持久化。上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查看诊断报告 - AI开发平台ModelArts

eRO 3优化内存。其次采集profiling时设置“with_stack=True参数”，然后基于MindInsight Studio可视化profiling数据查看代码中是否存在empty_cache操作，如果存在则注释对应代码。对于aclMalloc算子类问题，按照建议设置环境变量即可减少内存碎片。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
依赖和委托 - AI开发平台ModelArts

pPolicy 用于更新Notebook实例的自动停止时间。 OBS并行文件系统场景下使用MindInsight/TensorBoard可视化工具。 ModelArts modelarts:notebook:umountStorage modelarts:notebook:getMountedStorage

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

产品优势 ModelArts服务具有以下产品优势。稳定安全的算力底座，极快至简的模型训练支持万节点计算集群管理。大规模分布式训练能力，加速大模型研发。提供高性价比国产算力。多年软硬件经验沉淀，AI场景极致优化。加速套件，训练、推理、数据访问多维度加速。一站式端到端生产工具链，一致性开发体验

 帮助中心 > AI开发平台ModelArts > 产品介绍
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

正常运行完成训练，会显示如下内容。图7 训练完成精度一般问题不大，step_loss都是一个较小值。训练过程中，训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。其它注意事项默认500step保存一个checkpoint，可以通过在启动

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

训练过程中，训练日志会在最后的Rank节点打印。日志里存在loss参数，loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。 FAQ 问题：使用TrainingLogParser工具解析训练日志中los

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
准备镜像环境 - AI开发平台ModelArts

安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
准备镜像环境 - AI开发平台ModelArts

安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
准备镜像环境 - AI开发平台ModelArts

安装，说明机器操作系统安装错误。需要重新纳管机器，重新安装操作系统。安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具，使用方式和docker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

针对调试中遇到的错误，可以直接在容器实例里修改，修改结果可以通过commit命令持久化。上传镜像客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

正常训练过程如下图所示。训练完成后，关注loss值，loss曲线收敛，记录总耗时和单步耗时。训练过程中，训练日志会在最后的Rank节点打印。可以使用可视化工具TrainingLogParser查看loss收敛情况。图7 正常训练过程训练完成后权重保存在自动生成的目录，例如：t2v-f17

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
推理精度测试 - AI开发平台ModelArts

结果保存到对应的测试工程。执行多少次，则会在{model_name}下生成多少次结果。benchmark_eval下生成的log中记录了客户端产生结果。数据集的打分结果在result/{model_name}/...目录下，查找到summmary目录，有txt和csv两种保存格式

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
推理精度测试 - AI开发平台ModelArts

结果保存到对应的测试工程。执行多少次，则会在{model_name}下生成多少次结果。benchmark_eval下生成的log中记录了客户端产生结果。数据集的打分结果在result/{model_name}/...目录下，查找到summmary目录，有txt和csv两种保存格式

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 ModelArts推理服务的端到端运维覆盖了算法开发、服务运维和业务运行的整个AI流程。方案概述推理服务的端到端运维流程算法开发阶段，先将业务AI数据存放到对象存储服务（OBS）中，接着通过ModelArts数据管

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
应用场景 - AI开发平台ModelArts
应用场景 - AI开发平台ModelArts

应用场景本节介绍ModelArts服务的主要应用场景。大模型支持三方开源大模型，实现智能回答、聊天机器人、自动摘要、机器翻译、文本分类等任务。 AIGC 提供AIGC场景化解决方案，辅助创作文案、图像、音视频等数字内容。自动驾驶实现车辆自主感知环境、规划路径和控制行驶。

帮助中心 > AI开发平台ModelArts > 产品介绍
推理精度测试 - AI开发平台ModelArts

结果保存到对应的测试工程。执行多少次，则会在{model_name}下生成多少次结果。benchmark_eval下生成的log中记录了客户端产生结果。数据集的打分结果在result/{model_name}/...目录下，查找到summmary目录，有txt和csv两种保存格式

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

总条数： 192

上一页
1
...
6
7
8
9
10
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

Open-Sora-Plan1.0基于Lite Server适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

端到端运维ModelArts Standard推理服务方案 - AI开发平台ModelArts

应用场景 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线