搜索_华为云

查看诊断报告 - AI开发平台ModelArts

analysis中对应三个维度的分析。同理如果计算耗时占比较大，则应该重点关注计算维度的分析。图2 单卡性能拆解总体描述图3 单卡性能拆解详情多卡slow rank & slow link 下图展示了多卡profiling分析的overall模块，包含集群快慢卡统计数值(slow rank，用于分析计算和任务下

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

keys config id_rsa id_rsa.pub”。提交创建训练作业后，训练过程中，训练作业的节点可通过域名+端口的方式SSH连接到其他节点，示例代码如下所示： ssh modelarts-job-a0978141-1712-4f9b-8a83-000000000000-worker-1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
使用MaaS调优模型 - AI开发平台ModelArts

"turn_2": {"Human":"text","MOSS":"text"}}} "conversation_id"：样本编号。 "chat"：多轮对话的内容。 "turn_n"：表示是第n次对话，每次对话都有输入（对应Human角色）和输出（对应MOSS角色）。其中Human和MOS

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

patch DockerFile构建镜像（可选）本章节主要介绍通过DockerFile文件构建训练镜像，将训练过程中依赖包封装使用，过程中需要连接互联网git clone，请确保环境可以访问公网，详解操作如下：进入代码包Dockerfile文件同级目录： cd /home/ma-u

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
分离部署推理服务 - AI开发平台ModelArts

启动scheduler实例：可为CPU实例，用于启动api-server服务，负责接收推理请求，向全量或增量推理实例分发请求，收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。前提条件已准备好DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

启动scheduler实例：可为CPU实例，用于启动api-server服务，负责接收推理请求，向全量或增量推理实例分发请求，收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。前提条件已准备好DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
分离部署推理服务 - AI开发平台ModelArts

启动scheduler实例：可为CPU实例，用于启动api-server服务，负责接收推理请求，向全量或增量推理实例分发请求，收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源，建议增加1个容器，也可以在全量推理或增量推理的容器上启动。前提条件已准备好DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
PD分离部署使用说明 - AI开发平台ModelArts

rank_table local_ranktable_10.**.**.18_host.json # api-server 如果要启动多P多D服务，则需要修改--prefill-server-list和--decode-server-list参数，每个实例之间用空格隔开，例如2p2d-tp2：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 分离部署
查询服务详情 - AI开发平台ModelArts

String 在线同步服务设置elb后端转发策略详情枚举值：ROUND_ROBIN(加权轮询算法)，LEAST_CONNECTIONS(加权最少连接)，SOURCE_IP(源ip算法) 表4 QueryServiceConfig 参数参数类型描述 model_version String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

数据处理过程中对数据进行解压，导致数据大小膨胀，将"/cache"目录空间用完。数据未保存至/cache目录或者/home/ma-user/目录（/cache会软连接成/home/ma-user/），导致数据占满系统目录。系统目录仅支持系统功能基本运行，无法支持大数据存储。部分训练任务会在训练过程中生

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

aarch64架构的主机，操作系统使用ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”，“镜像”选择“公共镜像”，推荐使用Ubuntu18

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct Qwen2_VL（支持多模态数据集） qwen2_vl-2b https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
使用VS Code创建并调试训练作业 - AI开发平台ModelArts

跳过。线下开发：代码在本地，将本地代码传到OBS，然后通过OBS传至云上或直接使用SFS盘存储的代码。线上开发：代码在云上，通过SSH连接容器。图3 选择开发场景图4 选择训练作业代码存储位置鼠标放至作业列表处，单击作业列表旁边的打开创建训练作业页面。图5 创建作业入口

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍对于普通企业来说，大模型开发不仅需要强大的算力，还需要学习训练、部署的相关参数配置和规格选择等专业知识。ModelArts Studio大模型即服务平台（后续简称为MaaS服务）作为一个面向客户的大模型服务化平台，提供简单易用的模型开发工具链，支

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct Qwen2_VL（支持多模态数据集） qwen2_vl-2b https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct Qwen2_VL（支持多模态数据集） qwen2_vl-2b https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910）
Notebook提示磁盘空间已满 - AI开发平台ModelArts

用内存，导致磁盘空间不足。磁盘配额不足。处理方法查看虚拟机所使用的存储空间，再查看回收站文件占用内存，根据实际删除回收站里不需要的大文件。在Notebook实例详情页，查看实例的存储容量。执行如下命令，排查虚拟机所使用的存储空间，一般接近存储容量，请排查回收站占用内存。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct Qwen2_VL（支持多模态数据集） qwen2_vl-2b https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911）
镜像方案说明 - AI开发平台ModelArts

sh文件，来安装依赖以及下载完整代码。 ECS中DockerFIle构建新镜像：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会尝试自动下载三方依赖源码并安装依赖的pip包，并将以上源码打包至镜像环境中；训练作业的资源池以及ECS都需要连通公

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 准备工作 > 准备镜像
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像镜像方案说明 ECS获取和上传基础镜像使用基础镜像 ECS中构建新镜像父主题：准备工作

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作

总条数： 656

上一页
1
...
21
22
23
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看诊断报告 - AI开发平台ModelArts

自定义镜像训练作业配置节点间SSH免密互信 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

PD分离部署使用说明 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MindSpore+Ascend） - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用VS Code创建并调试训练作业 - AI开发平台ModelArts

MaaS大模型即服务平台功能介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线