搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称图1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
迁移过程使用工具概览 - AI开发平台ModelArts

AOE（Ascend Optimization Engine）是一个昇腾设备上模型运行自动调优工具，作用是充分利用有限的硬件资源，以满足算子和整网的性能要求。在推理场景下使用，可以对于模型的图和算子运行内置的知识库进行自动优化，以提升模型的运行效率。自动高性能算子生成工具AKG AKG（Auto

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
使用CES监控Lite Server资源 - AI开发平台ModelArts

NPU卡的RoCE网卡的IP地址连通情况 - instance_id，npu npu_network_port_link_status NPU网口link状态 NPU卡的对应网口link状态 - instance_id，npu npu_roce_tx_rate NPU网卡上行速率 NPU卡内网卡的上行速率

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

env。在Notebook的Terminal中执行如下命令。其中，my-env是虚拟环境名称，用户可自定义。conda详细参数可参考conda官网。 conda create --quiet --yes -n my-env python=3.6.5 创建完成后，执行conda info

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

不同的计费模式的消费情况。此案例中的单价仅为示例，且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。在使用ModelArts进行AI开发时，会将数据保存至OBS、EVS或SFS中，此时会产生单独的存储计费，具体费用以OBS、EVS和SFS的计费标准为准。

帮助中心 > AI开发平台ModelArts > 计费说明
Standard资源池节点故障定位 - AI开发平台ModelArts

其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定，存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
创建Standard专属资源池 - AI开发平台ModelArts

0/12~24、192.168.0.0/16~24，子网掩码可选范围8-28。 IPV6：开启IPv6功能后，将自动为子网分配IPv6网段，暂不支持自定义设置IPv6网段，该功能一旦开启，将不能关闭。（如果创建网络时未勾选开启IPv6，也可在创建网络后在操作列单击“更多>启用IPv6”，如图2）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
配置Lite Server网络 - AI开发平台ModelArts

公网端口：建议选择区间为20000-30000，保证该端口号不冲突。实例类型：单击“服务器”，选择Server服务器。网卡：选择服务器网卡。。私网端口：端口号22。单击“确定”。父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

模型训练中的精度问题。支持精度预检，可扫描训练模型中的所有API进行API复现，给出精度情况的诊断和分析。精度比对，对PyTorch整网API粒度的数据dump、精度比对，进而定位训练场景下的精度问题支持溢出检测功能，判断是否存在输入正常但输出存在溢出的API，从而判断是否为正常溢出。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理
部署推理服务 - AI开发平台ModelArts

"use_beam_search":true, "best_of":2, "length_penalty":2 }' 服务的API与vLLM官网相同，此处介绍关键参数。详细参数解释请参见官网https://docs.vllm.ai/en/stable/dev/sampling_params.html。表1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

参考线下容器镜像构建及调试章节，构建容器镜像并调试，镜像构建及调试与单机单卡相同。上传镜像，参考单机单卡训练的上传镜像章节操作。准备数据登录coco数据集下载官网地址：https://cocodataset.org/#download 下载coco2017数据集的Train（18GB）、Val images（1GB）、Train/Val

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
Lite Server资源开通 - AI开发平台ModelArts

选择该VPC下的一个子网。 IPv6网络若当前网络配置的子网、规格、镜像都支持IPv6，则会显示该参数，打开后可启用IPv6功能。请确保您的子网已开启IPv6功能，若未开启请参考为虚拟私有云创建新的子网。不同规格、镜像对IPv6支持的情况不同，若不支持则不会显示IPv6网络参数，请以控制台实际显示为准。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
调用MaaS部署的模型服务 - AI开发平台ModelArts

status_code) print(resp.text) 模型服务的API与vLLM相同，表1仅介绍关键参数，详细参数解释请参见vLLM官网Sampling Parameters。使用昇腾云909镜像的模型，开启流式输出时，需要新增stream_options参数，值为{"inc

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

本案例适用于华为云-北京四Region。 Notebook自定义镜像规范制作自定义镜像时，Base镜像需满足如下规范：基于昇腾、Dockerhub官网等官方开源的镜像制作，开源镜像需要满足如下操作系统约束： x86：Ubuntu18.04、Ubuntu20.04 ARM：Euler2.8.3、Euler2

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
不同机型的对应的软件配套版本 - AI开发平台ModelArts

的内存传输到另一台计算机。 RoCE：RDMA over Converged Ethernet（RoCE）是一种网络协议，允许应用通过以太网实现远程内存访问。 IB：InfiniBand (IB) 是一种高性能计算机网络通信协议，专为高性能计算和数据中心互连设计。弹性云服务器的对应的软件配套版本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
LoRA微调训练 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。多机执行命令为：sh scripts/llama2/0_pl_lora_70b.sh <MASTER_ADDR=xx.xx.xx.xx>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练任务 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。 # 多机执行命令为：sh scripts/llama2/0_pl_sft_70b.sh <MASTER_ADDR=xx.xx.xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。多机执行命令为：sh scripts/llama2/0_pl_lora_70b.sh <MASTER_ADDR=xx.xx.xx.xx>

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练任务 - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。 # 多机执行命令为：sh scripts/llama2/0_pl_sft_70b.sh <MASTER_ADDR=xx.xx.xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
执行训练任务（历史版本） - AI开发平台ModelArts

为例，修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址（私网IP）。 # 多机执行命令为：sh scripts_modellink/llama2/0_pl_pretrain_70b.sh <MASTER_ADDR=xx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务

总条数： 399

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

迁移过程使用工具概览 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

创建Standard专属资源池 - AI开发平台ModelArts

配置Lite Server网络 - AI开发平台ModelArts

ModelArts昇腾迁移调优工具总览 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

调用MaaS部署的模型服务 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

不同机型的对应的软件配套版本 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练任务 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线