搜索_华为云

Lite Server资源配置流程 - AI开发平台ModelArts

Server资源配置流程配置顺序配置任务场景说明 1 配置Lite Server网络 Server资源开通后，需要进行网络配置，才可使其与Internet通信。在后续配置存储和软件环境时需要Server服务器能够访问网络，因此需要先完成网络配置。 2 配置Lite Server存储 Server

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
更新网络资源 - AI开发平台ModelArts

0/12~24 192.168.0.0/16~24。 connection NetworkConnection object 当前网络与其他云服务的连通信息。表14 NetworkConnection 参数参数类型描述 peerConnectionList Array of peerConnectionList

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
使用CES监控Lite Server资源 - AI开发平台ModelArts

all]: %s。请正确配置RoCE网卡路由 NPU网络通信异常 NPU：Roce 端口未散列配置 RoCEUdpConfigError 重要 RoCE UDP端口未散列配置请检查NPU RoCE UDP端口配置情况影响NPU卡通信性能系统内核自动升级预警 KernelUpgradeWarning

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？创建Notebook时，可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

在使用Notebook进行代码调试时，如果要开启“SSH远程开发”功能，需要选择密钥对，便于用户登录弹性云服务器时使用密钥对方式进行身份认证，提升通信安全。密钥对可免费创建。如何创建密钥对？配置权限配置IAM权限。使用华为云主账号创建一个开发者用户组user_group，将开发者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 准备工作
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
启动推理服务 - AI开发平台ModelArts

172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 在每个节点容器内，启动Ray集群。 # 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
非分离部署推理服务 - AI开发平台ModelArts

172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.909） > 部署推理服务
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

加了。理论上Tree算法是比Ring算法更优的，但是Tree算法对网络的要求比Ring高，计算可能不太稳定。 Tree算法可以用更少的数据通信量完成all reduce计算，但用来测试性能不太合适。因此，会出现两节点实际带宽100，但测试出速度110，甚至130GB/s的情况。加

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
资源选择推荐 - AI开发平台ModelArts

资源选择推荐不同AI模型训练所需要的数据量和算力不同，在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。针对第一次使用ModelArts的用户，本文提供端到端案例指导，帮助您快

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
非分离部署推理服务 - AI开发平台ModelArts

172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908） > 部署推理服务
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍不同AI模型训练所需要的数据量和算力不同，在训练时选择合适的存储及训练方案可提升模型训练效率与资源性价比。ModelArts Standard支持单机单卡、单机多卡和多机多卡的训练场景，满足不同AI模型训练的要求。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
查询节点池列表 - AI开发平台ModelArts

查询节点池列表功能介绍查询节点池列表。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/nodepools

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
非分离部署推理服务 - AI开发平台ModelArts

172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
非分离部署推理服务 - AI开发平台ModelArts

172是上一步输出的ipaddr的值 hccn_tool -i 0 -ping -g address 29.81.3.172 启动Ray集群。 # 指定通信网卡，使用ifconfig查看，找到和主机IP一致的网卡名 export GLOO_SOCKET_IFNAME=enp67s0f5 export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

准备镜像准备大模型推理适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
Lite Cluster资源开通 - AI开发平台ModelArts

部分区域的部分规格支持整柜购买，此时实例数会显示为“数量*整柜”，购买的实例总数为两者的乘积。整柜购买可实现不同任务间的物理隔离，避免通信冲突，在任务规模增大的同时保证计算性能线性度不下降。整柜下的实例生命周期需保持一致，需要一起创建、一起删除。节点高级配置开启“节点高级配置”后，可设置以下参数：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

-alive.html），后台的实例运行是一直稳定的，重连即可再次连上。解决方法如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。客户端配置（用户可根据需要自行配置，不配置默认是不给服务端发心跳包），如图1，图2所示。图1 打开VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
msprobe精度分析工具使用指导 - AI开发平台ModelArts

seed_all() 示例2：固定随机数，开启确定性计算。 seed_all(mode=True) 在多卡训练场景下由于通信算子计算累加计算顺序不确定，需要添加以下环境变量，固定通信算子计算的确定性： export HCCL_DETERMINISTIC=TRUE 固定随机数范围 seed_all函数可固定随机数的范围如下表所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优

总条数： 264

上一页
1
...
4
5
6
...
14
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Server资源配置流程 - AI开发平台ModelArts

更新网络资源 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

在ModelArts的Notebook中不同规格资源/cache目录的大小是多少？ - AI开发平台ModelArts

在ModelArts Standard运行GPU训练作业的准备工作 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

资源选择推荐 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

查询节点池列表 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

非分离部署推理服务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

Lite Cluster资源开通 - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

msprobe精度分析工具使用指导 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线