搜索_华为云

显存溢出错误 - AI开发平台ModelArts

存溢出的错误。可添加参数：在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
模型适配 - AI开发平台ModelArts
模型适配 - AI开发平台ModelArts

--configFile=./configs/text_encoder.ini 如果网络模型有多个输入：档位的dim值与网络模型输入参数中的-1标识的参数依次对应，网络模型输入参数中有几个-1，则每档必须设置几个维度。以unet模型为例，该网络模型有三个输入，分别为“sample(1,4,64,64)”

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 应用迁移
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

个/秒（Packets/Second） ≥0 连续2个周期原始值 > 1 紧急告警网络丢包，建议提工单联系运维支持，排查网络问题。上行速率 ma_container_network_transmit_bytes 该指标用于统计测试对象的出方向网络流速。字节/秒（Bytes/Second） ≥0 NA NA

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
权限配置 - AI开发平台ModelArts
权限配置 - AI开发平台ModelArts

容器镜像仓库所有权限。使用SWR服务时需要配置。同时，还需开通SWR组织权限。 VPC虚拟私有云子用户在创建ModelArts的专属资源池过程中，如果需要开启自定义网络配置，需要配置VPC权限。 DEW密钥管理服务当子用户使用ModelArts Notebook的SSH远程功能时，需要配置子用户密钥管理服务的使用权限。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？问题现象原因分析通过查看日志发现本地vscode-scp-done.flag显示成功上传，但远端未接收到。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
环境准备 - AI开发平台ModelArts
环境准备 - AI开发平台ModelArts

Standard：在Notebook中，使用预置镜像进行。 ModelArts Lite DevServer：在裸金属服务器中，自助配置好存储、安装固件、驱动、配置网络等。 ModelArts Standard ModelArts上昇腾规格如下。表1 昇腾规格规格名称描述 Ascend 1*ascend-snt9b|ARM

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
精度调优前准备工作 - AI开发平台ModelArts

整的模型和参数，但在每个进程上或模型并行组中处理不同的数据。因此，数据并行非常适合大数据量的训练任务。 TP：张量并行也叫层内并行，通过将网络中的权重切分到不同的设备，从而降低单个设备的显存消耗，使得超大规模模型训练成为可能。张量并行不会增加设备等待时间，除了通信代价外，没有额外代价。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导 > PyTorch迁移精度调优
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

间），容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911） > 准备工作
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

间），容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置如果已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？可以在本地的ssh config文件中对这个Notebook配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”，如下参考所示： Host roma-local-cpu

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
运行训练作业时提示URL连接超时 - AI开发平台ModelArts

运行训练作业时提示URL连接超时问题现象训练作业在运行时提示URL连接超时，具体报错如下： urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析由于安全性问题在ModelArts上不能联网下载。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 外网访问限制
Standard资源池节点故障定位 - AI开发平台ModelArts

npu dcmi net异常。 NPU网络链接异常。 A050129 NPU 其他 NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定，存在闪断情况。通过“hccn_tool-i

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作
查询服务详情 - AI开发平台ModelArts

在线服务实例所在的虚拟私有云ID，服务自定义网络配置时返回。 subnet_network_id String 在线服务实例所在的子网的网络ID，服务自定义网络配置时返回。 security_group_id String 在线服务实例所在的安全组，服务自定义网络配置时返回。 status String

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
准备环境 - AI开发平台ModelArts
准备环境 - AI开发平台ModelArts

空间），容器引擎选择Containerd。图1 购买Lite专属池 k8s Cluster资源配置若已完成集群资源购买和开通，则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置本步骤需要在节点机器，对kubectl进行集群访问配置。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 准备工作
部署服务 - AI开发平台ModelArts
部署服务 - AI开发平台ModelArts

需填写虚拟私有云控制台子网详情中显示的“网络ID”。通过子网可提供与其他网络隔离的、可以独享的网络资源。 config 是 Array of ServiceConfig objects 模型运行配置，当推理方式为batch/edge时仅支持配置一个模型；当推理方式为real-t

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

自检或修复机制，从而恢复了正常的带宽。系统负载问题：最初测试GPU卡间带宽时，可能存在其他系统负载，如进程、服务等，这些负载会占用一部分网络带宽，从而影响NVLINK带宽的表现。重新安装软件后，这些负载可能被清除，从而使NVLINK带宽恢复正常。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作
给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

从本地PyCharm查询IAM项目列表，完成连接配置。 VPC接入 VPC VPC ReadOnlyAccess 实例能够挂载在用户的VPC下，实现多网络平面接入。按需配置。创建自定义策略时，建议将项目级云服务和全局级云服务拆分为两条策略，便于授权时设置最小授权范围。委托表2 开发环境所需委托

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障

总条数： 541

上一页
1
...
13
14
15
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

显存溢出错误 - AI开发平台ModelArts

模型适配 - AI开发平台ModelArts

使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

权限配置 - AI开发平台ModelArts

连接远端开发环境时，一直处于"Setting up SSH Host xxx: Copying VS Code Server to host with scp"超过10分钟以上，如何解决？ - AI开发平台ModelArts

环境准备 - AI开发平台ModelArts

精度调优前准备工作 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

在ModelArts的Notebook中实例重新启动后要怎么连接？ - AI开发平台ModelArts

运行训练作业时提示URL连接超时 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

准备环境 - AI开发平台ModelArts

部署服务 - AI开发平台ModelArts

GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

给子账号配置开发环境基本使用权限 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线