搜索_华为云

Standard资源池功能介绍 - AI开发平台ModelArts

专属资源池和公共资源池的能力主要差异如下：专属资源池为用户提供独立的计算集群、网络，不同用户间的专属资源池物理隔离，公共资源池仅提供逻辑隔离，专属资源池的隔离性、安全性要高于公共资源池。专属资源池用户资源独享，在资源充足的情况下，作业是不会排队的；而公共资源池使用共享资源，在任何时候都有可能排队。专

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Standard资源池节点故障定位 - AI开发平台ModelArts

NPU其他错误。检测到的其他NPU错误，通常为不可自纠正的异常，请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定，存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

购买ECS Step2 创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907） > 准备工作
订阅免费算法 - AI开发平台ModelArts

”即可成功订阅。如果订阅是没有使用约束的算法，则直接成功订阅。如果订阅的是非华为云官方资产，则会弹出“温馨提示”页面，勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后，单击“继续订阅”才能继续进行算法订阅。算法被订阅后，详情页的“订阅”按钮

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
Notebook提示磁盘空间已满 - AI开发平台ModelArts

文件删除后不可恢复） rm {文件路径} 如果删除的文件夹或者文件中带有空格，需要给文件夹或文件加上单引号。如图示例：执行如下命令，再次检查虚拟机所使用的存储空间。 cd /home/ma-user/work du -h --max-depth 0 如果Notebook实例的存

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
训练过程中无法找到so文件 - AI开发平台ModelArts

13中编译生成的so包，在cuda版本为9.0训练环境中tf-1.12训练会报该错。编译环境和训练环境的cuda版本不一致时，可参考如下处理方法：在业务执行前加如下命令，检查是否能找到so文件。如果已经找到so文件，执行2；如果没有找到，执行3。 import os; os.system(find /usr -name

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
断点续训和故障快恢说明 - AI开发平台ModelArts

ed_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
断点续训和故障快恢说明 - AI开发平台ModelArts

ed_checkpoints中最大迭代次数（iter_000xxxx）Megatron格式权重文件。 lora微调不支持断点续训启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字（表示训练后保存权重对应

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
（可选）配置镜像预热 - AI开发平台ModelArts

令，可单击图中的“如何获取长期有效指令”链接获取指导。单击“确定 ”后，在预热信息框中可以看到已成功预热的镜像信息。若镜像预热失败，请检查镜像地址以及密钥是否正确。父主题： Lite Cluster资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

”命令查看，参考Atlas 800 训练服务器 1.0.11 HCCN Tool接口参考中的指导。 NPU上的网卡在哪里可以看到，会健康检查吗？ 8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
上传OBS文件到JupyterLab - AI开发平台ModelArts

与ModelArts是否在同一区域。没有该OBS桶的访问权限。请确认操作Notebook的账号有权限读取OBS桶中的数据。具体操作请参见检查您的账号是否有该OBS桶的访问权限。 OBS文件被删除。请确认待上传的OBS文件是否存在。异常场景2 图6 文件上传失败可能原因：文

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发 > 上传文件至JupyterLab
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查【配置环境变量】章节中，高精度模式的环境变量是否开启父主题：主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
查询服务详情 - AI开发平台ModelArts

subnet_network_id String 服务实例所在的子网的网络ID，服务自定义网络配置时返回。 security_group_id String 服务实例所在的安全组，服务自定义网络配置时返回。 status String 服务状态，取值为：running/deploying/concerning/f

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

the service is https"} 部署在线服务使用的模型是从容器镜像中导入时，容器调用接口协议填写错误，会导致此错误信息。出于安全考虑，ModelArts提供的推理请求都是https请求，从容器镜像中选择导入模型时，ModelArts允许使用的镜像提供https或ht

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测

总条数： 541

上一页
1
...
18
19
20
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Standard资源池功能介绍 - AI开发平台ModelArts

Open-Clip基于Lite Server适配PyTorch NPU训练指导 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

订阅免费算法 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

断点续训和故障快恢说明 - AI开发平台ModelArts

Llama 3.2-Vision基于Lite Server适配Pytorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

SD3.5基于Lite Server适配PyTorch NPU的推理指导（6.3.912） - AI开发平台ModelArts

Qwen-VL基于Lite Server适配PyTorch NPU的Finetune训练指导(6.3.912) - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

哪里可以了解Atlas800训练服务器硬件相关内容 - AI开发平台ModelArts

上传OBS文件到JupyterLab - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线