搜索_华为云

在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

在ModelArts中使用Moxing复制数据时如何定义路径变量？问题描述 mox.file.copy_parallel(src_obs_dir=input_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), m

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

OBS文件加密上传导致。ModelArts不支持OBS加密文件。 OBS桶的权限和访问ACL设置不正确导致。创建训练作业时，代码目录和启动文件设置有误。处理办法查看OBS桶与ModelArts是否在同一个区域查看创建的OBS桶所在区域。登录OBS管理控制台。进入“对象存储”界面，可在搜

 帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

Code连接实例时，发现VS Code端的实例目录和云上目录不匹配。原因分析实例连接错误，可能是配置文件写的不规范导致连接到别的实例。解决方案检查用户.ssh配置文件（路径一般在“C:\Users\{User}\.ssh\config”下），检查每组配置文件是否规范：Host

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
显存溢出错误 - AI开发平台ModelArts

可调整参数：MBS指最小batch处理的样本量（micro-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？问题现象用户的自定义镜像运行在Notebook里会查到一些额外的pip包。如下图所示，左侧为自定义镜像运行在本地环境，右侧为运行在Notebook里。可能原因 Notebook自带moxing、m

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

Connection Error，如何恢复？问题现象当kernelgateway进程被结束后，出现如下报错，以及选不到Kernel。图1 报错Server Connection Error截图图2 选不到Kernel 原因分析用户误操作引起的。解决方案打开Terminal窗口

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

threshold %dG”如何解决？问题现象在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。原因分析 Notebook容器当前的大小超过了阈值。解决方案需要减少容器大小。Noteb

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
训练作业卡死检测 - AI开发平台ModelArts

检测每个节点日志是否有报错信息，某个节点报错但作业未退出导致整个训练作业卡死。解决方案1 查看报错原因，解决报错。问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm，多机会慢，因开了sync-batch-norm以后，每一个i

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon，Cannot pause container xxx”如何解决 - AI开发平台ModelArts

processes”或“Buildimge,False,Error response from daemon，Cannot pause container xxx”如何解决？问题现象在Notebook里保存镜像时报错“there are processes in 'D' status, please check

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
镜像方案说明 - AI开发平台ModelArts

镜像方案说明准备大模型训练适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
合作伙伴 - AI开发平台ModelArts
合作伙伴 - AI开发平台ModelArts

合作伙伴注册伙伴发布解决方案父主题： AI Gallery（旧版）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 - AI开发平台ModelArts

【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告华为云ModelArts服务MindStudio，ML Studio，ModelBox镜像将在2024年6月30日00:00（北京时间）正式退市。下线范围下线Region：华为云全部Region

帮助中心 > AI开发平台ModelArts > 服务公告 > 下线公告
训练启动脚本说明和参数配置 - AI开发平台ModelArts

/config下），并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
Standard Workflow - AI开发平台ModelArts

程，使团队能够大规模执行AI任务，并提高模型生成的效率。 ModelArts Workflow提供标准化MLOps解决方案，降低模型训练成本支持数据标注、数据处理、模型开发/训练、模型评估、应用开发、应用评估等步骤自动协调工作流步骤之间的所有依赖项，提供运行记录、监控、持续运行等功能

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍

总条数： 1267

上一页
1
2
3
4
5
...
64
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts中使用Moxing复制数据时如何定义路径变量？ - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

使用VS Code连接实例时，发现VS Code端的实例目录和云上目录不匹配 - AI开发平台ModelArts

Lite Server - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

用户自定义镜像自建的conda环境会查到一些额外的包，影响用户程序，如何解决？ - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

镜像保存时报错“container size %dG is greater than threshold %dG”如何解决？ - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

status using 'ps -aux' and kill all the 'D' status processes”或“Buildimge,False,Error response from daemon，Cannot pause container xxx”如何解决 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

合作伙伴 - AI开发平台ModelArts

【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

Standard Workflow - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线