搜索_华为云

FAQ - AI开发平台ModelArts
FAQ - AI开发平台ModelArts

FAQ CUDA和CUDNN run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装如何保证训练和调试时文件路径保持一致父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
典型场景配置实践 - AI开发平台ModelArts

典型场景配置实践个人用户快速配置ModelArts访问权限配置ModelArts基本使用权限给子账号配置开发环境基本使用权限给子账号配置训练作业基本使用权限给子账号配置部署上线基本使用权限给子账号配置查看所有Notebook实例的权限管理员和开发者权限分离不允许子账号使用公共资源池创建作业

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？问题现象解决方法检查VS Code版本是否为1.78.2或更高版本，如果是，请查看Remote-SSH版本，如果低于v0.76.1，请升级Remote-SSH。打开命令面板（Windows

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
MoXing - AI开发平台ModelArts
MoXing - AI开发平台ModelArts

MoXing 使用MoXing复制数据报错如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow，如何对生成的checkpoint进行本地Fine Tune？训练作业使用MoXing复制数据较慢，重复打印日志

 帮助中心 > AI开发平台ModelArts > 故障排除
OBS操作相关故障 - AI开发平台ModelArts

OBS操作相关故障读取文件报错，如何正确读取文件 TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止保存模型时出现Unable to connect to endpoint错误 OBS复制过程中提示

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
硬盘限制故障 - AI开发平台ModelArts

硬盘限制故障下载或读取文件报错，提示超时、无剩余空间复制数据至容器中空间不足 Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制日志提示"write line error" 日志提示“No space left on device

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
业务代码问题 - AI开发平台ModelArts

业务代码问题日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 日志提示“max_pool2d_with_indices_out_cuda_frame failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
外网访问限制 - AI开发平台ModelArts

外网访问限制日志提示“ Network is unreachable” 运行训练作业时提示URL连接超时父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
预置算法运行故障 - AI开发平台ModelArts

预置算法运行故障日志提示“label_map.pbtxt cannot be found” 日志提示“root: XXX valid number is 0” 日志提示“ValueError: label_map not match” 日志提示“Please set the train_url

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
环境配置故障 - AI开发平台ModelArts

环境配置故障 Notebook提示磁盘空间已满 Notebook中使用Conda安装Keras 2.3.1报错 Notebook中安装依赖包报错ERROR: HTTP error 404 while getting xxx Notebook中已安装对应库，仍报错import numba

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

服务部署自定义镜像模型部署为在线服务时出现异常部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
服务预测 - AI开发平台ModelArts
服务预测 - AI开发平台ModelArts

Timeout 自定义镜像导入模型部署上线调用API报错在线服务预测报错DL.0105 时序预测-time_series_v2算法部署在线服务预测报错父主题：推理部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
Lite Cluster - AI开发平台ModelArts
Lite Cluster - AI开发平台ModelArts

Lite Cluster 资源池创建失败的原因与解决方法？ Cluster资源池节点故障如何定位特权池信息数据显示均为0%如何解决？重置节点后无法正常使用？

帮助中心 > AI开发平台ModelArts > 故障排除
Ascend相关问题 - AI开发平台ModelArts

Ascend相关问题 Cann软件与Ascend驱动版本不匹配训练作业的日志出现detect failed（昇腾预检失败）父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置表1 不同模型推荐的参数与NPU卡数设置模型 Template 模型参数量训练策略类型序列长度cutoff_len 梯度累积值优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gradient_accumulation_steps

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本存放目录说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
文生视频模型训练推理 - AI开发平台ModelArts

文生视频模型训练推理 CogVideoX1.5 5b模型基于Lite Server适配PyTorch NPU全量训练指导（6.3.912） CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） Open-Sora1.2基于DevServer

帮助中心 > AI开发平台ModelArts > 最佳实践
监控Lite Server资源 - AI开发平台ModelArts

监控Lite Server资源使用CES监控Lite Server资源使用DCGM监控Lite Server资源父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

问题定位和处理创建模型失败有两种场景：创建模型时直接报错或者是调用API报错和创建模型任务下发成功，但最终模型创建失败。创建模型时直接报错或者是调用API报错。一般都是输入参数不合法导致的。您可以根据提示信息进行排查修改即可。创建模型任务下发成功，但最终模型创建失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
分离部署推理服务 - AI开发平台ModelArts

通过OpenAI服务API接口启动服务使用以下推理测试命令。${docker_ip}替换为实际宿主机的IP地址。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.911） > 部署推理服务

总条数： 1146

上一页
1
...
51
52
53
...
58
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

FAQ - AI开发平台ModelArts

典型场景配置实践 - AI开发平台ModelArts

报错“The VS Code Server failed to start”如何解决？ - AI开发平台ModelArts

MoXing - AI开发平台ModelArts

OBS操作相关故障 - AI开发平台ModelArts

硬盘限制故障 - AI开发平台ModelArts

业务代码问题 - AI开发平台ModelArts

外网访问限制 - AI开发平台ModelArts

预置算法运行故障 - AI开发平台ModelArts

环境配置故障 - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

服务预测 - AI开发平台ModelArts

Lite Cluster - AI开发平台ModelArts

Ascend相关问题 - AI开发平台ModelArts

不同模型推荐的参数与NPU卡数设置 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

文生视频模型训练推理 - AI开发平台ModelArts

监控Lite Server资源 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线