搜索_华为云

查看作业详情 - AI开发平台ModelArts

查看作业详情如何查看训练作业资源占用情况？如何访问训练作业的后台？两个训练作业的模型都保存在容器相同的目录下是否有冲突？训练输出的日志只保留3位有效数字，是否支持更改loss值？训练好的模型是否可以下载或迁移到其他账号？如何获取下载路径？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

to process the new request 原因分析该报错是因为发送预测请求后，服务出现停止后又启动的情况。处理方法需要您检查服务使用的镜像，确定服务停止的原因，修复问题。重新创建模型部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
无法导入模块 - AI开发平台ModelArts

xxx”的报错，可以判断是环境中没有包含用户依赖的python包。处理方法训练作业导入模块时日志出现前两条报错信息，处理方法如下：首先保证被导入的module中有“__init__.py”存在，创建“module_dir”的“__init__.py”，如原因分析中的结构所示。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。确认该cuda版本与您安装的mmcv版本是否匹配。部署时是否需要使用GPU，取决于的模型需要用到CPU还是GPU，以及推理脚本如何编写。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
代码运行故障 - AI开发平台ModelArts

kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？如何处理使用opencv.imshow造成的内核崩溃？使用Windows下生成的文本文件时报错找不到路径？创建Notebook文件后，右上角的Kernel状态为“No Kernel”如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
将模型部署为实时推理作业 - AI开发平台ModelArts

将模型部署为实时推理作业实时推理的部署及使用流程部署模型为在线服务访问在线服务支持的认证方式访问在线服务支持的访问通道访问在线服务支持的传输协议父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
Lite Server资源使用 - AI开发平台ModelArts

Lite Server资源使用 LLM/AIGC/数字人基于Server适配NPU的训练推理指导 GPT-2基于Server适配PyTorch GPU的训练推理指导

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
训练作业进程被kill - AI开发平台ModelArts

在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，通过训练日志排查问题通过日志判断出问题的代码范围。修改代码，在问题代码段添加打印，输出更详细的日志信息。再次运行作业，判断出问题的代码段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
应用示例 - AI开发平台ModelArts
应用示例 - AI开发平台ModelArts

应用示例创建图像分类数据集并进行标注任务创建并完成图像分类的智能标注任务开发环境的应用示例以PyTorch框架创建训练作业（新版训练）创建和修改工作空间管理ModelArts服务的委托授权

 帮助中心 > AI开发平台ModelArts > API参考
开发Workflow命令参考 - AI开发平台ModelArts

开发Workflow命令参考开发Workflow的核心概念介绍配置Workflow参数配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

用系统默认里面自带的。如果必须指定卡ID，需要注意1/2/4规格下，指定的卡ID与实际分配的卡ID不匹配的情况。如果上述方法还出现了错误，可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量，或者用以下代码测试，查看结果是否返回的是True。 import

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
AIGC模型训练推理 - AI开发平台ModelArts

SDXL基于Standard适配PyTorch NPU的Finetune训练指导（6.3.905） SDXL基于DevServer适配PyTorch NPU的Finetune训练指导（6.3.905） SDXL基于DevServer适配PyTorch NPU的LoRA训练指导（6.3.905） SD1

帮助中心 > AI开发平台ModelArts > 最佳实践
代码运行常见错误 - AI开发平台ModelArts

运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？开发环境提示空间不足，如何解决？如何处理使用opencv.imshow造成的内核崩溃？使用Windows下生成的文本文件时报错找不到路径？ JupyterLab中文件保存失败，如何解决？

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
准备模型训练代码 - AI开发平台ModelArts

准备模型训练代码预置框架启动文件的启动流程说明开发用于预置框架训练的代码开发用于自定义镜像训练的代码自定义镜像训练作业配置节点间SSH免密互信父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
在Notebook中上传文件失败，如何解决？ - AI开发平台ModelArts

受限，需要解决内网的问题。其他问题现象的可能原因如下：无OBS访问授权。无OBS桶或文件的访问权限。 OBS桶被删除。解决方案检查委托授权请前往权限管理，查看是否具有OBS访问授权。如果没有，请参考配置访问授权（全局配置）。请确认是否有OBS桶的访问权限进入OBS

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 文件上传下载
导入模型 - AI开发平台ModelArts
导入模型 - AI开发平台ModelArts

导入模型如何将Keras的.h5格式模型导入到ModelArts中导入模型时，模型配置文件中的安装包依赖参数如何编写？使用自定义镜像创建在线服务，如何修改默认端口 ModelArts平台是否支持多模型导入导入AI应用对于镜像大小的限制父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理
硬盘限制故障 - AI开发平台ModelArts

Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制日志提示"write line error" 日志提示“No space left on device” OOM导致训练作业失败常见的磁盘空间不足的问题和解决办法父主题：训练作业

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
创建训练作业 - AI开发平台ModelArts

创建训练作业创建训练作业时提示“对象目录大小/数量超过限制”，如何解决？训练环境中不同规格资源“/cache”目录的大小训练作业的“/cache”目录是否安全？训练作业一直在等待中（排队）？创建训练作业时，超参目录为什么有的是/work有的是/ma-user？在Mod

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
上传算法至SFS - AI开发平台ModelArts

timm==0.4.12 termcolor==1.1.0 yacs==0.1.8 准备run.sh文件中所需要的obs文件路径。准备imagenet数据集的分享链接勾选要分享的imagenet21k_whole数据集文件夹，单击分享按钮，选择分享链接有效期，自定义提取码，例如123456，单击“复制链接”，记录该链接。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 多机多卡
ModelArts CLI命令参考 - AI开发平台ModelArts

令 ma-cli configure鉴权命令 ma-cli image镜像构建支持的命令 ma-cli ma-job训练作业支持的命令 ma-cli dli-job提交DLI Spark作业支持的命令使用ma-cli obs-copy命令复制OBS数据父主题：使用Notebook进行AI开发调试

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试

总条数： 2410

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

查看作业详情 - AI开发平台ModelArts

服务启动后，状态断断续续处于“告警中” - AI开发平台ModelArts

无法导入模块 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

代码运行故障 - AI开发平台ModelArts

将模型部署为实时推理作业 - AI开发平台ModelArts

Lite Server资源使用 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

应用示例 - AI开发平台ModelArts

开发Workflow命令参考 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

AIGC模型训练推理 - AI开发平台ModelArts

代码运行常见错误 - AI开发平台ModelArts

准备模型训练代码 - AI开发平台ModelArts

在Notebook中上传文件失败，如何解决？ - AI开发平台ModelArts

导入模型 - AI开发平台ModelArts

硬盘限制故障 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

上传算法至SFS - AI开发平台ModelArts

ModelArts CLI命令参考 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线