搜索_华为云

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

子类异常中文描述检测方法处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常，昇腾dcmi接口中返回设备存在重要或紧急告警。可能是亚健康，建议先重启节点，若重启节点后未恢复，发起维修流程。 NT_NPU_NET NPU 链路

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障。表1

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路问题现象使用自定义镜像训练作业时，训练失败。定位思路确定镜像来源确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像，推荐用户使用ModelArts的基础镜像构建自定义镜像，具体请参见使用ModelArts的基础镜像构建新的训练镜像。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

在模型详情页面，查看“事件”页签中的事件信息。根据事件信息分析模型失败原因，进行处理。如果模型状态为“构建失败”，可以在模型详情页面，查看“事件”页签中的“查看构建日志”。构建日志中有对应的构建镜像失败的详细原因，根据构建失败的原因进行排查处理。图1 查看构建日志常见问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？通过如下的配置项打开对应的模型转换日志，可以看到更底层的报错。如配置以下的环境变量之后，再重新转换模型，导出对应的日志和dump图进行分析：报错日志中搜到“not support onnx data type”，表示MindSpore暂不支持该算子。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

创建模型成功后，部署服务失败，如何定位是模型代码编写有问题。原因分析用户自定义镜像或者通过基础镜像导入的模型时，用户自己编写了很多自定义的业务逻辑，这些逻辑有问题将会导致服务部署或者预测失败，需要能够排查出哪里有问题。处理方法服务部署失败后，进入服务详情界面，查看服务部署日志，明确服务

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
服务管理权限 - AI开发平台ModelArts

ces modelarts:service:create - √ √ 查询模型服务列表 GET /v1/{project_id}/services modelarts:service:list - √ √ 查询模型服务详情 GET /v1/{project_id}/services/{service_id}

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
公共参数 - AI开发平台ModelArts
公共参数 - AI开发平台ModelArts

公共参数状态码错误码获取项目ID和名称获取帐号名和帐号ID 获取用户名和用户ID

帮助中心 > AI开发平台ModelArts > API参考
查看训练作业日志 - AI开发平台ModelArts

查看训练作业日志训练日志定义训练日志用于记录训练作业运行过程和异常信息，为快速定位作业运行中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
常见问题 - AI开发平台ModelArts
常见问题 - AI开发平台ModelArts

常见问题模型转换报错如何查看日志和定位？日志提示Compile graph failed 日志提示Custom op has no reg_op_name attr 父主题： GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看批量服务的事件 - AI开发平台ModelArts

查看批量服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：表1 事件事件类型事件

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志问题现象用户通过OBS导入模型时，选择使用基础镜像，用户自己编写了部分推理代码实现自己的推理逻辑，出现故障后希望通过故障日志排查定位故障原因，但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。原因分析推理服

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Standard功能介绍 - AI开发平台ModelArts

Standard功能介绍 Standard自动学习 Standard Workflow Standard数据管理 Standard开发环境 Standard模型训练 Standard模型部署 Standard资源管理 Standard支持的AI框架父主题：功能介绍

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
审计与日志 - AI开发平台ModelArts

Trace Service，CTS），是华为云安全解决方案中专业的日志审计服务，提供对各种云资源操作记录的收集、存储和查询功能，可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。用户开通云审计服务并创建和配置追踪任务后，CTS可记录ModelArts的管理事件和数据事件用于审计。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理基于AIGC模型的GPU推理业务迁移至昇腾指导 GPU推理业务迁移至昇腾的通用指导

 帮助中心 > AI开发平台ModelArts > 最佳实践
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
模型管理 - AI开发平台ModelArts
模型管理 - AI开发平台ModelArts

模型管理创建模型失败，如何定位和处理问题？导入模型提示该账号受限或者没有操作权限用户创建模型时构建镜像或导入文件失败创建模型时，OBS文件目录对应镜像里面的目录结构是什么样的？通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志通过OBS

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

（排队）？。单击训练作业名称，进入作业详情界面查看训练作业日志信息，观察日志是否有明显的Error信息，如果有则表示训练失败，请根据日志提示定位原因并解决。在训练详情页左下方单击训练输出路径，如图4所示，跳转到OBS目录，查看是否存在model文件夹，且model文件夹中是否

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理

总条数： 1599

上一页
1
2
3
4
5
...
80
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

创建模型失败，如何定位和处理问题？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

创建模型成功后，部署服务报错，如何排查代码问题 - AI开发平台ModelArts

服务管理权限 - AI开发平台ModelArts

公共参数 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

常见问题 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

通过OBS导入模型时，如何编写打印日志代码才能在ModelArts日志查询界面看到日志 - AI开发平台ModelArts

Standard功能介绍 - AI开发平台ModelArts

审计与日志 - AI开发平台ModelArts

GPU业务迁移至昇腾训练推理 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

模型管理 - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线