搜索_华为云

资源池 - AI开发平台ModelArts
资源池 - AI开发平台ModelArts

资源池创建资源池失败 Standard资源池节点故障定位资源池推理服务一直初始化中如何解决专属资源池关联SFS Turbo显示异常

 帮助中心 > AI开发平台ModelArts > 故障排除
标注任务管理 - AI开发平台ModelArts

标注任务管理创建标注任务查询数据集的标注任务列表查询标注任务详情父主题：数据管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理
训练日志失败分析 - AI开发平台ModelArts

训练日志失败分析在ModelArts Standard中训练作业遇到问题时，可首先查看日志，多数场景下的问题可以通过日志报错信息直接定位。 ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
服务部署 - AI开发平台ModelArts
服务部署 - AI开发平台ModelArts

服务部署自定义镜像模型部署为在线服务时出现异常部署的在线服务状态为告警服务启动失败服务部署、启动、升级和修改时，拉取镜像失败如何处理？服务部署、启动、升级和修改时，镜像不断重启如何处理？服务部署、启动、升级和修改时，容器健康检查失败如何处理？服务部署、启动、升级和修改时，资源不足如何处理？

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署
资产识别与管理 - AI开发平台ModelArts

AI模型等。用户的个人信息包括：用户注册时提供的昵称、头像、邮箱。用户参加实践时提供的姓名、手机号、邮箱。用户伙伴注册时提供的企业信息。用户发布资产时提供的联系人姓名、手机号、邮箱。资产管理对于用户发布在AI Gallery中的资产，AI Gallery会做统一的保存管理。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
NPU日志收集上传 - AI开发平台ModelArts

执行脚本收集日志。在节点上执行该脚本，可以看到有如下输出，代表日志收集完成并成功上传至OBS。图3 日志收集完成查看在脚本的同级目录下，可以看到收集到的日志压缩包。图4 查看结果父主题： Lite Server资源管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.906) - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
工作负载Pod异常 - AI开发平台ModelArts

Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

Pod状态为Pending 当Pod状态为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败当

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

01400001时，可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施其他报错请提工单联系ModelArts运维进一步定位解决。集群纳管节点失败？查看资源池失败报错信息：查看资源池失败报错信息，包含错误码，如：CCE.01400001时，可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) - AI开发平台ModelArts

Qwen-VL是规模视觉语言模型，可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。具有强大的性能、多语言对话、多图交错对话、支持中文开放域定位、细粒度识别和理解等特点。本文档主要介绍如何利用训练框架PyTorch_npu + 华为自研Ascend Snt9B硬件，完成Qwen-VL推理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
Lite Cluster高危操作一览表 - AI开发平台ModelArts

当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时，可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因，风险操作包括但不限于以下内容。高危操作风险等级说明：高：对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster使用前必读
查看作业详情 - AI开发平台ModelArts

查看作业详情如何查看训练作业资源占用情况？如何访问训练作业的后台？两个训练作业的模型都保存在容器相同的目录下是否有冲突？训练输出的日志只保留3位有效数字，是否支持更改loss值？训练好的模型是否可以下载或迁移到其他账号？如何获取下载路径？父主题： Standard训练作业

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业
查看ModelArts模型事件 - AI开发平台ModelArts

查看ModelArts模型事件创建模型的（从用户可看见创建模型任务开始）过程中，每一个关键事件点在系统后台均有记录，用户可随时在对应模型的详情页面进行查看。方便用户更清楚的了解创建模型过程，遇到任务异常时，更加准确的排查定位问题。可查看的事件点包括：事件类型事件信息（“XXX”表示占位符，以实际返回信息为准）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
修复Standard专属资源池故障节点 - AI开发平台ModelArts

操作不会收取费用。单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后，节点列表中会显示新的节点名称。替换最长时间为24小时，超时后仍然未找到合适的资源，状态会变为“失败”。可将鼠标悬浮在图标上，查看具体失败原因。每天累计替换的次数不超

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查看训练作业事件 - AI开发平台ModelArts

查看训练作业事件训练作业的（从用户可看见训练任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应训练作业的详情页面进行查看。方便用户更清楚的了解训练作业运行过程，遇到任务异常时，更加准确的排查定位问题。当前支持的作业事件如下所示：训练作业创建成功训练作业创建失败报错：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
Standard推理部署 - AI开发平台ModelArts

Standard推理部署 ModelArts Standard推理服务访问公网方案端到端运维ModelArts Standard推理服务方案使用自定义引擎在ModelArts Standard创建AI应用使用大模型在ModelArts Standard创建AI应用部署在线服务

 帮助中心 > AI开发平台ModelArts > 最佳实践
使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标安装配置Grafana 配置Grafana数据源配置仪表盘查看指标数据父主题： ModelArts Standard资源监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控

总条数： 1576

上一页
1
2
3
4
5
...
79
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

资源池 - AI开发平台ModelArts

标注任务管理 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

服务部署 - AI开发平台ModelArts

资产识别与管理 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.910) - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的Finetune训练指导(6.3.906) - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

资源池创建失败的原因与解决方法？ - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导(6.3.906) - AI开发平台ModelArts

Lite Cluster高危操作一览表 - AI开发平台ModelArts

查看作业详情 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

Standard推理部署 - AI开发平台ModelArts

使用Grafana查看AOM中的监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线