搜索_华为云

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

'epoch'” 问题现象使用YOLOv5算法增量训练时出现如下报错：UnboundLocalError: local variable 'epoch' referenced before assignment。原因分析增量训练作业设置的epochs参数有误，该问题是由YOLOv5的增量训练机制引起：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
在线服务预测报错MR.0105 - AI开发平台ModelArts

在线服务预测报错MR.0105 问题现象部署为在线服务，服务处于运行中状态，预测时报错：{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。图1 预测报错原因分析请在“在线服务”详情页面

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
查看服务的事件 - AI开发平台ModelArts

timeout, details: %s 请根据错误信息定位和处理问题。异常启动服务失败，错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。正常删除应用实例 xxx 成功。 Delete service

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 部署AI应用（部署上线）
什么是Workflow - AI开发平台ModelArts

流程质量与效率测评：提供流水线的任务执行过程视图，增加不同的检查点，如数据评估、模型评估、性能评估等，让AI项目管理者能很方便的查看流水线执行过程的质量与效率。流程优化：围绕流水线每一次迭代，用户可以自定义输出相关的核心指标，并获取相应的问题数据与原因等，从而基于这些指标，快速决定下一轮迭代的执行优化。 Workflow介绍

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
查看在线服务的事件 - AI开发平台ModelArts

timeout, details: %s 请根据错误信息定位和处理问题。异常启动服务失败，错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。正常删除应用实例 xxx 成功。 Delete service

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
查看批量服务的事件 - AI开发平台ModelArts

timeout, details: %s 请根据错误信息定位和处理问题。异常启动服务失败，错误信息xxx Service %s started failed, error message: %s 请根据错误信息定位和处理问题。正常删除应用实例 xxx 成功。 Delete service

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
Notebook cache盘告警上报 - AI开发平台ModelArts

Notebook cache盘告警上报创建Notebook时，可以根据业务数据量的大小选择CPU、GPU或者Ascend资源，对GPU或Ascend类型的资源，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。当前开发环境的cache盘使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 问题现象在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4302。原因分析及处理方法服务预测报错ModelArts.4302有多种场景，以下主要介绍两种场景： "error_msg":

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍本小节通过一个具体问题案例，介绍模型精度调优的过程。如下图所示，使用MindSpore Lite生成的图像和onnx模型的输出结果有明显的差异，因此需要对MindSpore Lite pipeline进行精度诊断。图1 结果对比在MindSpore Lite 2.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导 > 模型精度调优
LoRA微调训练 - AI开发平台ModelArts

选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型训练。父主题：主流开源大模型基于Standard+OBS适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
责任共担 - AI开发平台ModelArts
责任共担 - AI开发平台ModelArts

身的安全，涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身，也包括运维运营安全，以及更广义的安全合规遵从。租户：负责云服务内部的安全，安全地使用云。华为云租户的安全责任在于对使用的IaaS

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

appeares to be a GPU,but CUDA is not enabled” 原因分析出现该问题的可能原因如下：新安装的包与镜像中带的CUDA版本不匹配。处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
SFT全参微调训练 - AI开发平台ModelArts

选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型训练。父主题：主流开源大模型基于Standard+OBS适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常问题现象在部署在线服务时，部署失败。进入在线服务详情页面，“事件”页签，提示“failed to pull image, retry later”，同时在“日志”页签中，无任何信息。图1 部署在线服务异常解决方法出现此问题现象，通常是因为您部署的模型过大导致的。解决方法如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

选择资源池规格作业日志选择OBS中的路径，训练作业的日志信息则保存该路径下。最后，提交训练作业，训练完成后，请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能，可查看模型训练。父主题：主流开源大模型基于Standard+OBS适配PyTorch

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
请求超时返回Timeout - AI开发平台ModelArts

请求超时返回Timeout 问题现象服务预测请求超时原因分析请求超时，大概率是APIG（API网关）拦截问题。需排查APIG（API网关）和模型。处理方法优先排查APIG（API网关）是否是通的，可以在本地使用curl命令排查，命令行：curl -kv {预测地址}。如

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志问题现象 ModelArts训练作业使用MoXing拷贝数据较慢。重复打印日志“INFO:root:Listing OBS”。原因分析拷贝数据慢的可能原因如下：直接从OBS上读数据会造成读数据变成训练的瓶颈，导致迭代缓慢。由于环境或网络问题，读OBS时遇到

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程自定义容器在ModelArts上训练和本地训练的区别如下图：图1 本地与ModelArts上训练对比 ModelArts上进行训练比本地训练多了一步OBS和容器环境的数据迁移工作。增加了和OBS交互工作的整个训练流程如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表2。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

准备资源创建专属资源池本文档中的模型运行环境是ModelArts Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：用户可参考表1。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作

总条数： 1439

上一页
1
...
59
60
61
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“UnboundLocalError: local variable 'epoch'” - AI开发平台ModelArts

在线服务预测报错MR.0105 - AI开发平台ModelArts

查看服务的事件 - AI开发平台ModelArts

什么是Workflow - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

Notebook cache盘告警上报 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

责任共担 - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

自定义镜像模型部署为在线服务时出现异常 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

训练作业使用MoXing拷贝数据较慢，重复打印日志 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线