搜索_华为云

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？问题现象启动服务失败，报错：资源不足，服务调度失败。（Schedule failed due to insufficient resources. Retry later.或ModelArts.3976：No resources

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？问题现象服务部署、启动、升级和修改时，镜像不断重启。原因分析容器镜像代码错误解决方法根据容器日志进行排查，修复代码，重新创建模型，部署服务。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

service实现将VPC子网分配的私有IP写入网卡配置文件中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？问题现象服务部署、启动、升级和修改时，容器健康检查失败。原因分析容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题模型健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决问题现象创建资源池时作业类型选择了推理服务，资源池创建成功后推理一直显示“环境初始化。原因分析专属池网段和推理微服务dispatcher网段冲突，导致专属池上的VPCEP终端节点无法创建，该region无法使用此网段创建包含推理服务的资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

n_url”代替算法中数据来源和数据输出所需的路径。在使用预置框架创建算法时，根据1中的代码参数设置定义的输入输出参数。训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”，表示数据输入来源，也支持用户根据1的算法代码自定义代码参数。模型训练结束后

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
推理精度测试 - AI开发平台ModelArts

max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_eval等生成式回答（生成式回答是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
推理精度测试 - AI开发平台ModelArts

max_out_len：在运行类似mmlu、ceval等判别式回答时，max_out_len建议设置小一些，比如16。在运行human_eval等生成式回答（生成式回答是对整体进行评测，少一个字符就可能会导致判断错误）时，max_out_len设置建议长一些，比如512，至少包含第一个回答的全部字段。 batc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.906）
JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？问题现象 JupyterLab中保存文件时报错如下：原因分析浏览器安装了第三方插件proxy进行了拦截，导致无法进行保存。在Notebook中的运行文件超过指定大小就会提示此报错。 jupyter页面打开时间太长。网络环境原因，是否有连接网络代理。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

otebook。解决方法请到专属资源池页面初始化开发环境。进入“专属资源池”页面，单击目标资源池“操作”列的“更多 > 设置作业类型”。在“设置作业类型”页面，勾选“开发环境”，单击“确定”。此时“开发环境”的状态为“环境初始化中”，等到状态为“已启用”，即可使用新购买的专属资源池。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 其他故障
使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

本文为用户提供如何将本地的自定义算法通过简单的代码适配，实现在ModelArts上进行模型训练与部署的全流程指导。场景描述本案例用于指导用户使用PyTorch1.8实现手写数字图像识别，示例采用的数据集为MNIST官方数据集。通过学习本案例，您可以了解如何在ModelAr

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练
在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

也需要检查是否需要增加新的标签。在图片都标注完成后，单击右上角“开始训练”，在“训练设置”中，在“增量训练版本”中选择之前已完成的训练版本，在此版本基础上进行增量训练。其他参数请根据界面提示填写。设置完成后，单击“确定”，即进行增量训练。系统将自动跳转至“模型训练”页面，待训练完成

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习
模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

dump图进行具体分析。配置方式参考如下：打开DEBUG日志。设置MindSpore日志环境变量。 export GLOG_v=0 # 0-DEBUG、1-INFO、2-WARNING、3-ERROR 设置CANN日志环境变量。 # 0：表示DEBUG。1：表示INFO。2

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
MindSpore Lite问题定位指南 - AI开发平台ModelArts

查看日志信息进行定位分析。多数场景下的问题可以通过日志报错信息直接定位。如果日志的信息不能定位问题，您可以通过设置环境变量调整日志等级，打印更多调试日志。关于如何对MindSpore Lite遇到的问题进行定位与解决，请参见MindSpore Lite官网提供的问题定位指南。

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 常见问题
ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？导入模型时，需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中，推荐采用相对导入方式（Python import）导入自定义包。如果ModelArts推理框架代码内

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？问题现象部署在线服务完成且在线服务处于“运行中”状态时，通过ModelArts console的调用指南tab页签可以获取到推理请求的地址，但是不知道如何填写推理请求的header及body。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

登录AOM控制台。在左侧导航栏选择“告警管理 > 告警规则”，单击“创建”，创建告警规则。设置告警规则（以NPU掉卡为例）。规则类型：选择“指标告警规则”。配置方式：选择“PromQL”。设置告警规则详情。默认规则：选择“自定义”。命令行输入框(排除值为2的为无效数据)：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
注册自定义镜像 - AI开发平台ModelArts

INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array of strings 镜像支持的服务，默认值NOTEBOOK、SSH。枚举值如下:

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

使用DCGM监控Lite Server资源场景描述本文主要介绍如何在Lite Server上配置DCGM监控，用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具，提供多种能力，包括主动健康监控

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源

总条数： 1243

上一页
1
2
3
4
5
...
63
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，镜像不断重启如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

资源池推理服务一直初始化中如何解决 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

推理精度测试 - AI开发平台ModelArts

JupyterLab中文件保存失败，如何解决？ - AI开发平台ModelArts

创建新版Notebook无法使用已购买的专属资源池，如何解决？ - AI开发平台ModelArts

使用ModelArts Standard自定义算法实现手写数字识别 - AI开发平台ModelArts

在ModelArts自动学习中，如何进行增量训练？ - AI开发平台ModelArts

模型转换报错如何查看日志和定位？ - AI开发平台ModelArts

MindSpore Lite问题定位指南 - AI开发平台ModelArts

ModelArts部署在线服务时，如何避免自定义预测脚本python依赖包出现冲突？ - AI开发平台ModelArts

ModelArts在线服务处于运行中时，如何填写request header和request body？ - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

注册自定义镜像 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线