搜索_华为云

保存ckpt时超时报错 - AI开发平台ModelArts

报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2. 忽略该报错，因为报错不影响实际报错的权重。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法
保存ckpt时超时报错 - AI开发平台ModelArts

报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40G以下）的文件内容，只要在36分钟内保存完成，就不会报超时错误。 2. 忽略该报错，因为报错不影响实际报错的权重。父主题：常见错误原因和解决方法

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

下，尝试选用更小的容器规格或自定义规格，进行服务部署；如果当前资源池的资源确实不够，也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
Lite Cluster资源管理介绍 - AI开发平台ModelArts

您可以在详情页进行下述操作。管理Lite Cluster资源池：ModelArts支持对资源池进行管理，包括续费、开通/修改自动续费、扩容、升级驱动等操作。管理Lite Cluster节点池：为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

在线服务部署完成且服务已经处于“运行中”的状态后，向运行的服务发起推理请求，报错ModelArts.4503。原因分析及处理方法服务预测报错ModelArts.4503有多种场景，常见场景如下：通信出错请求报错：{"error_code":"ModelArts.4503","error_msg":"Failed

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
扩缩容Standard专属资源池 - AI开发平台ModelArts

行扩缩容操作。对于包周期资源池，此按钮为“扩容”，如果需要缩容，请进入到包周期资源池详情页对节点进行退订操作。在“专属资源池扩缩容”页面，可通过增减“目标总实例数”实现扩缩容，请用户根据本身业务诉求进行调整。增加目标实例数量即表示扩容，减少目标实例数量即表示缩容。如果购买资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
配置Lite Server存储 - AI开发平台ModelArts

若使用SFS服务作为存储方案，推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储，还具备高可靠和高可用的特点，支持根据业务需要弹性扩容，且性能随容量增加而提升，可广泛应用于多种业务场景。在SFS服务控制台上创建文件系统，具体步骤请参考创建SFS Turbo文件系统。同一

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
服务启动失败 - AI开发平台ModelArts

服务启动失败的原因比较多样，可能有如下几种情况： AI应用本身问题，无法启动镜像中配置的端口错误健康检查配置有问题模型推理代码customize_service.py编写有问题镜像拉取失败资源不足，服务调度失败模型本身问题，无法启动如果创建模型使用的镜像本身有问题，需要在创建模型之

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

connection to xxx 问题现象原因分析执行VS Code Remote SSH连接失败。解决方法单击弹窗右上角关闭弹窗，查看OUTPUT中的具体报错信息，并参考后续章节列举的几种常见报错解决问题。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
查询训练作业参数详情 - AI开发平台ModelArts

String 用户项目ID。获取方法请参见获取项目ID和名称。 config_name 是 String 训练作业参数的名称。表2 Query参数参数是否必选参数类型说明 config_type 否 String 指定要查询的配置类型，可选值有以下两种 “custom”为查询用户自定义配置。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

connection to xxx 问题现象原因分析执行VS Code Remote SSH连接失败。解决方法单击弹窗右上角关闭弹窗，查看OUTPUT中的具体报错信息，并参考后续章节列举的几种常见报错解决问题。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

096B。创建文件越快，越容易触发（机制大概是：有一个缓存，这块大小和上面的1和2有关，目录下文件数量比较大时会启动，使用方式是边用边释放）。程序运行过程中，产生了core文件，core文件占满了"/"根目录空间。处理方法排查数据集大小、数据集解压后的大小，checkpo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
Method Not Allowed - AI开发平台ModelArts

服务预测报错：Method Not Allowed 原因分析服务预测默认注册的API需要使用POST方法调用。如您使用了GET方法，APIG（API网关）将会拦截请求。处理方法使用POST方法调用。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

在导入AI应用时，提示用户账号受限。原因分析提示用户账号受限，常见原因有如下几种：导入模型账号欠费导致被冻结；导入模型账号没有对应工作空间的权限；导入模型账号为子账号，主账号没有给子账号赋予模型相关权限。权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
查看Notebook实例事件 - AI开发平台ModelArts

UpdateImage 更新实例镜像重要 UpdateStorageSize 实例存储正在扩容（User %s is updating storage size from %sGB to %sGB）重要实例扩容完成（User %s updated storage size successfully）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

算法相结合，进一步提高深度学习模型的性能。 SFT监督式微调(Self-training Fine-tuning)：是一种利用有标签数据进行模型训练的方法。它基于一个预先训练好的模型，通过调整模型的参数，使其能够更好地拟合特定任务的数据分布。与从头开始训练模型相比，监督式微调

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908）
Lite功能介绍 - AI开发平台ModelArts

同一昇腾算力资源池中，支持资源池中订购不同计费类型/计费周期的资源，解决如下用户的使用场景：用户在包长周期的资源池中无法扩容短周期的节点。用户无法在包周期的资源池中扩容按需的节点（包括AutoScaler场景）。支持SFS产品权限划分支持SFS权限划分特性，可以实现训练场景中，挂载的SFS的文件夹能够权限控制

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
Lite Server高危操作一览表 - AI开发平台ModelArts

下单时订单中的EVS ID已经不一致，因此EVS系统盘将不支持扩容，并显示信息：“当前订单已到期，无法进行扩容操作，请续订”。中切换或者重置操作系统后，建议通过挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。父主题： Lite Server使用前必读

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server使用前必读

总条数： 926

上一页
1
...
4
5
6
...
47
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

在线服务预测报错ModelArts.4503 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

配置Lite Server存储 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

远程连接出现弹窗报错：Could not establish connection to xxx - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

Method Not Allowed - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

查看Notebook实例事件 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

Lite功能介绍 - AI开发平台ModelArts

Lite Server高危操作一览表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线