搜索_华为云

训练作业容错检查 - AI开发平台ModelArts

隔离故障硬件并重新下发训练作业。针对于分布式场景，容错检查会检查本次训练作业的全部计算节点。下图中有四个场景，其中场景四为正常训练作业失败场景，其他三个场景下可开启容错功能进行训练作业自动恢复。场景一：环境预检测失败、硬件检测出现故障，系统隔离所有故障节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
执行训练任务（推荐） - AI开发平台ModelArts

ellink 【必修改】ModelLink脚本相对或绝对路径，用于方便加载脚本 ckpt_load_type 1 【可选】默认为1 0，不加载权重 1，加载权重不加载优化器状态【增量训练】 2，加载权重且加载优化器状态【断点续训】详见断点续训和故障快恢说明 user_converted_ckpt_path

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练任务
创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

例如：算法支持的是GPU规格，创建训练作业时选择了ASCEND规格的资源类型。处理方法查看算法代码中设置的训练资源规格。检查创建训练作业时所选的资源规格是否正确，重新创建训练作业选择正确的资源规格。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

9(基于CentOS制作的Linux发行版)，经常遇到服务器重启后，操作系统内核无故升级，导致系统上原安装的nvidia-driver等软件无法使用，只能卸载重新安装。原因分析分析EulerOS内核是如何在不知情的情况下升级的：首先查看当前操作系统内核。 [root@Server-ddff ~]#

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
投机推理使用说明 - AI开发平台ModelArts

传统LLM推理主要依赖于自回归式（auto-regressive）的解码（decoding）方式，每步解码只能够产生一个输出token，并且需要将历史输出内容拼接后重新作为LLM的输入，才能进行下一步的解码。为了解决上述问题，提出了一种投机式推理方式，其核心思想是通过计算代价远低于LLM的小模型替代LLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用 > 投机推理
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

镜像健康检查配置问题，需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。模型健康检查配置问题，需重新创建模型或者创建模型新版本，配置正确的健康检查，使用新的模型或版本重新部署服务。了解模型健康检查请参考制作模型镜像并导入中的“健康检查”参数说明。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
查看ModelArts模型详情 - AI开发平台ModelArts

如果元模型来源于训练作业且为旧版训练作业，则显示推理代码的存放路径。镜像复制如果元模型来源于容器镜像，显示镜像复制功能状态。动态加载如果元模型来源于训练作业/对象存储服务，显示模型是否支持动态加载。大小模型的大小。健康检查如果元模型来源于对象存储服务/容器镜像，显示健康检查状态。当健康检查为开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
模型发布失败 - AI开发平台ModelArts

模型发布失败模型发布任务提交失败和模型发布失败问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新创建训练作业。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取模型ID。进入“模型管理”页面，在模型管理页面找到自动学习任务中自动创建的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 模型发布
部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
部署的在线服务状态为告警 - AI开发平台ModelArts

问题现象在部署在线服务时，状态显示为“告警”。解决方法使用状态为告警的服务进行预测，可能存在预测失败的风险，请从以下4个角度进行排查，并重新部署。后台预测请求过多。如果您使用API接口进行预测，请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。业务内存不正常。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

在“选择训练作业”右侧下拉框中选择当前账号下已完成运行的训练作业。 “动态加载”：用于实现快速部署和快速更新模型。如果勾选动态加载，则模型文件和运行时依赖仅在实际部署时拉取。当单个模型文件大小超过5GB时，必须配置“动态加载”。 “AI引擎” 元模型使用的推理引擎，选择训练作业后会自动匹配。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

进而产生按需费用，同时账户中的余额不足以抵扣产生的按需费用。请参考如何查看ModelArts中正在收费的作业？识别产生按需计费的原因，并重新选择正确的资源包或保证账户中的余额充足。未购买资源包，在按需计费模式下账户的余额不足。欠费影响包年/包月对于包年/包月专属资源池，

帮助中心 > AI开发平台ModelArts > 计费说明
数据标注场景介绍 - AI开发平台ModelArts

单人标注作业或团队标注作业对数据进行手工标注，或对任务启动智能标注添加标签，快速完成对图片的标注操作，也可以对已标注图片修改或删除标签进行重新标注。 ModelArts为用户提供了标注数据的能力：人工标注：用户创建单人标注作业，对数据进行手工标注。智能标注：在标注一定量的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
创建ModelArts人工标注作业 - AI开发平台ModelArts

单人标注作业或团队标注作业对数据进行手工标注，或对任务启动智能标注添加标签，快速完成对图片的标注操作，也可以对已标注图片修改或删除标签进行重新标注。数据标注功能仅在以下Region支持：华北-北京四、华北-北京一、华东-上海一、华南-广州、西南-贵阳一、中国-香港、亚太-新加坡

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
人工标注视频数据 - AI开发平台ModelArts

练之前需对没有标签的视频添加标签。通过ModelArts您可对视频添加标签，快速完成对视频的标注操作，也可以对已标注视频修改或删除标签进行重新标注。视频标注仅针对视频帧进行标注。开始标注登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备> 数据标注”，进入“数据标注”管理页面。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
服务状态一直处于“部署中” - AI开发平台ModelArts

模型的端口是否正确。处理方法模型的端口没有配置，如您在自定义镜像配置文件中修改了端口号，需要在部署模型时，配置对应的端口号，使新的模型重新部署服务。如何修改默认端口号，请参考使用自定义镜像创建在线服务，如何修改默认端口。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
数据集版本发布失败 - AI开发平台ModelArts

样本均被划分到训练集，导致验证集无该标签样本。由于这种情况出现的概率比较小，可尝试重新发布版本来解决。 ModelArts.4371 数据集版本已存在出现此错误码时，表示数据集版本已存在，请重新发布数据集版本。 ModelArts.4712 数据集正在执行导入或同步等其他任务

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
启动或停止Lite Server服务器 - AI开发平台ModelArts

当您暂时不需要使用弹性节点Server的时候，可以通过对运行中的裸金属实例进行停止操作，停止对资源的消耗。当需要使用的时候，对于停止状态的弹性节点Server，可以通过启动操作重新使用弹性节点Server。登录ModelArts管理控制台。在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。执行如

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

件方便用户根据自己实际需求进行修改。权重文件支持以下组合方式，用户根据自己实际要求选择：训练stage 不加载权重增量训练：加载权重，不加载优化器断点续训：加载权重+优化器 sft、dpo model_name_or_path=xxx train_from_scratch=true

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 执行训练任务
查看Workflow工作流运行记录 - AI开发平台ModelArts

辑以及重新运行的操作。删除：如果该条运行记录不再需要，您可以单击“删除”，在弹出的确认框中单击“确定”即可完成运行记录的删除。编辑：如果您想对您当前的工作流下的所有运行记录进行区分，您可以单击“编辑”，对每一条运行记录添加相应的标签予以区分。重新运行：可以单击“重新运行”直接在某条记录上运行该工作流。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow

总条数： 487

上一页
1
...
4
5
6
...
25
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业容错检查 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

创建训练作业提示错误码ModelArts.2763 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

投机推理使用说明 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

查看ModelArts模型详情 - AI开发平台ModelArts

模型发布失败 - AI开发平台ModelArts

部署上线失败 - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

数据标注场景介绍 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

服务状态一直处于“部署中” - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

启动或停止Lite Server服务器 - AI开发平台ModelArts

ascendfactory-cli方式启动（推荐） - AI开发平台ModelArts

查看Workflow工作流运行记录 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线