搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
显存溢出错误 - AI开发平台ModelArts

显存溢出错误在训练过程中，常见显存溢出报错，示例如下： RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
报名实践活动（实践） - AI开发平台ModelArts

我的实践”），查看个人已参加的实践活动列表。报名实践活动进入AI Gallery首页，单击“实践”，在下拉框中单击“实践 >”，进入实践首页。在实践列表选择您感兴趣的实践活动。报名实践活动：方式一：单击实践活动简介下的“立即报名”，进入邀请函页面，根据提示填写个人信息，单击“报名”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 参加活动
使用镜像 - AI开发平台ModelArts
使用镜像 - AI开发平台ModelArts

Gallery中，您可以查找共享的镜像并用于AI开发。使用镜像登录“AI Gallery”。选择“资产集市 > 镜像”，进入镜像页面，该页面展示了所有共享的镜像。搜索业务所需的镜像，请参见查找和收藏资产。单击目标镜像进入详情页面。在详情页面您可以查看镜像的AI引擎框架、使用芯片、镜像URL、包含的依赖项等信息。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
训练日志失败分析 - AI开发平台ModelArts

ModelArts Standard提供了训练作业失败定位与分析功能，如果训练作业运行失败，ModelArts会自动识别导致作业失败的原因，在训练日志界面上给出提示。提示包括三部分：失败的可能原因、推荐的解决方案以及对应的日志（底色标红部分）。图1 训练故障识别 ModelArts Sta

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
终止训练作业 - AI开发平台ModelArts

表57 SSHResp 参数参数类型描述 key_pair_names Array of strings SSH密钥对名称，可以在云服务器控制台（ECS）“密钥对”页面创建和查看。 task_urls Array of TaskUrls objects SSH连接地址信息。表58

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
人工标注文本数据 - AI开发平台ModelArts

的任意一个关系标签。当无法添加某个关系标签时，界面将显示一个红色的叉号，如图2所示。图1 实体标签和关系标签的示例图2 无法添加关系标签开始标注登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备> 数据标注”，进入“数据标注”管理页面。在标注作业列表右侧“所

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
创建训练任务 - AI开发平台ModelArts

之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。在“创建训练作业”页面，填写相关参数信息，然后单击“提交”。创建方式：选择“自定义算法”。启动方式：选择“自定义”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
管理Lite Cluster资源池 - AI开发平台ModelArts

资源池 > 弹性集群Cluster”，进入Lite资源池列表页中操作，如下图所示。图1 续费查看Lite Cluster资源池基本信息在ModelArts管理控制台的左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”，进入Lite资源池列表页中，单击Lite C

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

上传自定义算法前，请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。解析输入路径参数、输出路径参数运行在ModelArts的模型读取存储在OBS服务的数据，或者输出至OBS服务指定路径，输入和输出数据需要配置3个地方：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
如何删除ModelArts数据集中的图片？ - AI开发平台ModelArts

如何删除ModelArts数据集中的图片？登录ModelArts管理控制台，左侧菜单栏选择“数据管理>数据标注”，进入数据标注列表，单击需要删除图片的数据集，进入标注详情页。在“全部”、“未标注”或“已标注”页面中，依次选中需要删除的图片，或者“选择当前页”选中该页面所有图片

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
保存ckpt时超时报错 - AI开发平台ModelArts

保存ckpt时超时报错在多节点集群训练完成后，只有部分节点会保存权重，而其他节点会一直在等待通信。当等待时间超过36分钟时，会发生超时的错误。图1 报错提示解决方法 1. 需要保证磁盘IO带宽正常，可以在36分钟内将文件保存到磁盘。单个节点内，最大只有60G（实际应该在40

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法
人工标注音频数据 - AI开发平台ModelArts

登录ModelArts管理控制台，在左侧菜单栏中选择“数据准备> 数据标注”，进入“数据标注”管理页面。在标注作业列表右侧“所有类型”页签下拉选择标注类型，基于“标注类型”选择需要进行标注的标注作业，单击标注作业名称进入标注作业标注详情页。图1 下拉选择标注类型在标注作业标注详情中，展示此标注作业下全部数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
服务启动失败 - AI开发平台ModelArts

需要检查两个地方：自定义镜像中的代码开放的端口和创建模型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息，则ModelArts会默认监听8080端口，即镜像代码中启用的端口必须是8080。图2 自定义镜像中的代码开放的端口图3 创建模型界面上配置的端口健康检查配置有问题镜

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

请确保训练作业已运行成功，且模型已存储至训练输出的OBS目录下（输入参数为train_url）。针对使用常用框架或自定义镜像创建的训练作业，需根据模型包结构介绍，将推理代码和配置文件上传至模型的存储目录中。确保您使用的OBS目录与ModelArts在同一区域。创建模型操作步骤

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 创建模型
推理场景介绍 - AI开发平台ModelArts

#安装opencompass脚本 ├──vllm_api.py #启动vllm api服务器 ├──vllm.py #构造vllm评测配置脚本名字相关文档和本文档配套的模型训练文档请参考主流开源大模型基于Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
ModelArts数据集新建的版本找不到怎么办？ - AI开发平台ModelArts

ModelArts数据集新建的版本找不到怎么办？版本列表是可以缩放的，请缩小页面后查找。单击数据集名称，进入数据集概览页，在概览页选择“版本管理”，可对页面进行缩小。父主题： Standard数据准备

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

出管道的具体信息。实例中“inputs”中“remote”下的“obs_url”表示从OBS桶中选择训练数据的OBS路径。实例中“outputs”中“remote”下的“obs_url”表示上传训练输出至指定OBS路径。 “spec”字段下的“flavor_id”表示训练作业所依

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
部署的在线服务状态为告警 - AI开发平台ModelArts

个角度进行排查，并重新部署。后台预测请求过多。如果您使用API接口进行预测，请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。业务内存不正常。请检查推理代码是否存在内存溢出或者内存泄漏的问题。模型运行异常。请检查您的模型是否能正常运行。例如模型依赖的资源是否故障，需要排查推理日志。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署

总条数： 1606

上一页
1
...
58
59
60
...
81
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

报名实践活动（实践） - AI开发平台ModelArts

使用镜像 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

人工标注文本数据 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

管理Lite Cluster资源池 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

如何删除ModelArts数据集中的图片？ - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

保存ckpt时超时报错 - AI开发平台ModelArts

人工标注音频数据 - AI开发平台ModelArts

服务启动失败 - AI开发平台ModelArts

从训练作业中导入模型文件创建模型 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

ModelArts数据集新建的版本找不到怎么办？ - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

部署的在线服务状态为告警 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线