搜索_华为云

部署上线失败 - AI开发平台ModelArts

部署上线失败出现此问题，一般是因为后台服务故障导致的，建议稍等片刻，然后重新部署在线服务。如果重试超过3次仍无法解决，请获取如下信息，并联系华为云技术支持协助解决故障。获取服务ID。进入“部署上线>在线服务”页面，在服务列表中找到自动学习任务中部署的在线服务，自动学习部署的

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 部署上线
Lite Cluster资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 Lite Cluster资源配置流程配置Lite Cluster网络配置kubectl工具配置Lite Cluster存储（可选）配置驱动（可选）配置镜像预热

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
Lite Server资源配置 - AI开发平台ModelArts

Lite Server资源配置 Lite Server资源配置流程配置Lite Server网络配置Lite Server存储配置Lite Server软件环境

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
部署模型为在线服务 - AI开发平台ModelArts

或文件进行服务测试。如果您的元模型是自定义的，即推理代码和配置文件是自行编写的（配置文件编写说明），“调用指南”只是将您编写的配置文件进行了可视化展示。调用指南的输入参数与配置文件对应关系如下所示。图2 配置文件与调用指南的对应关系不同输入请求的预测方式如下： JSON文本预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业
在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？当模型配置文件中定义了具体的端口号，例如：8443，创建模型没有配置端口，或者配置了其他端口号，均会导致服务部署失败。您需要把模型中的端口号配置为8443，才能保证服务部署成功。修改默认端口号，具体操作如下：登录ModelArts控制台，左侧菜单选择“模型管理”；

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
训练启动脚本说明和参数配置 - AI开发平台ModelArts

NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

cro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
创建训练任务 - AI开发平台ModelArts

创建训练任务登录ModelArts管理控制台，检查当前账号是否已完成访问授权的配置。如果未完成，请参考使用委托授权针对之前使用访问密钥授权的用户，建议清空授权，然后使用委托进行授权。在左侧导航栏中选择“模型训练 > 训练作业”，默认进入“训练作业”列表。单击“创建训练作业”进入创建训练作业页面。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
查看ModelArts模型事件 - AI开发平台ModelArts

自定义镜像导入不支持配置运行时依赖，在构建镜像的dockerfile文件中安装pip依赖包。FAQ 异常非自定义镜像不支持指定swr_location字段。 Non-custom type models should not contain swr_location. 请删除模型配置文件config

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
训练作业参数配置 - AI开发平台ModelArts

训练作业参数配置创建训练作业参数查询训练作业参数列表更新训练作业参数删除训练作业参数查询训练作业参数详情父主题：训练管理（旧版）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版）
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量训练策略类型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
日志提示“No space left on device” - AI开发平台ModelArts

训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50G，只有默认的10GB，导致作业训练失败。实际存储空间足够，却依旧报错“No Space left

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

模型包与镜像分离，在服务部署时动态将模型加载到服务负载。配置健康检查大模型场景下导入的模型，要求配置健康检查，避免在部署时服务显示已启动但实际不可用。图3 采用自定义引擎，开启动态加载并配置健康检查示例图部署在线服务部署服务时，需满足以下参数配置：自定义部署超时时间

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

用于将此网络与某个选定的SFS Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS Turbo。关联与解除关联操作需要用户委托授权ModelArts云服务操作SFS Turbo的部分权限。涉及配置的自定义权限策略项如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
附录：config.json文件 - AI开发平台ModelArts

5000 } } } 父主题： DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导

 帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
训练启动脚本说明和参数配置 - AI开发平台ModelArts

obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

obs_data_dir) 模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Notebook提示磁盘空间已满 - AI开发平台ModelArts

--max-depth 0 如果Notebook实例的存储配置采用的是云硬盘EVS，可在Notebook详情页申请扩容磁盘。建议与总结建议在使用Notebook时注意磁盘空间大小，随时删除不需要的文件。以免因磁盘空间问题导致训练失败。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障

总条数： 1689

上一页
1
...
7
8
9
...
85
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

部署上线失败 - AI开发平台ModelArts

Lite Cluster资源配置 - AI开发平台ModelArts

Lite Server资源配置 - AI开发平台ModelArts

部署模型为在线服务 - AI开发平台ModelArts

在ModelArts中使用自定义镜像创建在线服务，如何修改端口？ - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

训练作业参数配置 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

使用大模型在ModelArts Standard创建模型部署在线服务 - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

附录：config.json文件 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线