搜索_华为云

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

准备工作：购买服务资源（VPC、SFS、SWR和ECS）配置权限创建专属资源池（打通VPC）在ECS服务器挂载SFS Turbo存储在ECS中设置ModelArts用户可读权限安装和配置OBS命令行工具（可选）工作空间配置模型训练：本地构建镜像及调试上传镜像上传数据和算法至SFS（首次使用时需要）

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

User：用户名，例如：ma-user - HostName：IP地址 - Port：端口号在VS Code中手工配置远程连接时，在本地的ssh config文件中增加配置参数“StrictHostKeyChecking no”和“UserKnownHostsFile=/dev/null”

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
预置框架启动文件的启动流程说明 - AI开发平台ModelArts

--ps_hosts <TF_PS_HOSTS> --worker_hosts <TF_WORKER_HOSTS> --job_name <MA_TASK_NAME> 启动文件需要解析如下参数。 VC_TASK_INDEX：task序号，如0、1、2。 TF_PS_HOSTS ：ps节点地址数组，如“[xx-ps-0

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
配置Workflow的输入输出目录 - AI开发平台ModelArts

据用户自己的需求自行配置。该方式只做目录的编排，不会自动创建新的目录。输出目录管理：开发者在编辑开发工作流时可以对所有的输出路径做统一管理，用户无需手动创建输出目录，只需要在工作流运行前配置存储根路径，并且可以根据开发者的目录编排规则在指定目录下查看输出的数据信息。此外同一个工

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

Connection timed out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
配置仪表盘查看指标数据 - AI开发平台ModelArts

配置仪表盘查看指标数据 Grafana中可以自定义配置各种视图的仪表盘，ModelArts也提供了针对集群的配置模板。本章节通过使用ModelArts提供的模板查看指标和创建Dashboards查看指标的方式，说明如何进行仪表盘配置。Grafana的更多使用请参考Grafana官方文档。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
查询训练作业参数详情 - AI开发平台ModelArts

Query参数参数是否必选参数类型说明 config_type 否 String 指定要查询的配置类型，可选值有以下两种 “custom”为查询用户自定义配置。 “sample”为查询示例配置，默认为“custom”。请求消息无。响应消息响应参数如表3所示。表3 响应参数参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
文档导读 - AI开发平台ModelArts
文档导读 - AI开发平台ModelArts

文档导读本文档指导您如何安装和配置开发环境、如何通过调用ModelArts SDK提供的接口函数进行二次开发。章节内容 SDK简介简要介绍ModelArts SDK的概念。快速开始介绍如何使用ModelArts SDK进行二次开发。（可选）本地服务器安装ModelArts SDK

帮助中心 > AI开发平台ModelArts > SDK参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本（在scripts_modellink下）和配置（在examples/config下），并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 常见错误原因和解决方法 > 工作负载Pod异常 > 训练脚本说明
Notebook提示磁盘空间已满 - AI开发平台ModelArts

--max-depth 0 如果Notebook实例的存储配置采用的是云硬盘EVS，可在Notebook详情页申请扩容磁盘。建议与总结建议在使用Notebook时注意磁盘空间大小，随时删除不需要的文件。以免因磁盘空间问题导致训练失败。父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

640 ${KERNEL_GATEWAY_LOG_FILE} 执行命令ps -ef检查进程是否启动。图3 检查进程是否启动父主题：环境配置故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
管理员和开发者权限分离 - AI开发平台ModelArts

在ModelArts控制台的左侧导航栏中，选择“专属资源池”，单击创建，未提示权限不足，表明管理员用户的权限配置成功。配置开发者权限开发者权限需要通过IAM的细粒度授权控制实现，可以通过以下配置流程实现开发者权限配置。使用主账号创建一个开发者用户组user_group，将开发者账号加入用户组use

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
服务韧性 - AI开发平台ModelArts
服务韧性 - AI开发平台ModelArts

所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。 ModelArts服务部署了漏洞扫描服务并自行进行例行扫描，能快速发现漏洞并能及时修复。 ModelArts服务通过统一的安全管控平台对云上资源进行安全运维。 ModelArts服务部署了态势感知服

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前，请完成创建算法并上传至OBS桶。创建算法请参考开发用于预置框架训练的代码。创建训练作业请参考创建训练作业指导。解析输入路径参数、输出路径参数运行在Mo

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型（包括llama2、llama3、Qwen、Qwen1.5 ......）的训练脚本，并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明

总条数： 1508

上一页
1
...
4
5
6
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机多卡训练作业 - AI开发平台ModelArts

报错“Host key verification failed.'或者'Port forwarding is disabled.”如何解决？ - AI开发平台ModelArts

预置框架启动文件的启动流程说明 - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

文档导读 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

用户结束kernelgateway进程后报错Server Connection Error，如何恢复？ - AI开发平台ModelArts

管理员和开发者权限分离 - AI开发平台ModelArts

服务韧性 - AI开发平台ModelArts

在ModelArts上训练模型如何配置输入输出数据？ - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线