搜索_华为云

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

调用查询训练作业指定任务的日志（OBS链接）接口获取训练作业日志的对应的obs路径。调用查询训练作业指定任务的运行指标接口查看训练作业的运行指标详情。当训练作业使用完成或不再需要时，调用删除训练作业接口删除训练作业。前提条件已获取IAM的EndPoint和ModelArts的EndPoint。确认服务的

 帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

update sudo apt-get install nfs-common 获取SFS Turbo的挂载命令。进入弹性文件服务SFS管理控制台。选择“SFS Turbo”进入文件系统列表，单击文件系统名称，进入详情页面。在“基本信息”页签获取并记录“Linux挂载命令”。在ECS服务器中挂载NFS存储。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

信息。 npu-smi info 如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

9-b708-6ad 0357037f5' { [root@Server-ddff ~]# 查看假如reboot（尚未reboot）后默认选择的内核版本： [root@Server-ddff ~]# grub2-editenv list saved_entry=EulerOS (4

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
创建训练作业 - AI开发平台ModelArts

train_instance_type 是 String 训练作业选择的资源规格，请参考查询资源规格列表 train_instance_count 是 int 训练作业计算节点个数。 framework_type 否 String 训练作业选择的引擎规格，请参考查询引擎规格列表。 framework_version

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

的华为方技术支持。适配的CANN版本是cann_8.0.rc2，驱动版本是23.0.5。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格，只有llama3-8B/70B支持该功能。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
启动Notebook实例 - AI开发平台ModelArts

实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询Notebook实例详情 - AI开发平台ModelArts

实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
删除Notebook实例 - AI开发平台ModelArts

实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
训练的权重转换说明 - AI开发平台ModelArts

sh。脚本具体参数如下： HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

sh。脚本具体参数如下： HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

sh。脚本具体参数如下： HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
停止Notebook实例 - AI开发平台ModelArts

实例描述。 endpoints Array of EndpointsRes objects 本地IDE（如PyCharm、VS Code）或SSH客户端，通过SSH远程接入Notebook实例时需要的相关配置。 fail_reason String 实例失败原因。 flavor String

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
AI应用的自定义镜像制作流程 - AI开发平台ModelArts

如果要实现无损滚动升级，必须配置健康检查接口。自定义镜像如果需要在“在线服务”模块使用OBS外部存储挂载功能，需要新建一个OBS挂载专属目录如“/obs-mount/”，避免选择存量目录覆盖已有文件。OBS挂载仅开放对挂载目录文件新增、查看、修改功能，如果需要删除文件请到OBS并行文件系统中手动删除。健康检查接口示例如下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
训练的权重转换说明 - AI开发平台ModelArts

sh。脚本具体参数如下： HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
Notebook提示磁盘空间已满 - AI开发平台ModelArts

根据实际删除回收站不需要的大文件。（注：请谨慎操作，文件删除后不可恢复） rm {文件路径} 如果删除的文件夹或者文件中带有空格，需要给文件夹或文件加上单引号。如图示例：执行如下命令，再次检查虚拟机所使用的存储空间。 cd /home/ma-user/work du -h --max-depth

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
查询资源池 - AI开发平台ModelArts

Dedicate：物理资源池，独立的网络，支持网络打通，定制驱动，定制作业类型。 scope Array of strings 资源池支持的作业类型。至少选择一种，物理资源池支持全部选择。可选值如下： Train：训练作业 Infer：推理作业 Notebook：Notebook作业 resources Array

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
训练文本分类模型 - AI开发平台ModelArts

返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议您耐心等待。如果关闭或退出此页面，系统仍然在执行训练操作。在“文本分类”节点中，待训练状态由“运行中”变为“运行成功”，即完成模型的自动训练。图2 运行成功

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
训练中的权重转换说明 - AI开发平台ModelArts

脚本具体参数如下： HuggingFace转Megatron参数说明 --model-type：模型类型。 --loader：选择对应加载模型脚本的名称。 --saver：选择模型保存脚本的名称。 --tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明参考
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Service）作为存储的方案，OBS用于存储模型文件、训练数据、代码、日志等，提供了高可靠性的数据存储解决方案。约束限制如果要使用自动重启功能，资源规格必须选择八卡规格，只有llama3-8B/70B支持该功能。本案例仅支持在专属资源池上运行。支持的模型列表本方案支持以下模型的训练，如表1所示。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

总条数： 1294

上一页
1
...
59
60
61
...
65
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

ECS服务器挂载SFS Turbo存储 - AI开发平台ModelArts

SD1.5&SDXL ComfyUI、WebUI、Diffusers套件适配PyTorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

删除Notebook实例 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

停止Notebook实例 - AI开发平台ModelArts

AI应用的自定义镜像制作流程 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

训练文本分类模型 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线