搜索_华为云

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

&& \ pip install ipykernel==6.7.0 --trusted-host https://repo.huaweicloud.com -i https://repo.huaweicloud.com/repository/pypi/simple && \

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

SAVE_INTERVAL 1000 用于模型中间版本地保存。当参数值>=TRAIN_ITERS时，生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。当参数值<TRAIN_ITERS时，生成模型会每经过SAVE_INTERVAL次，保存一次模型版本。模型版本保存次数=TRAI

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
在ModelArts的Notebook中安装远端插件时不稳定要怎么办？ - AI开发平台ModelArts

按照在ModelArts的Notebook中如何设置VS Code远端默认安装的插件？配置，即会在连接远端时自动安装，减少等待时间。方法三：VS Code官网排查方式https://code.visualstudio.com/docs/remote/troubleshooting 小技巧（按需调整远端连接的相关参数）：

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

r”已重命名为“learning_rate”，在训练代码中必须写成“learning_rate”才能调用成功。keras官方文档请参见https://github.com/keras-team/keras/releases/tag/2.3.0。处理方法将训练代码里的参数名称“

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

index-url = https://repo.huaweicloud.com/repository/pypi/simple trusted-host = repo.huaweicloud.com timeout = 120 在华为开源镜像站https://mirrors.huaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

在弹出的对话框中，设置训练作业相关参数，详细参数说明请参见表1。表1 训练作业配置参数说明参数说明 Job Name 训练作业的名称。系统会自动生成一个名称，您可以根据业务需求重新命名，命名规则如下：支持1~64位字符。并包含大小写字母、数字、中划线（-）或下划线（_）。 Job Description

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 创建调试训练作业
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

ir/code/train.py 使用Ascend自定义镜像训练时的训练代码适配规范使用NPU资源创建训练作业时，系统会在训练容器里自动生成Ascend HCCL RANK_TABLE_FILE文件。当使用预置框架创建训练作业时，在训练过程中预置框架会自动解析Ascend HCCL

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
Lite Server资源开通 - AI开发平台ModelArts

支持同时购买多台机器，输入值必须在1到10之间。若有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。单击“立即创建”，完成实例的创建，随后进入付款界面，支付对应资源的订单。若有多台机器资源，会生成对应多笔订单，需逐一支付每笔订单，不可合并支付。支付完成后，由

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
切换Lite Server服务器操作系统 - AI开发平台ModelArts

self.ma_endpoint = "https://modelarts.{}.myhuaweicloud.com".format(region_name) self.service_endpoint = "https://bms.{}.myhuaweicloud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

ma-user:ma-group coco 代码云上适配下载YOLOX代码。代码仓地址：https://github.com/Megvii-BaseDetection/YOLOX.git。 git clone https://github.com/Megvii-BaseDetection/YOLOX

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
DockerFile构建镜像（可选） - AI开发平台ModelArts

如无法访问公网则需配置代理，增加`--build-arg`参数指定代理地址确保访问公网。 docker build --build-arg "https_proxy=http://xxx.xxx.xxx.xxx" --build-arg "http_proxy=http://xxx.xxx

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 准备工作
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

sh脚本的内容可以参考如下示例： #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险，建议在配置文件或者环境变量中密文存放，使用时解密，确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWE

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

&& cd ${container_work_dir}/data # 下载pretrain_clip场景的数据集 git clone https://huggingface.co/datasets/liuhaotian/LLaVA-Pretrain cd LLaVA-Pretrain

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

ocker命令基本一致，可用于后续镜像构建步骤中。 # 下载 nerdctl 工具，注意使用的是1.7.6 arm64版本 wget https://github.com/containerd/nerdctl/releases/download/v1.7.6/nerdctl-1.7

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 准备工作
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

即便模型训练中断，也可以基于checkpoint继续训练。当训练作业发生故障中断本次作业时，代码可自动从训练中断的位置继续训练，加载中断生成的checkpoint，中间不需要改动任何参数。可以通过训练脚本中的SAVE_INTERVAL参数来指定间隔多少step保存checkpoint。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
advisor调优总体步骤 - AI开发平台ModelArts

采集完profiling后如果ModelArts训练作业已经停止，则推荐参照创建诊断任务创建cpu规格的notebook进行性能分析，节省NPU计算资源。完成分析后，可以查看生成的html文件来进行快速的调优，html文件详情请参考查看诊断报告。下面以开发环境Notebook为例介绍一个典型的性能调优案例。 64卡训练任务，模型为GPT

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
查询可视化作业列表 - AI开发平台ModelArts

String 可视化作业的计费资源ID。请求示例如下以查询正在部署中的作业，按递增排序，显示第1页前10个可视化作业为例。 GET https://endpoint/v1/{project_id}/visualization-jobs ?status=7&per_page=10

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 可视化作业
创建ModelArts数据选择任务 - AI开发平台ModelArts

据处理”页面。在创建数据处理页面，填写相关算法参数。填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成，按“V0001”、“V0002”规则命名，用户无法修改。您可以根据实际情况填写“名称”和“描述”信息。设置场景类别。场景类别当前支持“图像分类”和“物体检测”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据

总条数： 858

上一页
1
...
38
39
40
...
43
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在ModelArts Standard上运行GPU单机单卡训练作业 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

在ModelArts的Notebook中安装远端插件时不稳定要怎么办？ - AI开发平台ModelArts

日志提示“Unexpected keyword argument passed to optimizer” - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（PyTorch+CPU/GPU） - AI开发平台ModelArts

使用PyCharm ToolKit创建并调试训练作业 - AI开发平台ModelArts

开发用于自定义镜像训练的代码 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

切换Lite Server服务器操作系统 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

DockerFile构建镜像（可选） - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

LLaVA-NeXT基于Lite Server适配PyTorch NPU训练微调指导（6.3.912） - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

advisor调优总体步骤 - AI开发平台ModelArts

查询可视化作业列表 - AI开发平台ModelArts

创建ModelArts数据选择任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线