搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

model parallel size)流水线模型并行策略，具体详细参数配置如表2所示。 Step2 创建LoRA微调训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。图1 选择镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）
Lite Server资源开通 - AI开发平台ModelArts

”。填写“用户组名称”并单击“确定”。在操作列单击“用户组管理”，将需要配置权限的用户加入用户组中。单击用户组名称，进入用户组详情页。在权限管理页签下，单击“授权”。图2 “配置权限” 在搜索栏输入“ModelArts FullAccess”，并勾选“ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
Lite功能介绍 - AI开发平台ModelArts

取相关的操作，满足算法工程师进行日常训练的需要。 ModelArts Lite Cluster面向k8s资源型用户，提供托管式k8s集群，并预装主流AI开发插件以及自研的加速插件，以云原生方式直接向用户提供AI Native的资源、任务等能力，用户可以直接操作资源池中的节点和k8s集群。

帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍
终止训练作业 - AI开发平台ModelArts

数据实际输出到OBS的路径表33 engine 参数参数类型描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询训练作业详情 - AI开发平台ModelArts

数据实际输出到OBS的路径。表33 engine 参数参数类型描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
查询算法详情 - AI开发平台ModelArts

"engine_name" : "PyTorch", "engine_version" : "PyTorch-1.3.0-python3.6" }, "code_tree" : { "name" : "code/", "children"

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
开发第一条Workflow - AI开发平台ModelArts

rm连接Notebook操作请参见配置本地IDE（PyCharm ToolKit连接）。在本地IDE的终端运行如下命令进行环境准备。Python版本要求：3.7.x或以上版本。 rm modelarts*.whl wget -N https://cn-north-4-training-test

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
设置无条件自动重启 - AI开发平台ModelArts

开启无条件自动重启开启无条件自动重启有2种方式：控制台设置或API接口设置。控制台设置在创建训练作业页面，开启“自动重启”开关，并勾选“无条件自动重启”，开启无条件自动重启。开启无条件自动重启后，只要系统检测到训练异常，就无条件重启训练作业。如果未勾选“无条件自动重启”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

s/llava-v1.5-13b-pretrain路径下，并输出模型训练精度和性能信息。训练过程中，训练日志会在最后的Rank节点打印。日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。可以使用可视化工具TrainingLogParser查看loss收敛情况。

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

configMap: name: prometheus-config 执行如下命令创建Prometheus实例，并查看创建情况： $ kubectl create -f prometheus-deployment.yml service "prometheus"

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源
管理AI Gallery模型 - AI开发平台ModelArts

模型发布后，支持修改可见范围。 “所有用户可见”：表示公开资产，所有用户都可以查看该资产。 “指定用户可见”：输入账号名、账号ID或用户昵称搜索并选择用户，使其可见该资产。管理模型可用范围仅当发布模型时，“可用范围”启用“申请用户可用”时，才支持管理模型的可用范围。管理操作包含如何

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
发布免费模型 - AI开发平台ModelArts

Gallery的用户都可以查看且使用该资产。 “指定用户”：表示仅特定用户可以查看及使用该资产。 “仅自己可见”：表示只有当前账号可以查看并使用该资产。 “时长限制”。设置订阅者可以免费使用资产的时长，默认关闭，即无限期使用。如果打开时长限制，除了设置资产免费使用的时长，还可以设置到期后是否续订。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
查看Standard专属资源池详情 - AI开发平台ModelArts

用户可以在ModelArts Standard专属资源池上拆分出逻辑子池，并设置每个子池的资源配额，包括保障配额和配额上限。拆分出逻辑子池后，训练、推理和开发环境的任务投递，需要投递在逻辑子池上，并受逻辑子池的配额约束，满足配额约束的任务才能被投递运行。在资源池详情页，切换

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
Standard模型训练 - AI开发平台ModelArts

的训练环境支持单机多卡、多机多卡的分布式训练，有效加速训练过程支持训练作业的故障感知、故障诊断与故障恢复，包含硬件故障与作业卡死故障，并支持进程级恢复、容器级恢复与作业级恢复，提供容错与恢复能力，保障用户训练作业的长稳运行提供训练作业断点续训与增量训练能力，即使训练因某些原

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
训练中的权重转换说明 - AI开发平台ModelArts

g Face格式权重。若用户需要自动转换，则在运行脚本，例如0_pl_pretrain_13b.sh中，添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

g Face格式权重。若用户需要自动转换，则在运行脚本，例如0_pl_pretrain_13b.sh中，添加变量CONVERT_MG2HF并赋值TRUE。若用户后续不需要自动转换，则在运行脚本中必须删除CONVERT_MG2HF变量。 Megatron转HuggingFace脚本具体参数如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
发布数据 - AI开发平台ModelArts
发布数据 - AI开发平台ModelArts

Gallery的用户都可以查看且使用该资产。 “指定用户”：表示仅特定用户可以查看及使用该资产。 “仅自己可见”：表示只有当前账号可以查看并使用该资产。发布来源为“ModelArts”的数据集，发布后在AI Gallery“我的数据 > 我的发布”不会立即显示，需要刷新该页面才能看到新发布的数据集。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 发布分享
使用前必读 - AI开发平台ModelArts

问权限，可以重置用户密码、分配用户权限等。由于账号是付费主体，为了确保账号安全，建议您不要直接使用账号进行日常管理工作，而是创建IAM用户并使用他们进行日常管理工作。 IAM用户由账号在IAM中创建的用户，是云服务的使用人员，具有身份凭证（密码和访问密钥）。在我的凭证下，您可

 帮助中心 > AI开发平台ModelArts > API参考
部署物体检测服务 - AI开发平台ModelArts

建议使用专属资源池，或者联系系统管理员创建公共资源池。计算节点个数：默认为1，输入值必须是1-5之间的整数。是否自动停止：启用该参数并设置时间后，服务将在指定时间后自动停止。如果不启用此参数，在线服务将一直运行，同时一直收费，自动停止功能可以帮您避免产生不必要的费用。默认开

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
查询训练作业列表 - AI开发平台ModelArts

数据实际输出到OBS的路径。表35 engine 参数参数类型描述 engine_id String 异构作业引擎规格的ID。如“caffe-1.0.0-python2.7”。 engine_name String 异构作业引擎规格的名称。如“Caffe”。 engine_version String

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业

总条数： 641

上一页
1
...
28
29
30
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

Lite Server资源开通 - AI开发平台ModelArts

Lite功能介绍 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

查询算法详情 - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

LLaVA模型基于DevServer适配PyTorch NPU预训练指导（6.3.906） - AI开发平台ModelArts

使用Prometheus查看Lite Cluster监控指标 - AI开发平台ModelArts

管理AI Gallery模型 - AI开发平台ModelArts

发布免费模型 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

Standard模型训练 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

发布数据 - AI开发平台ModelArts

使用前必读 - AI开发平台ModelArts

部署物体检测服务 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线