搜索_华为云

LoRA微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
使用DCGM监控Lite Server资源 - AI开发平台ModelArts

['xx.xx.xx.xx:9400'] # DCGM-Exporter指标获取端口，替换xx.xx.xx.xx为DCGM-Exporter所在节点的IP地址运行Prometheus： docker run -d \ -p 9090:9090 \ -v /usr/loc

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
查询训练日志 - AI开发平台ModelArts

job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明参数是否必选参数类型描述 task_id 否 String 要查看哪个工作节点的日志，默认值为"worker-0"；如果在创建训练作业时参数train_instance_count选择了2，则可选值为"worker-0"

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
SFT全参微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Qwen系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
创建和修改工作空间 - AI开发平台ModelArts

"cn-north-1" } } } } 其中，加粗的斜体字段需要根据实际值填写： iam_endpoint为IAM的终端节点。 user_name为IAM用户名。 user_password为用户登录密码。 domain_name为用户所属的帐号名。 cn-north-1为项目名，代表服务的部署区域。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
管理ModelArts服务的委托授权 - AI开发平台ModelArts

"cn-north-1" } } } } 其中，加粗的斜体字段需要根据实际值填写： iam_endpoint为IAM的终端节点。 user_name为IAM用户名。 user_password为用户登录密码。 domain_name为用户所属的账号名。 cn-north-1为项目名，代表服务的部署区域。

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
查看诊断报告 - AI开发平台ModelArts

和下发维度慢卡，然后再重点关注performance problem analysis中对应维度的各项分析及其优先级。红色为高优先级，黄色为中等优先级，绿色为低优先级。参考html进行分析调优时，请按照优先级从高到低依次进行并测试调优后性能，快速解决重点问题。图1 html报告总览-三大模块

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于Lite Server适配PyTorch NPU训练指导（6.3.904） > 准备工作
终止训练作业 - AI开发平台ModelArts

hyperinstance 超节点亲和调度 affinity_group_size Integer 亲和组大小，affinity_type为hyperinstance时必填，系统会将affinity_group_size个task调度到一个超节点内组成亲和组。用户向超节点资源池投递训练作业，

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > GLM3-6B模型基于DevServer适配PyTorch NPU训练指导（6.3.904） > 准备工作
新建消息订阅Subscription - AI开发平台ModelArts

“[ "*:failed,completed", "job_step:stop" ]”。订阅Workflow失败、完成和job_step节点停止三个事件，发生这三个事件时，会有消息提醒。 POST https://{endpoint}/v2/{project_id}/workfl

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理
手动部署推理服务 - AI开发平台ModelArts

http://${ip}:${port}/v1/chat/completions ip：为步骤五：在每个节点进入容器并启动推理服务第4小步中配置的config.json中ipAddress值 port：为步骤五：在每个节点进入容器并启动推理服务第4小步中配置的config.json中port字段的值请求调用返回json参考如下：

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理应用 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
配置Workflow的输入输出目录 - AI开发平台ModelArts

description可选填 # 通过JobStep来定义一个训练节点，输入数据来源为OBS，并将训练结果输出到OBS中 job_step = wf.steps.JobStep( name="training_job", # 训练节点的名称，命名规范(只能包含英文字母、数字、下划线（_）

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
SFT全参微调训练 - AI开发平台ModelArts

表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 1 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 CP 1 表示context并行，默认为1。应用于训练长序列文本的模型。如果训练时SEQ_LEN超过32768长度，则推荐增加CP值（CP

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
查询训练作业详情 - AI开发平台ModelArts

hyperinstance 超节点亲和调度 affinity_group_size Integer 亲和组大小，affinity_type为hyperinstance时必填，系统会将affinity_group_size个task调度到一个超节点内组成亲和组。用户向超节点资源池投递训练作业，

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询训练作业的运行指标 - AI开发平台ModelArts

job_id"，或从查询训练作业列表的响应中获得。表2 get_job_log请求参数说明参数是否必选参数类型描述 task_id 否 String 要查看哪个工作节点的日志，默认值为"worker-0"；如果在创建训练作业时参数train_instance_count选择了2，则可选值为"worker-0"

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

reduce计算，但用来测试性能不太合适。因此，会出现两节点实际带宽100，但测试出速度110，甚至130GB/s的情况。加这个参数以后，2节点和2节点以上情况的速度才会稳定一些。测试时需要执行mpirun的节点到hostfile中的节点间有免密登录，设置SSH免密登录方法如下：客户端生成公私钥。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
套餐包 - AI开发平台ModelArts
套餐包 - AI开发平台ModelArts

= 购买数量 * 购买时长。在实际使用过程中，会对时长产生扣除；扣除时长 = 所有任务消耗时长的总和，每个任务消耗的时长 = 单任务节点个数 * 任务运行时间。套餐包余量预警为避免产生按需消费，建议通过设置套餐包剩余量预警，以确保在套餐包用尽前及时接收预警。设置套餐包剩余量预警步骤如下：

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费模式

总条数： 807

上一页
1
...
31
32
33
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

LoRA微调训练 - AI开发平台ModelArts

使用DCGM监控Lite Server资源 - AI开发平台ModelArts

查询训练日志 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建和修改工作空间 - AI开发平台ModelArts

管理ModelArts服务的委托授权 - AI开发平台ModelArts

查看诊断报告 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

新建消息订阅Subscription - AI开发平台ModelArts

SD1.5基于Lite Server适配PyTorch NPU Finetune训练指导（6.3.904） - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

配置Workflow的输入输出目录 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

GPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

套餐包 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线