搜索_华为云

预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

r-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：OR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
查询训练作业详情 - AI开发平台ModelArts

id：只取算法的id； subscription_id+item_version_id：取算法的订阅id和版本id； code_dir+boot_file：取训练作业的代码目录和启动文件。 name String 算法名称。 subscription_id String 订阅算法

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
LoRA微调训练 - AI开发平台ModelArts

r-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：OR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908）
SFT全参微调训练 - AI开发平台ModelArts

r-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：OR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
（可选）配置镜像预热 - AI开发平台ModelArts

镜像预热参数参数名称说明镜像来源可选择“预置”或“自定义”的镜像。预置：可选择SWR服务上自有的或他人共享的镜像。自定义：可直接填写镜像地址。添加镜像密钥若本租户不具有预热的镜像的权限（即非公开/非本租户私有/非他人共享的镜像），此时需要添加镜像密钥。在开启镜像密钥开关后，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
查询节点池的节点列表 - AI开发平台ModelArts

Deleting：节点删除中 Abnormal：节点不正常 Checking: 节点自检中 az String 节点所在的可用区。 privateIp String 节点的IP地址。 resources NodeResource object 节点资源量信息。 availableResources NodeResource

帮助中心 > AI开发平台ModelArts > API参考 > 节点池管理
API概览 - AI开发平台ModelArts
API概览 - AI开发平台ModelArts

获取工作流节点的度量信息。表3 WorkflowSubscription API 说明新建消息订阅创建工作消息订阅。删除Subscription 删除消息订阅。查询Subscription详情查询订阅信息。更新Subscription 更新订阅信息。表4 WorkflowSchedule

帮助中心 > AI开发平台ModelArts > API参考
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

-p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用，排查3。在VS Code Terminal里执行如下检查网络。如果网络异常，请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题，请联系技术支持。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练中的权重转换说明 - AI开发平台ModelArts

同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

168.20.0/24重叠，否则会和专属资源池的网段发生冲突，因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

r-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：OR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

-p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用，排查3。在VS Code Terminal里执行如下检查网络。如果网络异常，请执行命令检查端口。 curl -kv telnet://<域名/ip>:<port> 端口有问题，请联系技术支持。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
训练中的权重转换说明 - AI开发平台ModelArts

同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明参考
训练中的权重转换说明 - AI开发平台ModelArts

同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练中的权重转换说明 - AI开发平台ModelArts

同调整参数target-tensor-parallel-size，默认为1。 --target-pipeline-parallel-size ：任务不同调整参数target-pipeline-parallel-size，默认为1。输出转换后权重文件保存路径：权重转换完成后，在

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

initialize NVML 问题现象华为云裸金属服务器，NVIDIA驱动卸载后重新安装。（1）已卸载原有版本NVIDIA驱动和CUDA版本，且已安装新版本的NVIDIA驱动和CUDA版本（2）执行nvidia-smi失败，提示Failed to initialize NVML: Driver/library

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
LoRA微调训练 - AI开发平台ModelArts

r-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：OR

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909）
GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

务，如文本生成、机器翻译和对话系统等。 DeepSpeed是NVIDIA开源的加速深度学习训练的库。它针对大规模的模型和分布式训练进行了优化，可以显著提高训练速度和效率。DeepSpeed提供了各种技术和优化策略，包括分布式梯度下降、模型并行化、梯度累积和动态精度缩放等。它还支持优化大模型的内存使用和计算资源分配。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源使用
使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

Label名字 Label描述容器级别指标 pod_name 容器所属pod的名字。 pod_id 容器所属pod的ID。 node_ip 容器所属的节点IP值。 container_id 容器ID。 cluster_id 集群ID。 cluster_name 集群名称。 container_name

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理 > 监控Lite Cluster资源

总条数： 973

上一页
1
...
23
24
25
...
49
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

预训练 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

查询节点池的节点列表 - AI开发平台ModelArts

API概览 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

GPT-2基于Server适配PyTorch GPU的训练推理指导 - AI开发平台ModelArts

使用AOM看Lite Cluster监控指标 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线