搜索_华为云

SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
安全 - AI开发平台ModelArts
安全 - AI开发平台ModelArts

安全责任共担资产识别与管理身份认证与访问控制数据保护技术审计与日志服务韧性监控安全风险故障恢复更新管理认证证书安全边界

 帮助中心 > AI开发平台ModelArts > 产品介绍
计费项 - AI开发平台ModelArts
计费项 - AI开发平台ModelArts

计费项自动学习/Workflow计费项数据管理计费项开发环境计费项模型训练计费项模型管理计费项推理部署计费项专属资源池计费项

 帮助中心 > AI开发平台ModelArts > 计费说明
训练作业中使用os.system('cd xxx')无法进入相应的文件夹？ - AI开发平台ModelArts

训练作业中使用os.system('cd xxx')无法进入相应的文件夹？当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时，建议使用如下方法： import os os.chdir('/home/work/user-job-dir/xxx')

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

见在Notebook中，如何访问其他账号的OBS桶？。检查委托授权请前往权限管理，查看是否具有OBS访问授权。如果没有，请参考配置访问授权（全局配置）。检查OBS桶是否为非加密桶进入OBS管理控制台，单击桶名称进入概览页。确保此OBS桶的加密功能关闭。如果此OBS桶为加密桶，可单击“默认加密”选项进行修改。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

/scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911）
LoRA微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_lora_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909）
SFT全参微调训练 - AI开发平台ModelArts

sh ./scripts/llama2/0_pl_sft_13b.sh 创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图2 开启故障重启断

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.908）
（可选）配置镜像预热 - AI开发平台ModelArts

在ModelArts控制台左侧导航栏中找到“资源管理 > AI专属资源池 > 弹性集群Cluster”，在“Lite资源池”页签中，单击某个资源池名称，进入资源池详情。单击左侧“配置管理”，进入资源池配置管理页面。图1 配置管理在镜像预热中单击编辑图标，填写镜像预热信息。表1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

针对不同的数据量和算法情况，推荐以下训练方案：单机单卡：小数据量（1G训练数据）、低算力场景（1卡Vnt1），存储方案推荐使用“OBS的并行文件系统（存放数据和代码）”。单机多卡：中等数据量（50G左右训练数据）、中等算力场景（8卡Vnt1），存储方案推荐使用“SFS（存放数据和代码）”。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练作业
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

ook页面，关闭ModelArts管理控制台页面。然后，重新打开管理控制台，打开之前无法使用的Notebook，此时的Notebook仍会保留无法使用之前的所有变量空间。如果重新打开的Notebook仍然无法使用，则进入ModelArts管理控制台页面的Notebook列表页面

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > 代码运行常见错误
VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

火墙会关闭超时空闲连接（参考：http://bluebiu.com/blog/linux-ssh-session-alive.html），后台的实例运行是一直稳定的，重连即可再次连上。解决方法如果想保持长时间连接不断开，可以通过配置SSH定期发送通信消息，避免防火墙认为链路空闲而关闭。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

ook页面，关闭ModelArts管理控制台页面。然后，重新打开管理控制台，打开之前无法使用的Notebook，此时的Notebook仍会保留无法使用之前的所有变量空间。如果重新打开的Notebook仍然无法使用，则进入ModelArts管理控制台页面的Notebook列表页面

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
推理专属预置镜像列表 - AI开发平台ModelArts

04-x86_64-20221121111529-d65d817 镜像构建时间：20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本：Ubuntu 18.04.4 LTS cuda：10.1.243 cudnn：7.6.5.32 Python解释器路径及版本：/ho

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > ModelArts支持的预置镜像列表
从本地上传数据到ModelArts数据集 - AI开发平台ModelArts

请参考界面信息了解当前类型数据集的示意图。当前操作指导以图像分类的数据集为例。登录ModelArts管理控制台，在左侧菜单栏中选择“资产管理 >数据集”，进入“数据集”管理页面。在数据集所在行，单击操作列的“导入”。或者，您可以单击数据集名称，进入数据集“概览”页，在页面右上角单击“导入”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输，而无需经过CPU或系统内存，这可以显著降低延迟并提高带宽。所以既然nccl-tests能正常测试，但是达不到预期，可能是nv_peer_mem异常。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server

总条数： 1353

上一页
1
...
50
51
52
...
68
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

安全 - AI开发平台ModelArts

计费项 - AI开发平台ModelArts

训练作业中使用os.system('cd xxx')无法进入相应的文件夹？ - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练作业的场景介绍 - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

VS Code连接后长时间未操作，连接自动断开 - AI开发平台ModelArts

Notebook无法执行代码，如何处理？ - AI开发平台ModelArts

推理专属预置镜像列表 - AI开发平台ModelArts

从本地上传数据到ModelArts数据集 - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线