搜索_华为云

执行预训练任务 - AI开发平台ModelArts

数据集预处理说明。 Step2 修改训练超参配置以llama2-70b和llama2-13b预训练为例，执行脚本为0_pl_pretrain_70b.sh 和0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.908）
执行预训练任务 - AI开发平台ModelArts

练的数据集预处理说明。步骤二修改训练超参配置以llama2-70b和llama2-13b预训练为例，执行脚本为0_pl_pretrain_70b.sh 和0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.909）
日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

odelArts提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链，最大程度减少客户自行配置环境的复杂度。范围本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
执行预训练任务 - AI开发平台ModelArts

练的数据集预处理说明。步骤二修改训练超参配置以llama2-70b和llama2-13b预训练为例，执行脚本为0_pl_pretrain_70b.sh 和0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.910）
执行预训练任务 - AI开发平台ModelArts

练的数据集预处理说明。步骤二修改训练超参配置以llama2-70b和llama2-13b预训练为例，执行脚本为0_pl_pretrain_70b.sh 和0_pl_pretrain_13b.sh 。修改模型训练脚本中的超参配置，必须修改的参数如表1所示。其他超参均有默认值，可以参考表1按照实际需求修改。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911）
启动/停止/删除实例 - AI开发平台ModelArts

“/home/ma-user/work”目录以及动态挂载在“/data”下的目录下的数据会保存，其余目录下内容会被清理。例如：用户在开发环境中的其他目录下安装的外部依赖包等，在Notebook停止后会被清理。您可以通过保存镜像的方式保留开发环境设置，具体操作请参考保存Notebook实例。 No

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
OOM导致训练作业失败 - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：硬盘限制故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
训练作业进程异常退出 - AI开发平台ModelArts

atch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

/home/ma-user/anaconda3/bin/activate /home/ma-user/anaconda3/envs/my-env 执行如下命令在my env里安装如下依赖包。 pip install ipykernel 如果遇到版本冲突，建议固定版本如下： pip install jupyter_core==5

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910） > 训练脚本说明
训练权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
创建Workflow数据集版本发布节点 - AI开发平台ModelArts

开头，长度限制为64字符)。同一个Step的输出名称不能重复是 str dataset_version_config 数据集版本发布相关配置信息是 DatasetVersionConfig 表4 DatasetVersionConfig 属性描述是否必填数据类型 version_name

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
创建资源池 - AI开发平台ModelArts

Integer 资源规格的弹性资源量。物理池中该值和count必须一致。 extendParams 否 extendParams object 自定义配置参数。表9 extendParams 参数是否必选参数类型描述 dockerBaseSize 否 String 指定资源池节点的容器引擎空间大小。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询推理VPC访问通道信息的API - AI开发平台ModelArts

查询推理VPC访问通道信息的API 功能介绍该接口用于查询推理VPC访问通道。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v1/{project_i

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 1838

上一页
1
...
84
85
86
...
92
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

日志提示"No CUDA-capable device is detected" - AI开发平台ModelArts

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

执行预训练任务 - AI开发平台ModelArts

启动/停止/删除实例 - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

在ModelArts的Notebook中内置引擎不满足使用需要时，如何自定义引擎IPython Kernel？ - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

创建Workflow数据集版本发布节点 - AI开发平台ModelArts

创建资源池 - AI开发平台ModelArts

查询推理VPC访问通道信息的API - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线