搜索_华为云

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

odelArts提供了即开即用的云上集成开发环境，包含迁移所需要的算力资源、AI框架、昇腾开发套件以及迁移调优工具链，最大程度减少客户自行配置环境的复杂度。范围本文涉及PyTorch训练的单卡和分布式业务迁移到昇腾的业务范围。当前针对常见的开源LLM/AIGC等领域的开源模型

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
创建自动模型优化的训练作业 - AI开发平台ModelArts

运行过程中，ModelArts后台通过指标正则表达式获取搜索指标参数，朝指定的优化方向进行超参优化。用户需要在代码中打印搜索参数并在控制台配置以下参数。图1 设置算法搜索功能搜索指标搜索指标为目标函数的值，通常可以设置为loss、accuracy等。通过优化搜索指标的目标值

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 自动模型优化（AutoSearch）
创建物体检测项目 - AI开发平台ModelArts

选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，物体检测项目

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现物体检测
创建文本分类项目 - AI开发平台ModelArts

选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，文本分类项目

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
托管模型到AI Gallery - AI开发平台ModelArts

Gallery，单击右上角“我的Gallery”进入我的Gallery页面。单击左上方“创建资产”，选择“模型”。在“创建模型”弹窗中配置参数，单击“创建”。表1 创建模型参数名称说明英文名称必填项，模型的英文名称。如果没有填写“中文名称”，则资产发布后，在模型页签上会显示该“英文名称”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

获取模型软件包和权重文件本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表1所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.910-xxx.zip 说明：软件包名称中的xxx表示时间戳。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 准备工作
Standard资源管理 - AI开发平台ModelArts

弹性集群又分为Standard弹性集群与Lite弹性集群。 Standard弹性集群提供独享的计算资源，使用ModelArts Standard开发平台的训练作业、部署模型以及开发环境时，通过Standard弹性集群的计算资源进行实例下发。 Lite弹性集群面向k8s资源型用户，提供托管式k8s集群，并预

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
创建声音分类项目 - AI开发平台ModelArts

选择自动学习训练节点所使用的资源规格，以实际界面显示为准，将会根据不同的规格计费。说明：只有北京四区域支持限时免费规格。如果您购买了套餐包，可优先选择您对应规格的套餐包，在“配置费用”处会显示您的套餐余量，以及超出的部分如何计费，请您关注，避免造成不必要的资源浪费。单击“创建项目”，声音分类项目

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题： GPU相关问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
训练的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.910） > 训练脚本说明
修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

设置某一作业类型后，即可在此专属资源池中下发此种类型的作业，没有设置的作业类型不能下发。为了支持不同的作业类型，后台需要在专属资源池上进行不同的初始化操作，例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源，导致用户实际可用资源减少。因此建议用户按需设置，避免不必要的资源浪费。约束限制专属资源池状态处于“运行中”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir :

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
扩缩容Standard专属资源池 - AI开发平台ModelArts

致。在“专属资源池扩缩容”页面，设置“资源配置 > 可用区”，可用区可选择随机分配和指定AZ。选择随机分配时，扩缩容完成后，节点的可用区分布由系统后台随机选择。选择指定AZ时，可指定扩缩容完成后节点的可用区分布。图1 资源配置（单节点方式）修改容器引擎空间大小扩容资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
管理Lite Cluster节点 - AI开发平台ModelArts

如图1，下发重置节点任务时需要填写以下参数。表1 重置参数说明参数名称说明操作系统选择下拉框中支持的操作系统。配置方式选择重置节点的配置方式。按节点比例：重置任务包含多个节点时，可以设置同时被重置节点的最高比例。按实例数量：重置任务包含多个节点时，可以设置同时被重置节点的最大个数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理

总条数： 1457

上一页
1
...
62
63
64
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts

训练业务迁移到昇腾设备场景介绍 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

创建自动模型优化的训练作业 - AI开发平台ModelArts

创建物体检测项目 - AI开发平台ModelArts

创建文本分类项目 - AI开发平台ModelArts

日志提示“RuntimeError: connect() timed out” - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Standard资源管理 - AI开发平台ModelArts

创建声音分类项目 - AI开发平台ModelArts

日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

修改Standard专属资源池支持的作业类型 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

管理Lite Cluster节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线