搜索_华为云

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

2U的CPU，运行Notebook时最大使用到2U的资源；内存同理，最少需要4.8G的内存，运行时最大使用到8U的内存。超分情况下会存在实例终止的风险。如1个8U的节点上同时启动了6个2U的实例，如果其中一个实例CPU使用增大到超过节点的上限（8U）时，k8S会将使用资源最多的实例终止掉。因

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

处理方法必现的问题，使用本地Pycharm远程连接Notebook调试安装。先远程登录到所选的镜像，使用“nvcc -V”查看目前镜像自带的CUDA版本。重装torch等，需要注意选择与上一步版本相匹配的版本。建议与总结在创建训练作业前，推荐您先使用ModelArts开发

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？在训练作业时，需要从预训练的模型中加载部分参数，初始化当前模型。请您通过如下方式加载：通过如下代码，您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import mox_flags

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_ma

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练参数配置说明【旧】 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练参数配置说明【旧】 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSMultiTurnHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSMultiTurnHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接云上环境调试请参考使用本地IDE开发模型。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
训练启动脚本说明和参数配置 - AI开发平台ModelArts

GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MOSSInstructionHandler：使用微调的moss数据集。 AlpacaStyleInstructionHandler：使用LLama-Factory模板Alpaca数据集

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

8*ascend-snt9b表示昇腾8卡。推荐使用“西南-贵阳一”Region上的昇腾资源。创建OBS桶 ModelArts使用对象存储服务（Object Storage Service，简称OBS）进行数据存储以及模型的备份和快照，实现安全、高可靠和低成本的存储需求。因此，在使用ModelArts之前

 帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作
附录：大模型推理常见问题 - AI开发平台ModelArts

inv_freq = self.inv_freq.npu() 问题7：使用Qwen2-7B、Qwen2-72B模型有精度问题，重复输出感叹号检查步骤六中4. 配置环境变量章节中，高精度模式的环境变量是否开启。问题8：使用autoAWQ进行qwen-7b模型量化时报错TypeError:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910）
查询服务监控信息 - AI开发平台ModelArts

Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 cpu_memory_usage Integer 已使用内存，单位MB。 cpu_memory_total Integer 总内存，单位MB。 gpu_usage Float 已使用GPU个数。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查询训练作业的运行指标 - AI开发平台ModelArts

运行指标，可选值如下： cpuUsage（CPU使用率）、memUsage（物理内存使用率）、gpuUtil（GPU使用率）、gpuMemUsage（显存使用率）、npuUtil（NPU使用率）、npuMemUsage（NPU显存使用率）。 value Array of numbers

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

权限说明请参见：策略及授权项说明；处理方法确认是账号欠费冻结，补交对应欠费，等待账号解冻即可；如果是导入模型没有对应的工作权限，可以参考创建自定义策略对相应账号赋予导入模型相关权限。父主题：模型管理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
训练作业失败，返回错误码139 - AI开发平台ModelArts

PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。如果上述情况都解决不了，请联系技术支持工程师。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
步骤总览 - AI开发平台ModelArts
步骤总览 - AI开发平台ModelArts

权限配置 obsutils安装和配置（可选）工作空间配置训练：线下容器镜像构建及调试上传镜像上传数据和算法至OBS（首次使用时需要）使用Notebook进行代码调试创建训练任务单机多卡资源购买：购买虚拟私有云VPC 购买弹性文件服务SFS 购买容器镜像服务SWR

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练

总条数： 2416

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

资源超分对在ModelArts的Notebook实例有什么影响？ - AI开发平台ModelArts

重装的包与镜像装CUDA版本不匹配 - AI开发平台ModelArts

日志报错“DataFrame.dtypes for data must be int, float or bool” - AI开发平台ModelArts

如何在ModelArts训练作业中加载部分训练好的参数？ - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查询服务监控信息 - AI开发平台ModelArts

查询训练作业的运行指标 - AI开发平台ModelArts

导入模型提示该账号受限或者没有操作权限 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

步骤总览 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线