搜索_华为云

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.910） > 准备工作 > 准备镜像
在MaaS中创建模型 - AI开发平台ModelArts

在MaaS中创建模型在ModelArts Studio大模型即服务平台使用基础模型创建个人专属模型。场景描述 MaaS提供了基于昇腾云算力适配的开源大模型，您可以使用这些基础模型，结合自定义的模型权重文件，创建个人专属的模型。创建成功的模型可以在ModelArts Stud

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中，去升级了pytroch1.4的版本，导致之前在pytroch1.3跑通的代码报错如下： “Runtim

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
创建ModelArts数据清洗任务 - AI开发平台ModelArts

创建ModelArts数据清洗任务前提条件数据已准备完成：已经创建数据集或者已经将数据上传至OBS。确保您使用的OBS与ModelArts在同一区域。创建数据处理任务登录ModelArts管理控制台，在左侧的导航栏中选择“数据准备>数据处理”，进入“数据处理”页面。在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

预训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

LoRA微调训练前提条件已上传训练代码、训练权重文件和数据集到OBS中，具体参考代码上传至OBS。 Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的llm_train/AscendSpeed代码目录。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
创建ModelArts数据校验任务 - AI开发平台ModelArts

创建ModelArts数据校验任务前提条件数据已准备完成：已经创建数据集或者已经将数据上传至OBS。确保您使用的OBS与ModelArts在同一区域。创建数据处理任务登录ModelArts管理控制台，在左侧的导航栏中选择“数据准备>数据处理”，进入“数据处理”页面。在

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像通过ECS获取和上传基础镜像获取基础镜像后，可通过ECS运行Dockerfile文件，在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像获取模型软件包，并上传到ECS的目录下（可自定义路径），获取地址参考表1。解压A

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作 > 准备镜像
训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成，则执行脚本，自动完成数据预处理和权重转换的过程。如果用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） > 训练脚本说明参考
创建标注任务 - AI开发平台ModelArts

创建标注任务基于数据集创建标注任务。 dataset.create_label_task(self, task_name=None, task_type=None, **kwargs) 示例代码示例一：基于图像类型的数据集创建物体检测标注任务。 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 标注任务管理
内存不足如何处理？ - AI开发平台ModelArts

内存不足如何处理？问题现象在部署或升级在线服务时，如果部署或升级失败，并且在事件中出现如下类似提示。图1 内存不足提示样例1 运行中服务出现告警时，在事件中出现建议：内存不足，请增加内存。图2 内存不足提示样例2 原因分析部署或升级时出现该提示，可能原因是选择的计算节点

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 Pod状态为Pending 当Pod状态长时间为“Pending”，事件中出现“实例调度失败”的信息时，可根据具体事件信息确定具体问题原因。图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换在训练开始前，因模型权重文件可能与训练框架不匹配或有优化，因此需要针对模型的tokenizer文件进行修改或替换，不同模型的tokenizer文件修改内容如下。 falcon-11B模型在训练开始前，针对falcon-11B模型中的tokenizer文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误问题现象基于TensorFlow-1.8启动训练作业，并在代码中使用“tf.gfile”模块连接OBS，启动训练作业后会频繁打印如下日志信息： Connection has been released. Continuing

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
执行LoRA微调训练任务 - AI开发平台ModelArts

执行LoRA微调训练任务 Step1 上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训练权重文件和数据集到容器中，具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908）

总条数： 2028

上一页
1
...
89
90
91
...
102
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

创建ModelArts数据清洗任务 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

创建ModelArts数据校验任务 - AI开发平台ModelArts

ECS中构建新镜像 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

创建标注任务 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

执行LoRA微调训练任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线